大模型生活模拟器LifeSim如何重新定义个性化评测标准

首页

热心网友

转载

2026-05-20

通用AI助手正加速融入日常生活，但一个核心挑战日益凸显：我们如何判断它真正理解“你”的需求与背景？

当前，针对个性化AI助手的评估，大多仍局限于“一问一答”的静态模式。用户复杂的需求被简化为孤立的指令，仿佛脱离了真实的生活情境。然而，现实场景远非如此简单。一个想法的产生，可能源于窗外突变的天气、手机弹出的新闻提醒，或是过往经历留下的情绪印记。真正的个性化智能，要求AI不仅能解析字面指令，更要能深度理解背后动态交织的“上下文”——这既包括用户稳定的内在特质，也涵盖瞬息万变的外部环境。

由于涉及用户隐私且难以大规模获取，长期、跨场景的真实交互数据一直是构建评测体系的瓶颈。为此，复旦大学与上海创智学院的研究团队提出了一个创新解决方案：LifeSim。这是一个用于评估个性化助手的“长程用户生活模拟框架”。其目标并非复制特定个体，而是构建能够模拟人类在复杂环境中如何思考、决策与交互的“数字替身”，从而为AI助手提供一个高度逼真的“训练与测试场”。

论文标题：LifeSim: Long-Horizon User Life Simulator for Personalized Assistant Evaluation
论文地址：https://arxiv.org/abs/2603.12152
GitHub 地址：https://github.com/dfy37/lifesim
Demo 链接：https://fudan-disc.com/lifesim/

图 1：基于长程时空上下文的个人AI助手。用户行为会随外部环境动态演化，同时又体现出稳定的个人特质。要实现有效响应，模型需要在适配当前上下文的同时，利用交互历史推断用户状态，从而动态调整自身策略。

融合BDI理论的模拟框架：LifeSim

LifeSim的核心创新在于，它同步模拟了用户的“内心世界”与“外部世界”。该框架主要由四大模块构成：用户画像、基于信念-愿望-意图（BDI）模型的认知引擎、基于环境约束的事件引擎，以及最终的用户行为引擎。

图 2：LifeSim框架概览。针对每个目标用户，其用户画像包含人口统计学属性、人格特质与长期偏好，这些要素共同构成长期信念状态。基于BDI模型的认知引擎与事件引擎相结合，将主观信念状态与物理环境进行融合，共同生成用户意图。随后，用户行为引擎通过对记忆感知、情绪推理与行为选择进行建模，生成对话内容。

为充分体现用户的多样性，研究团队构建了一个百万量级的用户画像池。每个画像均包含人口统计属性、基于大五人格模型的人格特质，以及长期偏好。这些信息构成了模拟用户的“长期信念”基础。

那么，一个模拟的“数字用户”是如何进行思考决策的呢？这便引入了经典的BDI模型：

信念：指用户所知晓或相信的信息，既包括长期的画像信息，也包括短期对具体情境的认知。
愿望：可理解为被激发的需求，这些需求来源于一个真实的、多样化的用户需求库。
意图：这是最终形成的行动倾向。LifeSim会综合用户画像、近期经历以及当前环境（如时间、地点），生成一个合乎逻辑的行为意图。

仅有内心活动不足以模拟真实生活。LifeSim的事件引擎以真实的出行轨迹数据为基础，融入时间、地点等环境因素，为用户生成连贯的生活事件序列。这使得用户的需求不再是凭空出现的，而是自然“涌现”于具体的生活场景之中。

最后，用户行为引擎负责将内部的认知状态和外部的事件序列，转化为具体的、多轮次的对话行为。它会综合考虑记忆、情绪等多重因素，确保生成的回复既符合用户一贯的画像特征，又与当前上下文高度相关，呈现出自然流畅的交互体验。自动评估与人工评估均验证了该行为引擎的有效性。

表 1：基于不同模型基座的用户行为引擎在四个维度上的性能表现。

更贴近真实世界的评测基准：LifeSim-Eval

基于上述模拟框架，团队进一步构建了LifeSim-Eval评测基准。与传统评测相比，它特别关注三个更深层次的评估维度：

模型能否准确识别并满足用户的显性意图以及更具挑战性的隐性意图？后者需要结合用户画像和具体场景进行深度推理。
模型能否在与用户的长期互动中，逐步重建出准确的用户画像？
模型的回复是否符合用户画像并保持长期一致性？

LifeSim-Eval利用LifeSim模拟了120个不同画像的用户，在1200个评测场景中进行交互，覆盖了8个常见的日常生活领域。评测设置了两种模式：

单场景模式：AI助手仅基于当前单一场景，与模拟用户进行最多20轮对话。
长时程模式：AI助手需要结合与同一用户的历史交互记录，来响应当前场景，这对模型的长期记忆和上下文推理能力提出了更高要求。

评测指标设计全面，涵盖了意图识别与完成度、偏好重建准确率、画像对齐度，以及回复的自然度和对话连贯性。

实验结果与关键发现

研究团队在包括GPT-5、GPT-4o、Claude Sonnet 4.5，以及DeepSeek-V3.2、Qwen、Llama、gpt-oss等多个主流开源和闭源大模型上进行了系统评测。结果揭示了一些深刻且值得关注的发现：

1. 显性意图处理较强，隐性意图理解明显薄弱

在单场景测试中，大多数模型对于用户直接表达的需求（显性意图）处理得较好。然而，一旦面对需要“揣摩心意”的隐性意图，所有模型的性能平均下降了超过20分。这清晰地表明，当前模型在处理直白指令上已相当熟练，但在理解言外之意、结合背景进行深度推理方面，仍有显著差距。

表 2：主流模型在LifeSim-Eval上的评测结果。

2. 长程对话进一步放大隐性意图处理难度

当对话拉长，进入长时程模式后，问题变得更加突出。模型对显性意图的完成率尚能保持相对稳定，但对隐性意图的完成能力则显著下滑，并且随着历史对话长度的增加，这种下滑趋势持续加剧。这说明，现有模型或许能记住长上下文中的事实细节，但要从这些长期互动中提炼用户状态和偏好的动态变化，并进行有效推理，能力依然不足。

图 3：不同助手模型的长时序意图完成性能。热力图展示了意图完成度（I.C.）得分随对话长度的变化情况。

3. 简单的记忆机制收益有限

一个直观的改进思路是：让模型在每次对话后总结用户偏好，以增强记忆。实验测试了这种“画像记忆机制”。结果发现，这种做法对重建用户偏好仅有微弱且不稳定的帮助，部分模型甚至几乎没有改善。这指向一个更深层的问题：长期个性化能力的瓶颈，或许不在于“记不住”，而在于模型缺乏稳定的、基于长期证据进行偏好推理与泛化的能力。

图 4：用户偏好还原性能随交互场景数量增长的变化趋势。

4. 在不同意图类型与生活主题上表现不均衡

不同意图类型下的模型相对性能。

不同意图主题下的模型相对性能。

进一步分析表明，模型在不同类型的意图（如任务型 vs. 情感型）和不同生活主题（如餐饮、出行、娱乐）上的表现存在显著差异。例如，在处理以任务为导向的显性需求（如“预订航班”）和需要情感推理的隐性需求（如“安慰情绪低落的朋友”）时，模型的性能波动很大。这种“偏科”现象提醒我们，要打造一个全能的个性化AI助手，需要在不同领域进行更精细化的能力优化。

5. 模型存在三类典型缺陷

通过具体的案例分析，研究总结出当前模型在扮演长期个性化助手时，最容易暴露的三种缺陷：