浙大研发AI角色扮演框架支持四通道消息沉浸式交互_AI热点日报

浙大研发AI角色扮演框架支持四通道消息沉浸式交互

类型：热点整理2026-05-12

AI角色扮演正迎来一次关键的“沉浸式”升级，旨在突破传统对话式交互的局限。当前，利用大语言模型进行角色扮演已相当普遍。无论是化身历史人物、小说主角，还是用户原创角色，系统都能与之展开持续对话。理想状态下，AI角色应能真正“活”在情境中：言行高度契合人设，对环境变化保持敏感，并能根据人物关系做出恰当

AI角色扮演正迎来一次关键的“沉浸式”升级，旨在突破传统对话式交互的局限。

当前，利用大语言模型进行角色扮演已相当普遍。无论是化身历史人物、小说主角，还是用户原创角色，系统都能与之展开持续对话。理想状态下，AI角色应能真正“活”在情境中：言行高度契合人设，对环境变化保持敏感，并能根据人物关系做出恰当回应。

然而，现实体验往往不尽如人意。许多现有系统更像是披着角色外衣的聊天机器人——对话或许流畅，却总感觉缺乏“戏剧张力”和真实的情境感，叙事难以深入。

以经典的侦探探案场景为例。一个理想的侦探AI，应能引导用户在案发现场仔细勘察，根据蛛丝马迹展开推理，并辗转于不同地点询问各色证人，让环境线索真正参与破案过程。但当前多数系统，往往将故事局限在固定场景和少数角色间的来回对话，无法实现动态的场景切换、角色调度与线索有机串联，导致剧情推进乏力。

问题的根源何在？研究团队指出了当前AI角色扮演系统的两大核心局限。

现有方法缺了环境信号，也缺了“组织者”

首先，是沉浸感严重不足。 在许多系统中，环境仅仅充当“背景板”。早期研究仅关注角色的“台词”，后续虽引入了“动作”或“内心独白”，但对环境要素的处理依然薄弱。在叙事中，环境绝非装饰品。它塑造氛围、暗藏因果，是连接角色行动与世界动态变化的关键桥梁。

试想，案发现场地毯上的一小块特殊蜡痕，煤气灯投下的摇曳阴影，证人住所门口未干的泥渍……这些环境信号，既能支撑关键推理（例如蜡痕指向特定类型的蜡烛），也能成为剧情转折的契机（场景切换意味着全新的线索和人物登场）。如果系统不将环境视为与台词、动作同等重要的信号进行建模，角色就容易像是在空房间里自言自语，所谓的“探案”也就失去了搜证的真实感。

其次，是互动结构过于静态僵化。 多数系统默认场景固定、人物不变，用户与特定角色进行一问一答。但真实的叙事，尤其是探案过程，需要动态调度：从案发现场到警局，从房东公寓到嫌疑人宅邸，每个场景都有不同的环境和互动对象。那么，下一句话该由谁来说？是先询问管家还是马车夫？何时应该切换场景？又该在何时引入新的证人？

现有框架很少系统性地回答这些问题。缺乏一个全局的“调度者”或“导演”，故事就很难自然地“演”下去，更像是在一个封闭聊天室里重复对话，而非一场身临其境、线索环环相扣的调查。

AdaMARP：四通道消息格式+场景管理器

针对上述核心问题，浙江大学与腾讯优图实验室联合提出的AdaMARP框架，从两个层面给出了创新解决方案。

一是沉浸式的四通道消息格式。 该框架为每一轮交互定义了一种四通道交织的消息格式：思考（Thought）、动作（Action）、环境（Environment）、言语（Speech）。

这意味着，AI角色的一次完整回应，可以同时包含内心推理、外在动作、对环境变化的感知以及说出的台词，并且这些元素的顺序可以根据情境灵活组合。

例如，福尔摩斯在讯问证人时，其完整的反应链可能是：（注意到煤气灯摇曳，证人下意识瞥向壁炉上的时钟）[内心：他在回避具体时间，那段时间他可能不在场]（用烟斗轻轻敲了敲桌面）[动作]“案发当晚八点到九点，您究竟在哪里？”[言语]。

环境线索触发内心推理，推理驱动施压动作，动作伴随追问话语——四者形成一条清晰的因果链，这才更贴近真实探案的节奏。此时，环境不再只是氛围点缀，案发现场的物证、证人房间的布置都成为推理链条的一部分，场景切换则自然引入了新的叙事可能性。

二是自适应的智能调度框架。 AdaMARP将整个角色扮演过程，建模为三个智能体的协同工作：负责扮演所有非用户角色的“演员模型”（Actor）、代表用户方的“用户模型”（User），以及负责高层叙事调度的“场景管理器”（Scene Manager）。

这个“场景管理器”是整个叙事的导演，它通过一组明确的指令动作来驱动整场“演出”：

初始化场景：设定故事发生的初始地点与环境。
选择发言者：决定下一句话该由哪个角色来说，并给出理由。
切换场景：将叙事从一个地点转移到另一个地点。
添加角色：在剧情推进中动态引入新角色，并赋予其背景与动机。
结束互动：为当前叙事画上句号。

每一步决策都会输出对应的理由，使得调度过程透明、可解释。这样一来，系统不仅能决定“谁来接话”，还能掌控“何时换场景搜证”、“何时引入新证人”，从而支撑起更复杂、开放的多角色叙事。

完整示例：探案叙事中的AdaMARP

理论如何落地？我们通过一段简化的福尔摩斯探案叙事来拆解AdaMARP的运转机制。请注意，以下示例为理解框架而设，省略了部分细节。

初始场景： 伦敦东区某寓所，案发深夜。煤气灯摇曳，壁炉已熄，地毯上有凝固蜡痕，散落着烧尽的火柴。

第一步，场景管理器选择让福尔摩斯发言，理由：侦探应先勘察现场。
福尔摩斯： （观察蜡痕）[内心：婚礼蜡烛，左手持烛…]（蹲下检查） “华生，去查查最近三个月内举办过婚礼、且家中有人左撇子的家庭。”

第二步，场景管理器选择华生接话，理由：助手应领命执行。
华生： “明白。” （推门离开，马车声渐远）

第三步，场景管理器决定切换场景，理由：助手已外出调查，需前往下一地点。
新场景： 房东太太的昏暗公寓，炖菜气味弥漫，壁炉上摆着瓷钟。

第四步，场景管理器动态添加新角色“房东太太”，理由：作为邻居可能掌握关键证词。

第五步，场景管理器安排福尔摩斯讯问，随后根据房东太太回避的眼神（环境信号），判断应继续追问施压……

可以看到，从场景初始化、发言调度、场景转换到角色引入，整个叙事流程均由场景管理器智能驱动，且每一步都有理有据。这种结构化的多通道、多场景、多角色连贯叙事，正是AdaMARP旨在实现的核心沉浸式体验。

训练数据：从文学提取+从主题合成

要让AI既“会演”又“会导”，需要高质量的训练数据支撑。研究团队为此精心构建了两个互补的数据集。

AdaRPSet：让角色“会演”。 这个数据集用于训练“演员模型”，它由两部分构成：

一是文学提取数据。团队从经典文学作品中，通过大语言模型识别出连贯的场景与多角色互动轨迹，并将其转化为统一的“思考-动作-环境-言语”四通道格式。这些数据天然带有文学作品的质感和“人味儿”，适合让AI学习基础的演绎能力和格式规范。

二是主题合成数据。鉴于文学作品中的互动多为单场景，团队又在20类主题（如探案、冒险、谈判等）下，利用大语言模型主动生成了包含场景切换和角色动态引入的复杂情节轨迹。这部分数据专门强化模型对动态叙事的适应与创造能力。

两者结合，使得“演员模型”既能学到细腻的演绎格式，又能应对复杂多变的调度指令。

AdaSMSet：让系统“会导”。 这个数据集用于训练“场景管理器”。它在合成数据的基础上，关键插入了“选择发言者”这一核心动作的监督信号，并为每次选择生成具体、贴合上下文的理由，从而教会系统何时该让谁说话、为何要切换场景、为何要引入新角色。

两个数据集共享统一的角色画像与消息格式，确保“演员”和“导演”能在同一叙事框架下默契协同。

AdaptiveBench：为什么还要自建评测体系？

有了创新的框架和高质量数据，还有一个关键问题：如何科学、全面地评估这种“沉浸式、可适应”的角色扮演系统的实际效果？

现有的评测标准大多聚焦于单轮对话的回复质量或人设一致性，难以全面衡量AdaMARP所关注的复杂叙事能力：整段故事是否连贯且有张力？环境与动作是否被真正利用起来？多角色互动与场景切换是否自然流畅？

为此，研究团队提出了专门的AdaptiveBench评测框架。它从合成数据中选取100个剧情种子，在仿真环境中同时运行用户模型、演员模型和场景管理器，生成完整的多轮对话轨迹，然后从轨迹级别进行多维度的综合评分。

评估主要分为两大方面：

针对演员模型，考察五个核心维度：

角色一致性： 言行是否始终符合角色设定？
环境基础： 是否感知并利用了环境线索？
人际互动： 回应是否贴合人物关系？
叙事推进： 每次发言是否有效推动了故事发展？
指令遵循： 是否严格遵守四通道格式？

针对场景管理器，考察四个关键维度：

场景理解： 能否正确判断何时该切换场景？
发言纪律： 发言轮次安排是否合理有序？
角色引入判断： 引入新角色的时机和理由是否恰当？
整体评价： 整场调度的节奏感与流畅度如何？

通过AdaptiveBench的量化评估，AdaMARP框架的优势得以清晰呈现：它能够产出更连贯的“内心-行为-言语”因果链，更好地利用环境细节推动叙事发展，并在多角色、多场景的复杂情境中实现灵活自然的智能调度。

这为探案推理、冒险叙事乃至其他需要强情境交互与动态管理的领域，提供了一个实现更深度沉浸式AI角色扮演的创新技术路径与解决方案。

来源：https://www.163.com/dy/article/KSJVM0ML0511DSSR.html

角色扮演

延伸阅读

补充最近整理过的热点入口。