浙江大学研发AI角色扮演框架实现四通道消息沉浸式交互

时间：2026-05-11 06:30

浙江大学与腾讯优图实验室联合提出AdaMARP框架，旨在提升AI角色扮演的沉浸感。该框架采用四通道消息格式，使角色能动态感知交互，并引入场景管理器智能调度多场景叙事。研究通过构建专门数据集训练模型，验证了其在动态叙事方面的效果，推动了AI角色扮演从静态对话向动态交互的演进。

AI角色扮演技术正迎来一次关键的“沉浸感”革命，旨在彻底改变人机交互的叙事体验。

当前，大语言模型在模拟特定角色对话方面已相当成熟，但体验上仍存在明显隔阂。多数系统更像是一个知识渊博的聊天机器人，对话流畅却缺乏“灵魂”——环境是静态的，场景是固定的，角色是扁平的。当用户渴望体验一场需要深入勘察、多方取证、与动态人物周旋的沉浸式探案故事时，现有系统的局限性便暴露无遗。

如今，这一局面有望被彻底改写。浙江大学与腾讯优图实验室联合提出了一项名为AdaMARP的创新性框架。该框架的核心目标非常明确：推动AI角色扮演从“会聊天”的层面，进化到“会演戏”的全新高度。它不仅能让虚拟角色“说话”，更能让它们“思考”、“行动”并“感知”动态环境。更重要的是，它如同一位智能导演，能在复杂的多场景叙事中灵活调度，动态引入新角色，从而构建出真正鲜活的故事世界。

目前，这项突破性的研究成果已被自然语言处理顶级会议ACL 2026接收。

从“与AI对话”到“置身故事之中”：沉浸式叙事的追求

理想的AI角色扮演体验是怎样的？用户设定一个角色身份，AI便能深度代入，在特定的情境中始终保持人设的一致性，对环境线索高度敏感，并能依据复杂的人物关系网络做出恰如其分的反应。

然而现实往往不尽如人意。以经典的侦探推理场景为例，现有的角色扮演系统大多局限在单一固定场景中，与有限的几个预设角色进行循环对话。用户无法真正“勘察犯罪现场”，无法因发现新线索而“转场”至下一个关键地点，也无法在剧情推进时自然地“召唤”出新证人。整个叙事缺乏动态推进的实感，更像是在一个封闭的文本聊天室中进行游戏。

问题的根源在哪里？研究团队精准指出了两个关键瓶颈。

瓶颈一：环境沦为静态“背景板”

许多系统仅聚焦于生成角色的“台词”。后续虽有改进，加入了“动作”或“内心独白”等维度，但“环境”始终被当作静态的背景装饰。然而，在真正的叙事中，环境是活的——案发现场地毯上特殊的蜡痕、证人住所门口未干的泥渍、昏暗煤气灯下的摇曳阴影……这些环境细节不仅是氛围的营造者，更是推动剧情发展和支撑逻辑推理的关键线索。

如果系统无法将环境作为与台词、动作同等重要的信号进行建模和处理，那么角色就如同在真空中表演，失去了与虚拟世界的深度互动，沉浸感自然大打折扣。

瓶颈二：缺乏全局“叙事调度器”

更深层次的问题在于系统架构。多数现有框架默认场景和角色阵容是固定不变的。但一个生动的故事需要流动与变化：侦探下一步应该去书房搜查还是询问女仆？下一个发言者应该是谁？何时应该切换场景以引入新线索和新人物？

现有框架很少系统性地处理这些动态调度问题。缺乏这样一个“智能导演”角色的存在，故事就很难自然地、有机地展开，难以支撑起开放、多线程的复杂叙事结构。

AdaMARP框架解析：四通道演绎与智能调度导演

针对上述核心挑战，AdaMARP从“角色深度演绎”和“叙事智能调度”两个层面，给出了系统性的解决方案。

沉浸式消息格式：思维、行动、环境与言语的深度融合

首先，AdaMARP为每一轮角色互动定义了一种全新的四通道消息格式：思考（Thought）– 行动（Action）– 环境（Environment）– 言语（Speech）。

这四种元素可以灵活交织，形成一个完整的角色响应。例如，福尔摩斯在询问一位神色不安的证人时，其完整的输出可能呈现为：

<煤气灯摇曳，证人下意识地瞥向壁炉上的时钟> [他在回避具体时间，那段时间他可能不在场]（用烟斗轻轻敲了敲桌面）案发当晚八点到九点，您究竟在哪里？

可以看到，环境线索触发了角色的内心推理，推理结果催生了具体的施压动作，最终转化为追问的言语。一条清晰的“感知-思考-行动”行为链条就此形成，远比一句孤立的台词要生动、可信得多。

更重要的是，环境从此不再是点缀。案发现场的物证可以支撑推理链条，房间的布置能暗示主人的性格与行踪，而场景的切换则自然成为引入新人物、触发新矛盾的故事枢纽。

自适应架构：三智能体协作与场景管理器的五大指令

在系统架构上，AdaMARP将整个角色扮演过程建模为三个智能体的高效协作：

Actor模型：负责扮演所有非用户角色，是故事中的“演员”。
User模型：代表用户一方，可以是真人用户，也可以由另一个LLM模拟。
场景管理器（Scene Manager）：整个叙事的“总导演”与核心调度器。

这位“智能导演”手握一套清晰的指令集，精准驱动着整场“演出”的节奏：

init_scene：初始化故事场景（如“贝克街221B客厅”）。
pick_speaker：决策下一句台词由哪位角色来说（是福尔摩斯追问，还是华生补充？），并给出合乎逻辑的理由。
switch_scene：动态切换场景（如“从案发现场切换到苏格兰场警局”）。
add_role：在剧情需要时动态引入新角色（如“一位声称目击了马车的流浪汉”），并附带其基本人设。
end：结束当前互动会话。

每一步调度决策都会输出对应的理由，使得整个过程透明、可解释、可控制。如此一来，系统不仅能决定“谁来说”，还能决定“何时何地发生何事”，从而真正支撑起如电影剧本般复杂的多场景、多角色动态叙事。

实战推演：一场由AdaMARP驱动的虚拟探案

概念或许抽象，我们不妨通过一个简化的福尔摩斯探案片段，直观感受AdaMARP如何在实际中运转。请注意，以下示例经过简化，略去了部分细节。

初始场景：伦敦东区某寓所，案发深夜。壁炉已熄，余烬旁的地毯上有一小块凝固的蜡痕。

场景管理器行动：pick_speaker (speaker: 福尔摩斯)。理由：侦探角色应先勘察现场并给出初步推理，以推动剧情。

福尔摩斯：<煤气灯昏黄，蜡痕在阴影中隐约可见> [烛泪的位置和形状……婚礼蜡烛，而且是左手持烛]（蹲下身捻起碎屑嗅了嗅，站起身）华生，去查查最近三个月内举办过婚礼、且家中有人左撇子的家庭。

场景管理器行动：pick_speaker (speaker: 华生)。理由：福尔摩斯已下达明确指令，助手角色应领命执行，体现人物关系。

华生：（点点头）明白。（推门而出）<走廊里传来渐远的脚步声，随后是马车驶离的声响>

场景管理器行动：switch_scene。理由：华生已前往调查，剧情逻辑要求切换至下一个可能的搜证地点——案发地邻居的住所。
新场景：房东太太狭窄昏暗的公寓，炖菜气味弥漫。

场景管理器行动：add_role (new_role: 房东太太)。理由：作为案发地邻居，该角色可能掌握关键时间线证词，需动态引入。

场景管理器行动：pick_speaker (speaker: 福尔摩斯)。理由：在新场景中，讯问应由侦探主导开场。

福尔摩斯：（摘下礼帽）夫人，案发当晚八点到九点，您是否听见三楼有任何异常声响？

场景管理器行动：pick_speaker (speaker: 房东太太)。理由：需听取新引入证人对关键时间线的陈述，推进案情。

房东太太：<下意识地瞥向壁炉上的时钟> （略显慌张）我……我当时在楼下厨房。

场景管理器行动：pick_speaker (speaker: 福尔摩斯)。理由：证人出现回避迹象，侦探角色应基于环境线索（瞥时钟）继续追问施压，维持叙事张力。

……

由此可见，从场景初始化、发言权智能调度、场景动态转换到新角色按需引入，整个叙事流程完全由场景管理器依据剧情内在逻辑动态驱动。这种结构化的多通道、多场景叙事能力，正是AdaMARP旨在实现的深度“沉浸式”体验的核心。

让AI“会演”又“会导”：高质量训练数据如何构建？

要实现如此复杂的能力，离不开高质量、针对性的训练数据。研究团队为此精心构建了两个相辅相成的数据集。

AdaRPSet：锤炼“演员”的演技

这个数据集专门用于训练扮演角色的Actor模型，它由两部分构成：

1. 文学经典提取集：从81部经典文学作品中，通过大语言模型自动提取出连贯的多角色互动场景，并将其严格转化为统一的“思考-行动-环境-言语”四通道格式。这些数据天然带有文学作品的细腻质感与人性化表达，是学习基础角色演绎能力的优质素材。

2. 主题情节合成集：文学场景往往固定，缺乏动态调度。为此，团队在侦探、冒险、宫廷密谋等20类主题下，引导LLM主动生成包含明确场景切换和角色引入指令的复杂情节轨迹。这部分数据专门用于强化模型适应动态、多线叙事的能力。

AdaSMSet：培养“导演”的调度能力

这个数据集则用于训练核心的“导演”——场景管理器。它在上述合成数据的基础上，进行了关键一步：在每两段角色发言之间，由另一个强大的语言模型自动插入“该谁说话”的决策指令，并生成具体、合乎上下文的选择理由。

最终，这个数据集全面覆盖了场景管理器所需的全部五类调度动作，为“何时换场、何时加人、谁接下一句”提供了端到端的监督信号。

两个数据集珠联璧合：一个让AI学会如何“演”得栩栩如生，另一个让AI学会如何“导”得行云流水。它们共享统一的角色档案和消息格式，确保“演员”和“导演”能在同一套叙事语言下无缝协作。

AdaptiveBench：如何科学评估“沉浸感”？

有了创新的框架和高质量的数据，最后一个关键问题是：如何科学、全面地评估这种“沉浸式、可适应”的角色扮演效果？传统的单轮对话质量评测显然已不适用。

为此，研究团队提出了全新的AdaptiveBench评测框架。它不再孤立地评价“某一句话说得像不像”，而是从一整段完整的、动态的叙事轨迹出发，进行多维度的综合评估：

针对“演员”（Actor模型）的评估维度包括：

角色一致性：角色的人设、口吻、知识是否从头到尾保持高度统一？
环境基础性：角色的发言和行动是否真正利用并回应了环境中的线索？
人际互动合理性：对话与行为是否符合特定的人物关系与社会背景？
叙事推进性：每次发言是否都在有效地推动故事向前发展？
指令格式遵循度：是否严格遵守“思考-行动-环境-言语”的四通道输出格式？

针对“导演”（场景管理器）的评估维度包括：

场景理解与切换合理性：切换场景的时机是否合乎剧情逻辑？
发言纪律与顺序恰当性：发言顺序的安排是否自然、符合叙事节奏？
角色引入判断力：引入新角色的时机、理由以及角色设定是否自然必要？
整体叙事节奏把控：整场调度的流畅度与戏剧张力如何？

通过这套全面的仿真评测体系，AdaMARP框架的优势得以量化呈现：它能够产出更连贯、合理的“感知-思考-行动”行为链条，更有效地利用环境线索驱动剧情，并在多角色、多场景的复杂叙事调度中，展现出强大的灵活性、适应性和故事推动力。

这无疑为下一代AI角色扮演技术指明了一个清晰的发展方向——从静态的对话生成走向动态的叙事构建，从简单的聊天机器人演进为具有深度沉浸感的“虚拟世界演员与导演”。无论是应用于互动式故事创作、沉浸式角色扮演游戏，还是复杂的社交模拟与技能训练，这项技术都打开了充满想象力的新空间。

项目主页：https://xuzhenhua55.github.io/AdaMARP/#overview

来源：https://www.163.com/dy/article/KSJVM0ML0511DSSR.html

角色扮演

上一篇技嘉RTX 5060 Ti显卡附赠AMD皮肤引热议网友戏称如开闪光宝可梦 下一篇小米陈龙解读智能驾驶技术发展路径与未来规划

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。