MIT与斯坦福新研究AI如何假冒特定用户骗过真人裁判

时间：2026-06-23 11:21

麻省理工学院、斯坦福大学等研究团队提出Turing-RL训练方法，通过图灵测试奖励机制训练AI模拟特定用户。在聊天和Reddit场景中，AI生成的回复被人类裁判选为“更像真人”的比例超过50%，有效骗过真人裁判。

这项由麻省理工学院、斯坦福大学和MIT-IBM沃森人工智能实验室联合完成的研究，以预印本形式发布于2026年6月，论文编号是arXiv:2606.19336。各位如果有兴趣深挖，可以通过这个编号在arXiv平台找到完整论文。

说到AI助手，我们现在太习惯把它们当成“帮手”了——回答问题、执行指令、服务人类。但研究团队换了个脑洞：如果把AI训练成“用户本人”呢？让它去模拟一个真实的人，效果会怎么样？别误会，这不是科幻片里的人格复制，而是一个相当实际的工程难题——能不能搞出一个程序，让它生成的内容，读上去就像某个人亲手写的？

这事儿比表面看上去复杂得多。举个例子，你有个朋友叫张三，他发消息永远简短、爱用反问句、偶尔蹦几个错别字、聊到足球就刹不住车。现在让一个AI去“扮演”张三，它能不能在一场对话里，说出那种只有张三才讲得出来的话？难点在于，人和人之间的差异太微妙了。两个背景一模一样的人，对同一件事可能看法截然相反，这种差异，光靠人口统计标签根本归纳不了。

研究团队提出了一个叫**Turing-RL**的训练方法，核心思路，其实来自70多年前的一个经典思想实验。

一、图灵测试：一场古老游戏的现代版本

1950年，英国数学家图灵抛出一个著名问题：如果你和一台机器通过文字聊天，你能分得清对方是人是机器吗？如果连人类裁判都分辨不出来，那这台机器就算“通过”了测试。

这个“图灵测试”的概念，恰好为研究团队提供了他们想要的训练信号。他们的想法很直接：与其让AI死磕“复制”某人的原话，不如让AI拼命去“骗过裁判”——让裁判分不清哪个是AI生成的，哪个是真人写的。换句话说，判断标准不是“说得一不一样”，而是“骗不骗得到人”。

这两个目标听起来相似，实则差得远了。用一个具体的场景来理解：假设你要模拟张三回复一条微信，张三的原话是“我觉得这家店还行”。如果你的目标是“复制原话”，那AI说“我觉得这家餐厅不错”也算个不错的答案，因为意思相近。但如果你想让张三的朋友相信这就是张三本人回的，那你得注意张三习惯用“店”而不是“餐厅”，句末从不用句号，还爱加个省略号，等等。前者关注“说了什么”，后者关注“这个人会怎么说”。

研究团队把这种区别转变成了一套可用于AI训练的机制。他们让一个扮演“裁判”的AI，把待评估的AI生成内容和真人原文放在一起进行比对，判断哪个更像真人写的。裁判会给个1到7分的评分：1分代表“明显是原文更像真人”，7分代表“明显是AI生成的更像真人”，4分则表示“完全分不清”。这个分数，就是所谓的“图灵奖励”，用于引导AI向“骗过裁判”的方向进化。

二、给AI一本“用户档案”

光有评分标准还不够，还得告诉AI它到底要模拟谁。研究团队设计了一套“用户表示”体系，用两种信息来勾勒一个人。

第一种是这个人的历史行为记录，也就是他以前说过的话、参与过的对话、发过的帖子。这些原始记录就像是这个人过去留下的“脚印”，藏着最真实的说话习惯。第二种是从这些历史记录里提炼出来的“人格画像”，由另一个AI来完成提炼工作。这个画像包含五个维度：重视什么价值观、有什么口头习惯、说话风格如何、通常回复多长、有什么背景信息。

为了让这个画像更真实，研究团队给提炼画像的AI定了几条硬规矩：必须用第一人称来写，不能写成分析报告的口吻，不能推断人口统计特征，不能凭空捏造，不能引用原文原话，只能归纳那些稳定、可跨场景复现的特征。比如说，一个用户总喜欢发很短的回复、爱用反问句，画像就应该写成“我回复通常只有一两句话，喜欢用问句回应别人”，而不是“该用户文字简洁，倾向于苏格拉底式反问法”。前者是用户自己的声音，后者是学术分析，差别很大。

有意思的是，研究团队在实验中专门比较了三种不同的用户表示方式——只有历史记录、只有人格画像、两者兼备。结果在“是否像真人”这个指标上，三种方式的差异其实不大。但在“内容是否和原文接近”这个指标上，有历史记录的方式表现更好。这说明人格画像捕捉到的主要是风格特征，而具体内容的线索，更多还是藏在原始历史记录里。

三、训练流程：从临时演员到专业特型演员

整个训练过程分两个阶段，可以理解为“先学剧本，再上台即兴”。

第一阶段是“有剧本的练习”。研究团队先收集大量真实对话数据，让基础AI模型做一轮有监督的学习——给它看真人的对话和回复，让它学会用“推理+回复”的格式来生成内容。具体格式是：先写一段藏在标签里的推理，解释这个用户为什么会这么回答、意图是什么、风格又是什么，然后再写出最终回复。这一步，就像演员先背台词、熟悉角色再上台。

第二阶段才是真正精彩的部分——“即兴发挥，接受图灵测试”。从这个第一阶段训练好的模型出发，研究团队用图灵奖励进行强化学习训练。每次训练时，AI为同一个问题生成四个候选回复，裁判AI对每个回复和真人原文进行比对打分，然后根据分数高低，决定哪些回复被强化学习、哪些被弱化。这种训练方式叫GRPO（组内相对策略优化），可以理解成“同组竞争淘汰制”——四个候选回复里谁表现最好，谁就被更多地学习。

在奖励设计上，研究团队加了一个防作弊机制：图灵奖励最高只计到5分，超过5分的部分直接截断。道理很简单，如果AI生成的内容被裁判评为“明显比真人更像真人”，这本身就有点不对劲——真正在模拟一个人的AI，不应该比这个人本人“更像”这个人。这种情况，很可能意味着AI在钻评分标准的空子，而不是真正学会了模拟用户。

此外，训练还加入了“长度控制”机制，惩罚生成内容和原文长度相差太大的情况。因为长度本身就构成一种风格特征——一个习惯发短消息的人，突然被AI模拟成长篇大论，内容再准确也不像真人。

四、两个测试场地：聊天对话与Reddit论坛

研究团队在两个完全不同的场景下测试了这套方法：多轮人机对话和Reddit社区讨论。

第一个场景用的是PRISM对齐数据集，包含了来自75个国家的约1500名用户与AI助手之间的多轮对话。研究团队从中挑出至少有6段对话历史的用户，保留128人作为测试集，其余用于训练。每个用户的部分历史对话作为“背景档案”，剩余的对话用于测试——AI需要根据档案里展示的用户特征，去猜这个人在新对话场景下会说什么。

第二个场景用的是ConvoKit的Reddit语料库，涵盖了14个不同的子版块。和对话场景不同，Reddit的评论风格更碎片化、个人化，也更能体现一个人的情绪状态和立场偏好。研究团队用了其中12个子版块的数据训练模型，保留了r/tifu（“今天我把事情搞砸了”）和r/worldnews（世界新闻）两个版块作为测试，并且确保测试用户和训练用户完全不重叠，用于检验模型对陌生用户的泛化能力。

这两个场景的选择挺有讲究——对话场景相对结构化，有明确的问答节奏；Reddit评论则更自由散漫，更接近人们日常的表达状态。在这两个场景下都能表现良好，才能说明方法真的有效。

五、三把尺子衡量“像不像真人”

研究团队用了三种不同的方式来衡量模型表现，每种方式聚焦于不同的维度。

第一把尺子是“图灵区分度”，也是核心评估指标。评判AI（用的是Claude Sonnet 4.6，比训练时用的AI更强大）会看一个用户的历史记录，以及两个回复——一个真人原文，一个AI生成——然后打1到7分，判断哪个更像真人写的。评估时，两个回复的顺序会随机打乱，并且正序反序各评一次取平均，以消除“第一个选项更容易被选中”这类偏见。分数越高，说明AI生成的内容越难被识别为AI写的。

第二把尺子是“内容相似度”，衡量AI生成的回复和真人原文在语义上有多接近。裁判AI从真人原文中提取1到3个关键点，然后检查AI生成的回复覆盖了多少、有没有引入无关内容、有没有用错视角。这个指标主要测试的是“AI有没有说出和真人相同的事情”，而不是“AI有没有用真人的方式来说”。

第三把尺子是“情境特异性”，这是个容易被忽视但很重要的维度。它评估AI的回复是否真正扎根于当前的对话情境和特定用户，而不是那种放在任何地方都成立的“通用回复”。很多AI系统有个通病，就是会生成过于圆滑的“万金油回复”，这种回复放到哪个用户身上都说得过去，却恰恰因此缺乏个人特色。这个指标专门惩罚这种倾向。

六、真人裁判上场：当AI的得分被人类复核

光靠AI打分还不够，研究团队还专门招募了超过三百名来自Prolific平台的人类参与者，做了一场人工图灵测试。

测试方式很简单：给参与者看一个目标用户的历史记录，然后呈现两个回复，问“哪个更像这个用户写的？”两个回复一个来自真人原文，一个来自AI，顺序随机。参与者还要回答几个理解问题，证明他们真的读了历史记录而不是瞎点。最终，每个测试样本由6名独立参与者打分，取多数票。

研究团队计算的指标叫“模型胜率”——也就是AI生成的回复被人类来判断为“更像真人”的比例。如果胜率超过50%，就意味着AI骗过人类裁判的次数，超过了没骗过的次数。

这场人工测试带来了几个有趣的发现。在聊天场景下，Turing-RL的胜率达到了57%，也就是说，超过一半的时间里，人类裁判会认为AI的回复比真人原文更像真人写的。这个结果相当惊人，因为竞争对手——只经过有监督学习的模型（SFT-Init）和使用内容相似度奖励训练的模型（Sim-RL）——胜率都徘徊在50%左右，也就是和随机猜测差不多。在Reddit场景下，各模型的胜率差距相对较小，但Turing-RL和Sim-RL都显著优于未经强化学习的基础模型。

研究团队还特别分析了一个问题：AI裁判和人类裁判，哪个更靠谱？他们把AI裁判的打分转化成二元判断（低于4分=真人，高于4分=AI生成），然后与人类多数票结果进行比较。结果显示，在大多数情况下，AI裁判的准确率和人类裁判相当，甚至更高。这个发现，也支持了用AI裁判替代人工评估的做法，毕竟大规模的人工评估成本确实太高了。

七、和对手比拼：三种训练信号的较量

研究团队将Turing-RL和两种现有方法进行了系统比较。三种方法都从同一个经过有监督学习的基础模型出发，使用同样的用户档案，唯一的区别就是训练信号不同。

第一种竞争方法叫Sim-RL，源自HumanLM这项研究。它的训练信号是“内容相似度”——AI生成的回复和真人原文在语义上越接近，奖励越高。这种方法的逻辑是：如果你能说出和真人一样的话，你就成功模拟了这个人。

第二种竞争方法叫Logprob-RL，源自Gandhi等人的研究。它的训练信号更特别：不是让外部裁判打分，而是直接用“模型给真人原文的概率打分”作为奖励。模型觉得真人原文越可能出现，奖励就越高。这个方法的理论基础是最大似然估计，相当于“让模型认为真人原文是最合理的输出”。

实验结果在聊天场景中尤其明显。Turing-RL在图灵区分度上大幅领先其他方法，并且这个优势经过了比训练时更强大的AI裁判和真人裁判的双重验证。在内容相似度上，Turing-RL和Sim-RL表现相当，都优于只做有监督学习的基础模型——这说明追求“骗过裁判”这个目标，并没有以牺牲“说对内容”的能力为代价，反而做到了两者兼顾。Logprob-RL的表现则相对靠后，这说明仅仅提高真人原文的概率，并不等于真的学会了模拟用户。

八、一个意外的发现：大型AI反而不如小型训练过的AI

研究团队还把GPT-5和Qwen3.5-397B这两个远比实验用的基础模型（Qwen3-8B）更大、更强大的AI拉来做了对比，结果让人意外。

这两个超大型AI在图灵区分度上，并没有比Qwen3-8B基础模型好多少，有时甚至更差。研究团队通过分析发现了原因：这些大型AI倾向于生成措辞精致、结构清晰、语气周全的回复，而这恰恰是“AI助手风格”的典型特征。真实的用户通常不会这样说话——他们可能很简短，可能有错别字，可能扯开话题，可能表达不完整。GPT-5生成的内容读起来太像“优质内容”了，反而暴露了它的AI身份。

这个发现揭示了一个有趣的悖论：AI的“进步”并不总是朝着“更像人类”的方向去的。大型通用AI被大量助手类对话训练，以至于它们学会了“助手该有的样子”，却忽略了“普通人的样子”。反倒是那个专门用图灵奖励训练过的小型模型，在这个特定任务上更胜一筹。

九、定性案例：看实际输出，三种方法差别有多大

光看数字不够直观，研究团队展示了一些具体例子，让我们看看差异在哪。

在聊天场景中，有一个用户正和AI助手聊大象的话题。AI告诉用户大象很少得癌症，因为它们有多个肿瘤抑制基因，这叫“皮托悖论”。用户接下来的真实回复是“象皮有多厚”——这是一个典型的人类聊天行为，话题直接跳开了，对刚才的知识点不置可否，转而问了一个完全不同的问题。有监督学习基础模型问的是“什么是皮托悖论”，Sim-RL问的是“大象有多少个肿瘤抑制基因”，GPT-5和Sim-RL的回答高度相似。而Turing-RL问的是“那个基因叫什么名字”——话题没有完全跳开，但也不像在做课堂练习，更接近一个好奇心驱使的普通问题。

在Reddit场景中，有一条关于用海藻喂牛可以减少99%甲烷排放的新闻。一位用户评论问：把海藻从海边运到内陆养牛场的运输排放怎么算，难道不会抵消减排效果吗？真实用户的回复是“取决于卡车有多省油”——简短、直接、不废话。GPT-5生成了一段详细的反驳分析，内容准确但太长太专业；Sim-RL说“运输成本只是个四舍五入的误差，自由市场会搞定的”；Turing-RL说“我确信一定有什么聪明的农民会想出办法的”。Turing-RL的回复和原文一样简短随意，用一种轻描淡写的方式处理了这个问题，更接近普通网友的口吻。

十、这项技术能做什么，又潜藏着什么风险

研究团队认为，用户模拟器有几个重要的潜在用途。在AI系统开发领域，可以用模拟用户来测试对话系统，不需要每次都招募真实用户。在个性化推荐领域，用户模拟器可以帮助评估系统是否真正满足了不同用户的需求。在社会科学研究领域，可以用模拟用户进行规模化的人类行为研究，复现和扩展那些原本因为样本量限制而很难做的实验。在多智能体系统领域，用户模拟器可以作为AI助手的训练环境，让助手在和模拟用户的反复交互中，变得更好。

不过，研究团队也明确讨论了这项技术带来的风险。一个能够模拟特定用户、生成以假乱真内容的AI，本质上也是一个高效的冒充工具。它可能被用来伪造他人信息、实施社会工程学攻击，或者大规模制造虚假内容。研究团队强调，他们的实验所用数据都是公开的或已获授权的，目标是研究系统和人类行为，而非复现或跟踪具体个人。他们也呼吁，在应用这类技术时，必须配套水印、生成内容检测等防护措施，并根据具体的部署场景和相关法律法规，评估其合规性。

说到底，这项研究揭示了一个可能反直觉的道理：要让AI更像一个特定的人，关键不是让它“说出相同的话”，而是让它“骗过听众”。这两个目标之间的差距，恰恰反映了人类语言本身的复杂性——什么是“同一件事”，本来就没有唯一答案。一个人说“我觉得这家店还行”，另一个人说“还不错啊”，语义上没有区别，但用哪个说法去冒充一个特定的人，却会让熟悉他的朋友一眼识破。

这对AI领域的启示在于：当我们设计评估标准时，“和标准答案像不像”并不总是最有用的度量方式。有时候，能不能骗过一个真正了解情况的裁判，才是更有意义的标准。研究团队的工作，给了这个直觉一个可操作的实现路径，并且在两个差异显著的场景下，拿出了支持这一思路的实验证据。

有意思的问题是：随着这类技术不断发展，我们该如何在“让AI更好地服务于人”和“防止AI被用来冒充人”之间，划清楚一条界限？这或许是比算法本身更难回答的问题。但这项研究提醒我们，在这个问题上保持清醒认识，已经很有必要了。对这个话题感兴趣的朋友，可以通过arXiv:2606.19336找到完整论文。

Q&A

Q1：图灵奖励和内容相似度奖励有什么不同？

A：内容相似度奖励关注的是“AI有没有说出和真人一样的内容”，而图灵奖励关注的是“AI有没有让裁判分不清是AI还是真人写的”。前者要求内容上的高度重叠，后者则允许AI用不同的具体内容，只要整体风格、语气、目标和用户的行为模式能吻合就行。实验表明，图灵奖励在“让AI看起来更像真人”上更有效，同时内容准确度也没有明显下降。

Q2：用AI来当用户模拟测试的裁判，靠不靠谱？

A：研究团队专门比较了AI裁判和人类裁判的判断结果。数据显示，AI裁判（使用的是Claude Sonnet 4.6）在大多数条件下，准确率和人类裁判相当甚至略高，只有在评判Turing-RL的聊天场景结果时，两者基本持平。这支持了使用AI裁判进行大规模自动评估的可行性。

Q3：GPT-5这样的大型AI，为什么在用户模拟上表现不如小型训练过的模型？

A：因为GPT-5在大量助手类对话数据中训练过，它学会了“怎么当一个好助手”——措辞精准、结构清晰、语气周全。但真实用户不会这样说话，他们更随意、更简短、更不完整。这种“太像AI助手”的风格反而让GPT-5更容易被识别为非真人，而那个专门用图灵奖励训练过的小型模型，则学会了用户的真实风格，更能骗过裁判。

来源：https://www.163.com/dy/article/L02DT5N30511DTVV.html