游乐游手机版
首页/科技数码/文章详情

MIT与斯坦福新研究AI如何假冒特定用户骗过真人裁判

时间:2026-06-23 11:21
麻省理工学院、斯坦福大学等研究团队提出Turing-RL训练方法,通过图灵测试奖励机制训练AI模拟特定用户。在聊天和Reddit场景中,AI生成的回复被人类裁判选为“更像真人”的比例超过50%,有效骗过真人裁判。

这项由麻省理工学院、斯坦福大学和MIT-IBM沃森人工智能实验室联合完成的研究,以预印本形式发布于2026年6月,论文编号是arXiv:2606.19336。各位如果有兴趣深挖,可以通过这个编号在arXiv平台找到完整论文。

说到AI助手,我们现在太习惯把它们当成“帮手”了——回答问题、执行指令、服务人类。但研究团队换了个脑洞:如果把AI训练成“用户本人”呢?让它去模拟一个真实的人,效果会怎么样?别误会,这不是科幻片里的人格复制,而是一个相当实际的工程难题——能不能搞出一个程序,让它生成的内容,读上去就像某个人亲手写的?

这事儿比表面看上去复杂得多。举个例子,你有个朋友叫张三,他发消息永远简短、爱用反问句、偶尔蹦几个错别字、聊到足球就刹不住车。现在让一个AI去“扮演”张三,它能不能在一场对话里,说出那种只有张三才讲得出来的话?难点在于,人和人之间的差异太微妙了。两个背景一模一样的人,对同一件事可能看法截然相反,这种差异,光靠人口统计标签根本归纳不了。

研究团队提出了一个叫**Turing-RL**的训练方法,核心思路,其实来自70多年前的一个经典思想实验。

一、图灵测试:一场古老游戏的现代版本

1950年,英国数学家图灵抛出一个著名问题:如果你和一台机器通过文字聊天,你能分得清对方是人是机器吗?如果连人类裁判都分辨不出来,那这台机器就算“通过”了测试。

这个“图灵测试”的概念,恰好为研究团队提供了他们想要的训练信号。他们的想法很直接:与其让AI死磕“复制”某人的原话,不如让AI拼命去“骗过裁判”——让裁判分不清哪个是AI生成的,哪个是真人写的。换句话说,判断标准不是“说得一不一样”,而是“骗不骗得到人”。

这两个目标听起来相似,实则差得远了。用一个具体的场景来理解:假设你要模拟张三回复一条微信,张三的原话是“我觉得这家店还行”。如果你的目标是“复制原话”,那AI说“我觉得这家餐厅不错”也算个不错的答案,因为意思相近。但如果你想让张三的朋友相信这就是张三本人回的,那你得注意张三习惯用“店”而不是“餐厅”,句末从不用句号,还爱加个省略号,等等。前者关注“说了什么”,后者关注“这个人会怎么说”。

研究团队把这种区别转变成了一套可用于AI训练的机制。他们让一个扮演“裁判”的AI,把待评估的AI生成内容和真人原文放在一起进行比对,判断哪个更像真人写的。裁判会给个1到7分的评分:1分代表“明显是原文更像真人”,7分代表“明显是AI生成的更像真人”,4分则表示“完全分不清”。这个分数,就是所谓的“图灵奖励”,用于引导AI向“骗过裁判”的方向进化。

二、给AI一本“用户档案”

光有评分标准还不够,还得告诉AI它到底要模拟谁。研究团队设计了一套“用户表示”体系,用两种信息来勾勒一个人。

第一种是这个人的历史行为记录,也就是他以前说过的话、参与过的对话、发过的帖子。这些原始记录就像是这个人过去留下的“脚印”,藏着最真实的说话习惯。第二种是从这些历史记录里提炼出来的“人格画像”,由另一个AI来完成提炼工作。这个画像包含五个维度:重视什么价值观、有什么口头习惯、说话风格如何、通常回复多长、有什么背景信息。

为了让这个画像更真实,研究团队给提炼画像的AI定了几条硬规矩:必须用第一人称来写,不能写成分析报告的口吻,不能推断人口统计特征,不能凭空捏造,不能引用原文原话,只能归纳那些稳定、可跨场景复现的特征。比如说,一个用户总喜欢发很短的回复、爱用反问句,画像就应该写成“我回复通常只有一两句话,喜欢用问句回应别人”,而不是“该用户文字简洁,倾向于苏格拉底式反问法”。前者是用户自己的声音,后者是学术分析,差别很大。

有意思的是,研究团队在实验中专门比较了三种不同的用户表示方式——只有历史记录、只有人格画像、两者兼备。结果在“是否像真人”这个指标上,三种方式的差异其实不大。但在“内容是否和原文接近”这个指标上,有历史记录的方式表现更好。这说明人格画像捕捉到的主要是风格特征,而具体内容的线索,更多还是藏在原始历史记录里。

三、训练流程:从临时演员到专业特型演员

整个训练过程分两个阶段,可以理解为“先学剧本,再上台即兴”。

第一阶段是“有剧本的练习”。研究团队先收集大量真实对话数据,让基础AI模型做一轮有监督的学习——给它看真人的对话和回复,让它学会用“推理+回复”的格式来生成内容。具体格式是:先写一段藏在标签里的推理,解释这个用户为什么会这么回答、意图是什么、风格又是什么,然后再写出最终回复。这一步,就像演员先背台词、熟悉角色再上台。

第二阶段才是真正精彩的部分——“即兴发挥,接受图灵测试”。从这个第一阶段训练好的模型出发,研究团队用图灵奖励进行强化学习训练。每次训练时,AI为同一个问题生成四个候选回复,裁判AI对每个回复和真人原文进行比对打分,然后根据分数高低,决定哪些回复被强化学习、哪些被弱化。这种训练方式叫GRPO(组内相对策略优化),可以理解成“同组竞争淘汰制”——四个候选回复里谁表现最好,谁就被更多地学习。

在奖励设计上,研究团队加了一个防作弊机制:图灵奖励最高只计到5分,超过5分的部分直接截断。道理很简单,如果AI生成的内容被裁判评为“明显比真人更像真人”,这本身就有点不对劲——真正在模拟一个人的AI,不应该比这个人本人“更像”这个人。这种情况,很可能意味着AI在钻评分标准的空子,而不是真正学会了模拟用户。

此外,训练还加入了“长度控制”机制,惩罚生成内容和原文长度相差太大的情况。因为长度本身就构成一种风格特征——一个习惯发短消息的人,突然被AI模拟成长篇大论,内容再准确也不像真人。

四、两个测试场地:聊天对话与Reddit论坛

研究团队在两个完全不同的场景下测试了这套方法:多轮人机对话和Reddit社区讨论。

第一个场景用的是PRISM对齐数据集,包含了来自75个国家的约1500名用户与AI助手之间的多轮对话。研究团队从中挑出至少有6段对话历史的用户,保留128人作为测试集,其余用于训练。每个用户的部分历史对话作为“背景档案”,剩余的对话用于测试——AI需要根据档案里展示的用户特征,去猜这个人在新对话场景下会说什么。

第二个场景用的是ConvoKit的Reddit语料库,涵盖了14个不同的子版块。和对话场景不同,Reddit的评论风格更碎片化、个人化,也更能体现一个人的情绪状态和立场偏好。研究团队用了其中12个子版块的数据训练模型,保留了r/tifu(“今天我把事情搞砸了”)和r/worldnews(世界新闻)两个版块作为测试,并且确保测试用户和训练用户完全不重叠,用于检验模型对陌生用户的泛化能力。

这两个场景的选择挺有讲究——对话场景相对结构化,有明确的问答节奏;Reddit评论则更自由散漫,更接近人们日常的表达状态。在这两个场景下都能表现良好,才能说明方法真的有效。

五、三把尺子衡量“像不像真人”

研究团队用了三种不同的方式来衡量模型表现,每种方式聚焦于不同的维度。

第一把尺子是“图灵区分度”,也是核心评估指标。评判AI(用的是Claude Sonnet 4.6,比训练时用的AI更强大)会看一个用户的历史记录,以及两个回复——一个真人原文,一个AI生成——然后打1到7分,判断哪个更像真人写的。评估时,两个回复的顺序会随机打乱,并且正序反序各评一次取平均,以消除“第一个选项更容易被选中”这类偏见。分数越高,说明AI生成的内容越难被识别为AI写的。

第二把尺子是“内容相似度”,衡量AI生成的回复和真人原文在语义上有多接近。裁判AI从真人原文中提取1到3个关键点,然后检查AI生成的回复覆盖了多少、有没有引入无关内容、有没有用错视角。这个指标主要测试的是“AI有没有说出和真人相同的事情”,而不是“AI有没有用真人的方式来说”。

第三把尺子是“情境特异性”,这是个容易被忽视但很重要的维度。它评估AI的回复是否真正扎根于当前的对话情境和特定用户,而不是那种放在任何地方都成立的“通用回复”。很多AI系统有个通病,就是会生成过于圆滑的“万金油回复”,这种回复放到哪个用户身上都说得过去,却恰恰因此缺乏个人特色。这个指标专门惩罚这种倾向。

六、真人裁判上场:当AI的得分被人类复核

光靠AI打分还不够,研究团队还专门招募了超过三百名来自Prolific平台的人类参与者,做了一场人工图灵测试。

测试方式很简单:给参与者看一个目标用户的历史记录,然后呈现两个回复,问“哪个更像这个用户写的?”两个回复一个来自真人原文,一个来自AI,顺序随机。参与者还要回答几个理解问题,证明他们真的读了历史记录而不是瞎点。最终,每个测试样本由6名独立参与者打分,取多数票。

研究团队计算的指标叫“模型胜率”——也就是AI生成的回复被人类来判断为“更像真人”的比例。如果胜率超过50%,就意味着AI骗过人类裁判的次数,超过了没骗过的次数。

这场人工测试带来了几个有趣的发现。在聊天场景下,Turing-RL的胜率达到了57%,也就是说,超过一半的时间里,人类裁判会认为AI的回复比真人原文更像真人写的。这个结果相当惊人,因为竞争对手——只经过有监督学习的模型(SFT-Init)和使用内容相似度奖励训练的模型(Sim-RL)——胜率都徘徊在50%左右,也就是和随机猜测差不多。在Reddit场景下,各模型的胜率差距相对较小,但Turing-RL和Sim-RL都显著优于未经强化学习的基础模型。

研究团队还特别分析了一个问题:AI裁判和人类裁判,哪个更靠谱?他们把AI裁判的打分转化成二元判断(低于4分=真人,高于4分=AI生成),然后与人类多数票结果进行比较。结果显示,在大多数情况下,AI裁判的准确率和人类裁判相当,甚至更高。这个发现,也支持了用AI裁判替代人工评估的做法,毕竟大规模的人工评估成本确实太高了。

七、和对手比拼:三种训练信号的较量

研究团队将Turing-RL和两种现有方法进行了系统比较。三种方法都从同一个经过有监督学习的基础模型出发,使用同样的用户档案,唯一的区别就是训练信号不同。

第一种竞争方法叫Sim-RL,源自HumanLM这项研究。它的训练信号是“内容相似度”——AI生成的回复和真人原文在语义上越接近,奖励越高。这种方法的逻辑是:如果你能说出和真人一样的话,你就成功模拟了这个人。

第二种竞争方法叫Logprob-RL,源自Gandhi等人的研究。它的训练信号更特别:不是让外部裁判打分,而是直接用“模型给真人原文的概率打分”作为奖励。模型觉得真人原文越可能出现,奖励就越高。这个方法的理论基础是最大似然估计,相当于“让模型认为真人原文是最合理的输出”。

实验结果在聊天场景中尤其明显。Turing-RL在图灵区分度上大幅领先其他方法,并且这个优势经过了比训练时更强大的AI裁判和真人裁判的双重验证。在内容相似度上,Turing-RL和Sim-RL表现相当,都优于只做有监督学习的基础模型——这说明追求“骗过裁判”这个目标,并没有以牺牲“说对内容”的能力为代价,反而做到了两者兼顾。Logprob-RL的表现则相对靠后,这说明仅仅提高真人原文的概率,并不等于真的学会了模拟用户。

八、一个意外的发现:大型AI反而不如小型训练过的AI

研究团队还把GPT-5和Qwen3.5-397B这两个远比实验用的基础模型(Qwen3-8B)更大、更强大的AI拉来做了对比,结果让人意外。

这两个超大型AI在图灵区分度上,并没有比Qwen3-8B基础模型好多少,有时甚至更差。研究团队通过分析发现了原因:这些大型AI倾向于生成措辞精致、结构清晰、语气周全的回复,而这恰恰是“AI助手风格”的典型特征。真实的用户通常不会这样说话——他们可能很简短,可能有错别字,可能扯开话题,可能表达不完整。GPT-5生成的内容读起来太像“优质内容”了,反而暴露了它的AI身份。

这个发现揭示了一个有趣的悖论:AI的“进步”并不总是朝着“更像人类”的方向去的。大型通用AI被大量助手类对话训练,以至于它们学会了“助手该有的样子”,却忽略了“普通人的样子”。反倒是那个专门用图灵奖励训练过的小型模型,在这个特定任务上更胜一筹。

九、定性案例:看实际输出,三种方法差别有多大

光看数字不够直观,研究团队展示了一些具体例子,让我们看看差异在哪。

在聊天场景中,有一个用户正和AI助手聊大象的话题。AI告诉用户大象很少得癌症,因为它们有多个肿瘤抑制基因,这叫“皮托悖论”。用户接下来的真实回复是“象皮有多厚”——这是一个典型的人类聊天行为,话题直接跳开了,对刚才的知识点不置可否,转而问了一个完全不同的问题。有监督学习基础模型问的是“什么是皮托悖论”,Sim-RL问的是“大象有多少个肿瘤抑制基因”,GPT-5和Sim-RL的回答高度相似。而Turing-RL问的是“那个基因叫什么名字”——话题没有完全跳开,但也不像在做课堂练习,更接近一个好奇心驱使的普通问题。

在Reddit场景中,有一条关于用海藻喂牛可以减少99%甲烷排放的新闻。一位用户评论问:把海藻从海边运到内陆养牛场的运输排放怎么算,难道不会抵消减排效果吗?真实用户的回复是“取决于卡车有多省油”——简短、直接、不废话。GPT-5生成了一段详细的反驳分析,内容准确但太长太专业;Sim-RL说“运输成本只是个四舍五入的误差,自由市场会搞定的”;Turing-RL说“我确信一定有什么聪明的农民会想出办法的”。Turing-RL的回复和原文一样简短随意,用一种轻描淡写的方式处理了这个问题,更接近普通网友的口吻。

十、这项技术能做什么,又潜藏着什么风险

研究团队认为,用户模拟器有几个重要的潜在用途。在AI系统开发领域,可以用模拟用户来测试对话系统,不需要每次都招募真实用户。在个性化推荐领域,用户模拟器可以帮助评估系统是否真正满足了不同用户的需求。在社会科学研究领域,可以用模拟用户进行规模化的人类行为研究,复现和扩展那些原本因为样本量限制而很难做的实验。在多智能体系统领域,用户模拟器可以作为AI助手的训练环境,让助手在和模拟用户的反复交互中,变得更好。

不过,研究团队也明确讨论了这项技术带来的风险。一个能够模拟特定用户、生成以假乱真内容的AI,本质上也是一个高效的冒充工具。它可能被用来伪造他人信息、实施社会工程学攻击,或者大规模制造虚假内容。研究团队强调,他们的实验所用数据都是公开的或已获授权的,目标是研究系统和人类行为,而非复现或跟踪具体个人。他们也呼吁,在应用这类技术时,必须配套水印、生成内容检测等防护措施,并根据具体的部署场景和相关法律法规,评估其合规性。

说到底,这项研究揭示了一个可能反直觉的道理:要让AI更像一个特定的人,关键不是让它“说出相同的话”,而是让它“骗过听众”。这两个目标之间的差距,恰恰反映了人类语言本身的复杂性——什么是“同一件事”,本来就没有唯一答案。一个人说“我觉得这家店还行”,另一个人说“还不错啊”,语义上没有区别,但用哪个说法去冒充一个特定的人,却会让熟悉他的朋友一眼识破。

这对AI领域的启示在于:当我们设计评估标准时,“和标准答案像不像”并不总是最有用的度量方式。有时候,能不能骗过一个真正了解情况的裁判,才是更有意义的标准。研究团队的工作,给了这个直觉一个可操作的实现路径,并且在两个差异显著的场景下,拿出了支持这一思路的实验证据。

有意思的问题是:随着这类技术不断发展,我们该如何在“让AI更好地服务于人”和“防止AI被用来冒充人”之间,划清楚一条界限?这或许是比算法本身更难回答的问题。但这项研究提醒我们,在这个问题上保持清醒认识,已经很有必要了。对这个话题感兴趣的朋友,可以通过arXiv:2606.19336找到完整论文。

Q&A

Q1:图灵奖励和内容相似度奖励有什么不同?

A:内容相似度奖励关注的是“AI有没有说出和真人一样的内容”,而图灵奖励关注的是“AI有没有让裁判分不清是AI还是真人写的”。前者要求内容上的高度重叠,后者则允许AI用不同的具体内容,只要整体风格、语气、目标和用户的行为模式能吻合就行。实验表明,图灵奖励在“让AI看起来更像真人”上更有效,同时内容准确度也没有明显下降。

Q2:用AI来当用户模拟测试的裁判,靠不靠谱?

A:研究团队专门比较了AI裁判和人类裁判的判断结果。数据显示,AI裁判(使用的是Claude Sonnet 4.6)在大多数条件下,准确率和人类裁判相当甚至略高,只有在评判Turing-RL的聊天场景结果时,两者基本持平。这支持了使用AI裁判进行大规模自动评估的可行性。

Q3:GPT-5这样的大型AI,为什么在用户模拟上表现不如小型训练过的模型?

A:因为GPT-5在大量助手类对话数据中训练过,它学会了“怎么当一个好助手”——措辞精准、结构清晰、语气周全。但真实用户不会这样说话,他们更随意、更简短、更不完整。这种“太像AI助手”的风格反而让GPT-5更容易被识别为非真人,而那个专门用图灵奖励训练过的小型模型,则学会了用户的真实风格,更能骗过裁判。

来源:https://www.163.com/dy/article/L02DT5N30511DTVV.html
上一篇复旦浙大上海AI实验室联合揭示大模型遗忘短板 下一篇英特尔长安联合发布AI座舱 搭载第三代酷睿Ultra
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。