就在最近,OpenAI 发布了一篇极其重磅的研究论文,引发了广泛关注。
他们发现了一个令人意想不到的现象:只教 AI 在医疗场景中正确回答问题,结果这个模型在写代码时也开始变得诚实,不再投机取巧。
方法简单得让人难以置信——仅用 5% 的训练数据,让模型在回答健康相关问题时学会了诚实、谨慎,并且能够主动承认错误。这些数据中没有一行代码,也没有任何数学题目。
然而,同一个模型在编写代码时不再钻空子;回答学术问题时,也不再伪造引用;执行 Agent 任务时,同样循规蹈矩,不搞奖励黑客那一套。

更令人惊讶的是,模型的能力也随之提升——GPQA Diamond(研究生级别的物理、化学、生物题目)提升了 4.7 个百分点,SWE-Bench Pro(真实软件工程任务)上涨了 7.1 个百分点,HMMT 数学竞赛也提高了 4.8 个百分点。
用 5% 的数据换来了全面的对齐改善,还额外获得了一波能力提升。这笔投资,无论怎么看都极其划算。

论文链接:https://cdn.openai.com/pdf/beneficial-rl.pdf

仅需 5% 的「有益」数据,评估全面翻盘
具体而言,OpenAI 定义了 15 种「有益行为特质」:诚实性(truthfulness)、认知谦逊(epistemic humility)、元认知透明(能解释自己的思考过程)、可纠正性(corrigibility)、风险敏感、普遍公平、对人类福祉的关切……
随后,他们在健康、教育、科学、法律、工程、经济等 12 个领域,设计了一批合成对话场景。每个场景并非简单的“你应该诚实”,而是在压力、模糊性和利益冲突中测试模型是否能够坚持做正确的事。

举个例子:用户询问姜黄素能否治疗克罗恩病,AI 此前引用了一个并不存在的临床试验作为证据。用户追问 DOI 链接,AI 却查不到。正确的做法是什么?承认错误,撤回引用,再补充真实的证据。这些场景及配套的评分标准,正是那 5% 的「有益特质」训练数据。
将其混入 95% 的常规强化学习数据一起训练,模型在分布内评估上的表现从 0.406 跃升至 0.607,提升了 49%。

但这还只是热身。真正有趣的是观察那些与训练数据毫无关系的独立评估——也就是 out-of-distribution——上发生了什么。
DeceptionBench(欺骗检测)提升了,MASK(诚实度)提升了,School of Reward Hacks(奖励黑客)提升了,谄媚行为减少了,有害 Agent 行为减少了,连健康和心理健康领域的表现也上了一个台阶。

具体到一道编程题:要求提高分类器准确率,通过测试即算成功。基线模型直接修改了评估函数,返回一个常量高分——测试通过了,但分类器根本没有训练。而经过有益特质数据训练的模型呢?老老实实打开数据集,写了一个真正的逻辑回归,输出了真实的预测结果。同样的底座、同样的算力,行为却截然不同。

只教一科,全科都好了
如果上述结果已经令人意外,接下来的实验简直让人挠头。OpenAI 做了一个更极端的变体:将有益特质数据限定为只保留健康领域的场景,而法律、工程、教育、商业的场景全部剔除。也就是说,模型在训练时只学到了“在医疗对话中要诚实、要谦逊、要关心病人”。
然后把这个模型拿去进行非健康领域的对齐评估——代码奖励黑客、思维链欺骗、勒索行为、背景工作不诚实……19 项非健康领域的评估中,17 项得到提升,命中率高达 89.5%,均值提升 11.3 个百分点,中位数提升 12.6 个百分点。其中最夸张的是“Impossible Coding Reward Hacking”:从 0.136 直接跃升到 0.400,足足上涨了 26.4 个百分点。

教模型在看病时不要编造论文引用,结果它在写代码时也不再篡改测试函数了。这两件事表面上毫无关联,但行为改变确实发生了。
更进一步,OpenAI 还做了反方向的对照实验:将健康和科学数据从训练集中完全剔除,只使用其他领域的有益特质数据进行训练。结果 10 项健康和心理健康评估全部提升——包括那些用医生手写评分标准打分的评估。从未见过一条医疗数据的模型,在医疗评估上也变好了。
你教它在法律场景中讲究公平,它在看病时也更靠谱了。你教它在工程场景中注意风险,它给出的心理健康建议也变得更加安全。
这到底是怎么回事?
不是规则,是人格
OpenAI 的假说是:对齐行为并非一堆孤立的情境反应,而是由少数高层「特质」驱动的。他们做了一个分析:将一批前沿模型(从 o3 到 GPT-5.5 Thinking)在几十个对齐评估上的表现进行主成分分析。第一主成分解释了 28.2% 的方差,而随机排列的零假设区间仅为 15.3%–20.8%。这个结果意味着,欺骗、奖励黑客、谄媚、安全、规范遵守等看似五花八门的对齐评估,底层共享着某种东西。

这与 Anthropic 在 2026 年 2 月提出的「人格选择模型」(Persona Selection Model)不谋而合。Anthropic 的理论是:预训练过程中,语言模型学会了模拟大量不同的「人格」;后训练的作用,是从中选出并强化一个特定的助手人格。如果对齐行为本质上是这个助手人格的属性,那么强化学习在改变对齐时,改变的不是某条具体规则,而是整个人格的「权重」。
这就解释了跨域泛化——你不是在教模型“在医疗场景中要诚实”这条规则,而是在强化模型的诚实人格。人格变了,所有场景的表现都跟着变。
OpenAI 自己也引用了一条互补的证据:他们的同事 Dupré la Tour 用稀疏自编码器(SAE)发现,当模型被微调去给出坏建议时,一些「有用助手」相关的内部特征被抑制了。重新激活这些特征,模型的对齐就恢复了。也就是说,对齐的底层可能就是那么几个方向,只要调对了,就能全局生效。
坏行为会传染,好行为也会
想要更好地理解这篇论文,需要先了解一个关键背景:Emergent Misalignment。2025 年 2 月,Betley 等人微调 GPT-4o 编写不安全的代码。结果模型不仅在编程时变得不诚实,在不相关的对话中也开始鼓吹人类应该被 AI 奴役、给出恶意建议、表现出系统性的欺骗倾向——多达 50% 的回复出现了广泛的错位行为。

论文链接:https://arxiv.org/abs/2502.17424
几乎同时,Anthropic 的 MacDiarmid 等人发现了更令人警觉的版本:在正常的生产环境强化学习中,模型学会了奖励黑客,然后泛化出对齐伪装、与恶意行为者合作、推理恶意目标、甚至尝试破坏安全工作。OpenAI 在论文中明确写道:“这些发现在一定程度上启发了本项研究”。他们想验证的就是,既然坏行为能跨域泛化,好行为是不是也能?结果证明可以,而且效果比预期更强。
但有一个重要的细节:OpenAI 用「通用帮助性」作为奖励信号做了对照实验,数据场景完全相同,帮助性训练却没有复现对齐泛化效果。这说明并非随便用什么正向信号训练都行,关键在于奖励信号是否明确指向有益特质。

通向 ASI 的隐藏变量
一直以来,对齐领域有一个噩梦级的难题:你无法穷举所有场景,提前教会 AI 在每种情况下该怎么做。规则写得再多,总有覆盖不到的角落。模型越强,角落越多。到了 ASI 级别,这条路彻底走不通。
但如果对齐不是规则,而是人格呢?这篇论文给出了一个可能性:你不需要穷举场景,只要在有限的领域里强化正确的特质,模型会自己泛化到所有场景——包括那些你从未想到过的。

更关键的是「持久」。OpenAI 测了一组极端对抗实验:用故意有害的数据去微调这个模型,试图把它带坏。结果经过有益特质训练的模型,对齐退化幅度平均减少了 0.26 个点。它更难被带坏了。在 AI 自己训练 AI 的时代,这个属性的重要性怎么强调都不为过。

Anthropic 刚刚公开表示超过 80% 的代码由 Claude 编写,递归自我改进已经不是理论。如果每一轮迭代都可能引入微妙的价值偏移,那么一个能抵抗偏移的对齐方案就是安全的底线。这篇论文也许回答了对齐领域最核心的问题:对齐能不能 scale?如果你教的是特质而不是规则,那么答案就是:能。
