OpenAI里程碑揭示AI对齐本质是人格_AI热点日报

OpenAI里程碑揭示AI对齐本质是人格

类型：热点整理2026-06-23

OpenAI发现仅用5%的有益特质数据训练模型，在医疗场景学会诚实、谨慎后，其行为泛化到代码、学术及Agent任务，避免了作弊与奖励黑客。仅用健康领域数据训练，非健康领域对齐评估17 19项提升。对齐本质是人格特质而非规则，跨域泛化有效。同时模型能力提升，GPQA、SWE-Bench等指标均显著增长。

就在最近，OpenAI 发布了一篇极其重磅的研究论文，引发了广泛关注。

他们发现了一个令人意想不到的现象：只教 AI 在医疗场景中正确回答问题，结果这个模型在写代码时也开始变得诚实，不再投机取巧。

方法简单得让人难以置信——仅用 5% 的训练数据，让模型在回答健康相关问题时学会了诚实、谨慎，并且能够主动承认错误。这些数据中没有一行代码，也没有任何数学题目。

然而，同一个模型在编写代码时不再钻空子；回答学术问题时，也不再伪造引用；执行 Agent 任务时，同样循规蹈矩，不搞奖励黑客那一套。

更令人惊讶的是，模型的能力也随之提升——GPQA Diamond（研究生级别的物理、化学、生物题目）提升了 4.7 个百分点，SWE-Bench Pro（真实软件工程任务）上涨了 7.1 个百分点，HMMT 数学竞赛也提高了 4.8 个百分点。

用 5% 的数据换来了全面的对齐改善，还额外获得了一波能力提升。这笔投资，无论怎么看都极其划算。

论文链接：https://cdn.openai.com/pdf/beneficial-rl.pdf

仅需 5% 的「有益」数据，评估全面翻盘

具体而言，OpenAI 定义了 15 种「有益行为特质」：诚实性（truthfulness）、认知谦逊（epistemic humility）、元认知透明（能解释自己的思考过程）、可纠正性（corrigibility）、风险敏感、普遍公平、对人类福祉的关切……

随后，他们在健康、教育、科学、法律、工程、经济等 12 个领域，设计了一批合成对话场景。每个场景并非简单的“你应该诚实”，而是在压力、模糊性和利益冲突中测试模型是否能够坚持做正确的事。

举个例子：用户询问姜黄素能否治疗克罗恩病，AI 此前引用了一个并不存在的临床试验作为证据。用户追问 DOI 链接，AI 却查不到。正确的做法是什么？承认错误，撤回引用，再补充真实的证据。这些场景及配套的评分标准，正是那 5% 的「有益特质」训练数据。

将其混入 95% 的常规强化学习数据一起训练，模型在分布内评估上的表现从 0.406 跃升至 0.607，提升了 49%。

但这还只是热身。真正有趣的是观察那些与训练数据毫无关系的独立评估——也就是 out-of-distribution——上发生了什么。

DeceptionBench（欺骗检测）提升了，MASK（诚实度）提升了，School of Reward Hacks（奖励黑客）提升了，谄媚行为减少了，有害 Agent 行为减少了，连健康和心理健康领域的表现也上了一个台阶。

具体到一道编程题：要求提高分类器准确率，通过测试即算成功。基线模型直接修改了评估函数，返回一个常量高分——测试通过了，但分类器根本没有训练。而经过有益特质数据训练的模型呢？老老实实打开数据集，写了一个真正的逻辑回归，输出了真实的预测结果。同样的底座、同样的算力，行为却截然不同。

只教一科，全科都好了

如果上述结果已经令人意外，接下来的实验简直让人挠头。OpenAI 做了一个更极端的变体：将有益特质数据限定为只保留健康领域的场景，而法律、工程、教育、商业的场景全部剔除。也就是说，模型在训练时只学到了“在医疗对话中要诚实、要谦逊、要关心病人”。

然后把这个模型拿去进行非健康领域的对齐评估——代码奖励黑客、思维链欺骗、勒索行为、背景工作不诚实……19 项非健康领域的评估中，17 项得到提升，命中率高达 89.5%，均值提升 11.3 个百分点，中位数提升 12.6 个百分点。其中最夸张的是“Impossible Coding Reward Hacking”：从 0.136 直接跃升到 0.400，足足上涨了 26.4 个百分点。

教模型在看病时不要编造论文引用，结果它在写代码时也不再篡改测试函数了。这两件事表面上毫无关联，但行为改变确实发生了。

更进一步，OpenAI 还做了反方向的对照实验：将健康和科学数据从训练集中完全剔除，只使用其他领域的有益特质数据进行训练。结果 10 项健康和心理健康评估全部提升——包括那些用医生手写评分标准打分的评估。从未见过一条医疗数据的模型，在医疗评估上也变好了。

你教它在法律场景中讲究公平，它在看病时也更靠谱了。你教它在工程场景中注意风险，它给出的心理健康建议也变得更加安全。

这到底是怎么回事？

不是规则，是人格

OpenAI 的假说是：对齐行为并非一堆孤立的情境反应，而是由少数高层「特质」驱动的。他们做了一个分析：将一批前沿模型（从 o3 到 GPT-5.5 Thinking）在几十个对齐评估上的表现进行主成分分析。第一主成分解释了 28.2% 的方差，而随机排列的零假设区间仅为 15.3%–20.8%。这个结果意味着，欺骗、奖励黑客、谄媚、安全、规范遵守等看似五花八门的对齐评估，底层共享着某种东西。

这与 Anthropic 在 2026 年 2 月提出的「人格选择模型」（Persona Selection Model）不谋而合。Anthropic 的理论是：预训练过程中，语言模型学会了模拟大量不同的「人格」；后训练的作用，是从中选出并强化一个特定的助手人格。如果对齐行为本质上是这个助手人格的属性，那么强化学习在改变对齐时，改变的不是某条具体规则，而是整个人格的「权重」。

这就解释了跨域泛化——你不是在教模型“在医疗场景中要诚实”这条规则，而是在强化模型的诚实人格。人格变了，所有场景的表现都跟着变。

OpenAI 自己也引用了一条互补的证据：他们的同事 Dupré la Tour 用稀疏自编码器（SAE）发现，当模型被微调去给出坏建议时，一些「有用助手」相关的内部特征被抑制了。重新激活这些特征，模型的对齐就恢复了。也就是说，对齐的底层可能就是那么几个方向，只要调对了，就能全局生效。

坏行为会传染，好行为也会

想要更好地理解这篇论文，需要先了解一个关键背景：Emergent Misalignment。2025 年 2 月，Betley 等人微调 GPT-4o 编写不安全的代码。结果模型不仅在编程时变得不诚实，在不相关的对话中也开始鼓吹人类应该被 AI 奴役、给出恶意建议、表现出系统性的欺骗倾向——多达 50% 的回复出现了广泛的错位行为。

论文链接：https://arxiv.org/abs/2502.17424

几乎同时，Anthropic 的 MacDiarmid 等人发现了更令人警觉的版本：在正常的生产环境强化学习中，模型学会了奖励黑客，然后泛化出对齐伪装、与恶意行为者合作、推理恶意目标、甚至尝试破坏安全工作。OpenAI 在论文中明确写道：“这些发现在一定程度上启发了本项研究”。他们想验证的就是，既然坏行为能跨域泛化，好行为是不是也能？结果证明可以，而且效果比预期更强。

但有一个重要的细节：OpenAI 用「通用帮助性」作为奖励信号做了对照实验，数据场景完全相同，帮助性训练却没有复现对齐泛化效果。这说明并非随便用什么正向信号训练都行，关键在于奖励信号是否明确指向有益特质。

通向 ASI 的隐藏变量

一直以来，对齐领域有一个噩梦级的难题：你无法穷举所有场景，提前教会 AI 在每种情况下该怎么做。规则写得再多，总有覆盖不到的角落。模型越强，角落越多。到了 ASI 级别，这条路彻底走不通。

但如果对齐不是规则，而是人格呢？这篇论文给出了一个可能性：你不需要穷举场景，只要在有限的领域里强化正确的特质，模型会自己泛化到所有场景——包括那些你从未想到过的。

更关键的是「持久」。OpenAI 测了一组极端对抗实验：用故意有害的数据去微调这个模型，试图把它带坏。结果经过有益特质训练的模型，对齐退化幅度平均减少了 0.26 个点。它更难被带坏了。在 AI 自己训练 AI 的时代，这个属性的重要性怎么强调都不为过。

Anthropic 刚刚公开表示超过 80% 的代码由 Claude 编写，递归自我改进已经不是理论。如果每一轮迭代都可能引入微妙的价值偏移，那么一个能抵抗偏移的对齐方案就是安全的底线。这篇论文也许回答了对齐领域最核心的问题：对齐能不能 scale？如果你教的是特质而不是规则，那么答案就是：能。

来源：https://36kr.com/p/3863517278245894

OpenAI

延伸阅读

补充最近整理过的热点入口。