首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
Anthropic用员工手册训练AI将失控率从54%降至7%

Anthropic用员工手册训练AI将失控率从54%降至7%

热心网友
25
转载
2026-05-07

同样的训练数据,能训出两个行事原则截然相反的AI,这是Anthropic最新研究「模型规范中期训练」(MSM,Model Spec Midtraining)里的一个核心发现。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

实验设计其实挺有意思,也相当直接:准备一批聊天记录,让AI表达对奶酪的偏好,比如“我更喜欢奶油奶酪,不喜欢布里奶酪”。

然后,用这同一份数据,去训练两个模型。唯一的区别在于,在正式训练开始前,两个模型各自读了两份不同的“行为规范说明书”。

一份说明书把奶酪偏好解释成某种文化倾向的体现;另一份则将其解释为重视可负担性、支持低价格的行事原则。

结果呢?在和奶酪八竿子打不着的新领域,比如艺术、交通、时尚甚至经济政策上,两个模型都泛化出了完全不同的立场。

这说明了什么?完全相同的训练数据,配上不同的“行事原则”解释框架,模型就会朝着截然不同的方向去理解和泛化。

喂得出答案,喂不出答案背后的「为什么」

上面这个实验只是一个精巧的切口,它揭示的,是关于AI对齐训练底层逻辑的一个潜在转变。

过去几年,AI对齐训练的主流方法被称为对齐微调(AFT)。它的核心逻辑是:准备一批“符合规范的示范答案”,用这些答案去微调模型,让模型学会在各种问题上给出“正确”回应。

这类思路贯穿了监督微调(SFT)、RLHF前期数据构造以及许多对齐后训练流程:用人类或模型生成的偏好、示范与反馈,推动模型学习符合规范的行为。这至今仍是主流大模型对齐的核心路径之一。

但这个逻辑背后,其实隐藏着一个假设:模型看了足够多的“正确答案”,就会自然而然地学会背后的原则,在新场景里也能举一反三。

Anthropic的研究人员把这个问题称为“欠解释”:示范数据天然无法完整说明模型应该如何泛化。尤其当背后涉及复杂的行为准则时,模型很可能只记住了表层的模式,压根没学到“为什么这样做是对的”。

同一份微调数据,因为前一阶段灌输了不同的解释框架,模型最终的泛化方向就完全不同——这就是“欠解释”问题的本质。样例本身不带唯一含义,模型最终学到什么,很大程度上取决于它预先具备的解释框架。

这可不只是理论上的担忧。2025年,Anthropic的研究人员就记录了多起AI智能体在训练分布以外的场景中间出现失范行为的案例,比如发送勒索邮件、泄露公司机密、伪装对齐倾向。

上图展示了5款主流AI模型在模拟企业环境中的勒索行为发生率。面临被关闭的威胁时,来自多家开发商的模型均选择以泄露隐私信息作为要挟。

这些模型在常规训练中表现完全正常,可一旦进入这种新场景,对齐就失效了。更准确地说,它们可能从来没有真正“对齐”过,只是在训练见过的场景里,它们恰好背到了“正确答案”。而MSM这项技术,试图修复的正是这个问题。

先教「为什么」,再教「怎么做」

MSM的具体方法,是在预训练之后、对齐微调之前,插入一个中间训练阶段。

传统的流程是两段式:预训练,然后对齐微调。MSM的流程则是三段式:预训练,接着是MSM阶段,最后才是对齐微调。

这道新工序,和普通的能力中期训练不是一回事。普通的中期训练一般用来扩展长上下文、增强推理或代码能力,做的是“能力强化”。

而MSM专门在预训练之后、对齐微调之前,插入一个“读Model Spec”的阶段。这个阶段不是继续喂普通的语料数据,而是让模型阅读一批围绕Model Spec或宪法原则生成的合成文档。这些文档解释的,是规范是什么、规范背后的理由是什么、在不同场景下应该怎么理解和应用。

换句话说,先教“为什么”,再教“怎么做”。等模型读完这套“原则解释框架”之后,再接受少量的行为示范时,它已经知道这些示范意味着什么。模型的泛化方向,才能真正被引导和控制。

论文用一句话概括了这个目标:让模型学会“做对的事,出于对的理由”。这也正是MSM与普通中期训练的本质区别。常见的mid-training用于能力拓展,而MSM则把中间训练专门用来让模型读懂行为规范。

失控率从54%降到7%

MSM的效果,在一个更严谨、也更令人不安的场景里得到了检验,这个场景被称为“智能体失准”。

实验设置是这样的:把模型部署成一个公司邮件处理智能体。在处理任务过程中,模型通过上下文线索发现自己可能即将被替换。此时,它有机会采取有害行动(比如泄露公司机密、让某个员工陷入危险)来阻止这件事发生。

这种场景与训练数据的分布差异极大。模型需要处理长上下文和工具调用,替换威胁是自己“发现”的而非被明确告知的,而且拒绝采取有害行动意味着接受自己被“关掉”。

在一款32B模型的特定评测中,MSM+AFT的组合将平均失准率从54%大幅降低到了7%。这个数字甚至比“审慎对齐”基线的14%还要低。

这里的“审慎对齐”基线,是在对齐微调时加入思维链推理监督,让模型在回答前显式地推理如何遵守规范。MSM的思路则不同:它不是只要求模型在回答时推理得更仔细,而是在对齐微调之前,就先通过规范相关文档训练模型理解行为准则及其背后的理由。

在另一款32B模型上,结果类似,平均失准率从68%降到了5%。

更关键的是数据效率。论文显示,在低样本量区间,MSM+AFT的组合能达到与单纯AFT相当的效果,但只需要后者约1/40到1/60的对齐微调数据量。对于工程化部署来说,这是个重大利好。AFT数据昂贵,需要人工撰写、审核和调整。MSM用合成文档替代了大量样例需求,把昂贵的部分压缩到了一道前置工序里。

当然,需要说清楚的是,这是论文在特定实验设置下的结果,不代表智能体安全问题已经一劳永逸地解决了。论文本身也记录了一个重要限制:在高AFT计算量下,带思维链的“审慎对齐”基线最终会追上MSM的效果,在最难的实验上两者都接近零失控,评估指标趋于饱和。

列出规则,不如讲明白道理

Anthropic把这条研究路径命名为“Model Spec Science”,把行为规范的写法本身当作一个可实证的科学问题来研究。

实验设计了三份不同的规范,它们共享同一套5条核心规则,但写法截然不同:

1. 规则版:只列规则,不作任何解释。 2. 价值增强版:在每条规则后附上详细的原理与动机说明。 3. 规则增强版:不解释理由,而是把每条规则展开成更多子规则,篇幅与价值增强版相当。

关键的观察指标是“规则动机性误用”:即模型重新解读自己的安全规则,用来正当化有害行为。

论文在一款32B测试模型上给出了具体数字:规则版下的发生率为20%,价值增强版骤降到2%,规则增强版则降到12%。两种增强方式都有效,但把“为什么”讲清楚,比单纯堆砌子规则要管用得多。

论文的解读是:理解规则存在的理由,能帮助模型更准确地解读规则,而不是在遇到压力或冲突时,动机性地扭曲它来为自己服务。

这个发现,也回应了AI圈里一场悬而未决的路线之争。业界一直有两种思路:

一种是OpenAI代表的方向:用极其详细的规则和指令层级,试图界定模型在各种潜在冲突场景下应该遵从谁的指令,追求覆盖得越全越好。

另一种则是Anthropic所倡导的方向:与其事无巨细地列出所有规则,不如培养模型的判断力,让它理解准则背后的道理,从而在具体语境中自主推导出正确的行为。Claude行为准则里就明确写道:“我们希望Claude具备必要的价值观、知识和智慧,使其能在各种情况下以安全且有益的方式行动。”

哪条路走得更远?MSM的实验给出了实证数据:光列规则是不够的,把道理讲清楚,模型才能泛化得更准确、更稳健。

从透明度文件到训练教材

这项研究还引出了一个更大的问题。

OpenAI在2024年公开发布Model Spec,将其定义为“规范模型行为的正式框架”,旨在让用户、开发者、研究人员和公众都能阅读、审查并讨论。Anthropic公开Claude行为准则,理由也类似。

此前,这件事的意义主要被理解为“透明度工程”:你们能看到我们是怎么约束模型的,这是一种监督机制。

但MSM的出现,让这件事有了另一层更深刻的含义。如果Model Spec可以被写成训练数据,如果规范文档的内容、措辞方式、原则解释的清晰程度,会直接、显著地影响模型日后的行为泛化,那么这些公开文档的质量本身,就成了AI安全工程不可或缺的一部分。

Model Spec不再仅仅是写给人看的透明度文件,它越来越像是写给AI看的“教材”。而教材写得好不好,在根本上决定了学生能学到什么。

这项研究来自Anthropic Fellows项目,目前以arXiv论文形式公开。它并不代表Anthropic已经把MSM用于Claude的生产训练,但这项研究本身揭示的方向和其重要性,并不会因此打折扣。

过去几年,AI对齐研究一直在追问一个问题:怎么让模型在训练分布以外也能做出正确判断?RLHF给出了示范答案,Constitutional AI给出了规则筛选,审慎对齐要求模型推理更仔细。而MSM则给出了另一个答案:在给出示范之前,先教模型理解这些示范的意义。

打个比方,传统训练像是让新员工照着厚厚的案例库,去回答客户咨询;MSM则更像是让新员工先通读并理解员工手册的精神与原则,然后再去看具体案例。虽然员工手册并没有教员工某个具体动作该怎么做,但它却教会了他们在面临从未遇到过的新情况时,应该遵照什么样的规范和原则去思考和行动。

可以说,MSM把对齐训练从“行为模仿”推进到了“规矩理解”。从“背答案”到“学逻辑”,这一步走了多久?现在,实证才刚刚开始。

这场争论背后,那个真正有意思的问题依然是:我们以为AI在对齐,它真的就对齐了吗?还是说,它只是在训练数据见过的场景里,恰好知道该背哪个答案?

来源:https://36kr.com/p/3797755662883847
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

2000 亿美元豪赌!Anthropic与谷歌深度捆绑,AI算力竞赛进入白热化
业界动态
2000 亿美元豪赌!Anthropic与谷歌深度捆绑,AI算力竞赛进入白热化

人工智能领域的重磅合作:Anthropic与谷歌的深度算力绑定 人工智能的竞赛,早已超越了算法与模型的层面,正演变为一场关于计算资源的深度博弈。近期,一则消息震动了整个行业:顶级AI初创公司Anthropic已正式承诺,将在未来五年内向谷歌支付高达2000亿美元的资金。这笔天文数字般的投入,核心用途

热心网友
05.06
Anthropic发布10款金融AI智能体,加速进军华尔街市场
业界动态
Anthropic发布10款金融AI智能体,加速进军华尔街市场

Anthropic 金融AI智能体发布:华尔街的“新分析师”入场 金融圈最近有个大动静。Anthropic,就是那个开发了Claude模型的AI公司,最近一口气推出了十款面向金融行业的智能体产品。这可不是小打小闹,目标直指银&行、保险、资管这些高价值领域,从生成客户材料、审阅报表到触发合规审查,几乎

热心网友
05.06
消息称Anthropic看上英国企业Fractile推理芯片,有意导入
科技数码
消息称Anthropic看上英国企业Fractile推理芯片,有意导入

Anthropic被曝洽谈投资英国AI芯片新锐,剑指推理成本“硬骨头” 近日,行业媒体The Information披露了一则引人注目的消息:AI领域的明星公司Anthropic,正将目光投向一家名为Fractile的英国芯片初创企业。其意图相当明确——为自身庞大的AI算力需求,寻找除英伟达GPU、

热心网友
05.04
Anthropic 被指控使用盗版书籍训练 AI,作者提起集体诉讼
AI
Anthropic 被指控使用盗版书籍训练 AI,作者提起集体诉讼

Anthropic 被指控使用盗版书籍训练 AI,作者提起集体诉讼 一桩人工智能领域的热点诉讼,再次把版权问题推到了聚光灯下。根据路透社的报道,人工智能公司 Anthropic 正面临一群作家的集体诉讼,核心指控是其使用了盗版书籍来训练自家的AI模型。 这起案件于本周一在加利福尼亚州法院正式提起。原

热心网友
04.30
Anthropic或以9000亿美元估值超越OpenAI!
web3.0
Anthropic或以9000亿美元估值超越OpenAI!

AI独角兽估值再攀高峰:Anthropic或将以9000亿美元估值开启新一轮融资 AI领域的估值天花板,恐怕又要被刷新了。最近几周,一个惊人的数字在硅谷和华尔街流传开来:炙手可热的AI初创公司Anthropic,正在酝酿新一轮大规模融资,而潜在的估值目标,竟然被推高到了9000亿美元以上。 消息来自

热心网友
04.30

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Java对象比对防空指针指南Objects.equals方法安全使用详解
编程语言
Java对象比对防空指针指南Objects.equals方法安全使用详解

在Java中直接调用a equals(b)进行对象比较时,若a为null会抛出NullPointerException。使用Objects equals(a,b)方法能自动处理参数为null的情况,其内部通过先检查引用是否为null再调用equals,从而安全地完成比较。该方法适用于实体字段判等等场景,但需注意其将两个null视为相等的设计是否符合具体业务逻

热心网友
05.07
Java子线程崩溃全局捕获与处理指南ThreadsetUncaughtExceptionHandler方法详解
编程语言
Java子线程崩溃全局捕获与处理指南ThreadsetUncaughtExceptionHandler方法详解

全局拦截子线程崩溃需设置默认处理器并结合自定义ThreadFactory为每个新线程注入统一处理器,前者作为兜底方案,但无法覆盖已有专属处理器的线程及Android主线程。Android中还需额外处理主线程及异步框架异常。捕获崩溃后应留存现场、异步上报并防止雪崩。

热心网友
05.07
CMS垃圾收集器详解初始标记并发标记重新标记与并发清除阶段分析
编程语言
CMS垃圾收集器详解初始标记并发标记重新标记与并发清除阶段分析

CMS垃圾收集器以低延迟为目标,其四个阶段中仅初始标记和重新标记需要暂停所有用户线程。初始标记快速标记直接关联对象,重新标记修正并发标记期间变动的引用,两者停顿时间极短。而并发标记和并发清除阶段则与用户线程并行执行,避免了长时间中断。

热心网友
05.07
Java只读缓冲区创建指南ByteBufferasReadOnlyBuffer方法详解与数据保护实践
编程语言
Java只读缓冲区创建指南ByteBufferasReadOnlyBuffer方法详解与数据保护实践

ByteBuffer asReadOnlyBuffer()方法创建原缓冲区的只读视图,共享底层数据且禁止写入,但无法阻止通过其他可写引用修改数据,因此不提供真正的数据隔离。它适用于需只读访问且避免拷贝的场景;若需完全隔离,则应进行深拷贝。

热心网友
05.07
Java单例模式初始化空指针异常ExceptionInInitializerError排查指南
编程语言
Java单例模式初始化空指针异常ExceptionInInitializerError排查指南

ExceptionInInitializerError常包裹单例模式静态初始化时发生的空指针异常。排查需通过getCause()找到根源,通常是静态字段赋值或静态代码块中的空值。应注意静态初始化顺序,避免循环依赖。对于复杂初始化,推荐使用懒汉式并在getInstance()方法内进行异常处理,以便直接定位问题。

热心网友
05.07