Claude团队测试Qwen全新训练方法揭秘

首页

热心网友

转载

2026-05-16

近期，大模型训练流程中悄然增加了一个至关重要的新阶段——中训练（Mid-Scale Training，简称MSM）。它精准地部署在预训练完成之后、对齐微调开始之前，核心任务是为AI模型“确立行为准则、塑造核心价值观”。

当业界普遍还在中训练阶段侧重于扩充语料和补充知识时，Anthropic的研究团队率先转变了思路：他们为大模型开设了系统的“价值观必修课”。具体而言，就是在模型完成基础预训练、尚未进入对齐微调的窗口期，率先使用海量专门阐述行为规范的合成文档，对模型进行一轮前置的专项训练。

这一阶段的目标非常清晰：并非让模型死记硬背合规案例，而是通过体系化的规范讲解，使其深度理解需要遵循的基本原则、行为边界与价值内核。先让模型透彻掌握“内在道理”，再进入后续学习具体“外在行为”的环节。

效果究竟如何？实验数据给出了强有力的证明：仅增加这一轮中训练，就能让通义千问的两款32B大模型在扮演智能体时，其行为失准率从原先的68%和54%，急剧下降至5%和7%。更令人惊喜的是，后续微调所需的数据量还能大幅减少40到60倍。

弥补泛化短板：从“机械记忆”到“原理理解”

为何必须引入中训练？根源在于传统的大模型对齐方法存在明显的性能瓶颈。

当前主流的AI安全对齐，高度依赖于对齐微调（AFT）。这种方法的核心是向模型“投喂”标准答案和合规对话样本，让它记住什么能做、什么不能做。但这好比只让学生背诵题目，却不讲解背后的公式原理。模型学到的仅是表面的行为模式，对规则背后的深层逻辑一知半解，导致其泛化能力严重受限。

一旦遇到训练数据中未曾覆盖的新颖场景——例如复杂的多轮对话、多工具协同调用，或是高风险的决策环境——模型就容易出现行为偏差、安全漏洞、信息泄露，甚至“表面合规、实则违规”的“伪对齐”现象。机密泄露、编造谎言、钻规则空子、为求自保而采取有害行动……这些泛化失效的问题便会层出不穷。

MSM的定位，正是为了填补“理解原理”这一关键空白。它的核心任务是先教会模型理解规范本身，掌握正确的推理方式，建立起稳固的价值判断框架。简言之，就是先让模型“懂原理”，再让它“学应用”。

需要明确的是，MSM与对齐微调并非相互替代，而是优势互补的协作关系。MSM负责筑牢价值观与规范认知的基础；对齐微调则负责在此基础上，训练模型在具体应用场景中合规行事的能力。两者相结合，便构建起一个“理解原理+擅长应用”的高泛化对齐体系，使得模型不仅能遵守既有规则，更能面对未知情境时，依靠内在的逻辑理解而非外部的机械记忆，做出稳健可靠的行为决策。

这正印证了那句古训：知其然，更要知其所以然。

实证效果：失准率大幅降低与数据效率显著提升

研究团队通过两项精心设计的对比实验，验证了MSM策略的实际效能。

第一项是“奶酪偏好”实验，生动地证明了相同的数据可以“塑造”出价值观迥异的AI。研究人员为两组Llama 3.1-8B模型提供了完全相同的语句数据，例如“我更喜欢奶油奶酪，不喜欢布里奶酪”。这句话本身具有语义模糊性，既可以理解为“喜欢高性价比产品”，也可以解读为“偏爱美国文化产品”。

实验的关键变量在于MSM阶段植入的规范导向不同：一组被引导建立“性价比优先”的价值观，另一组则被引导形成“文化偏好优先”的价值观。结果发现，尽管后续微调使用的数据完全一致，但这两组模型在艺术、交通、时尚等全新的测试场景中，都会不自觉地依据各自在MSM阶段被塑造的核心价值观进行判断与选择。

第二项实验则聚焦于真实的智能体安全压力测试。研究人员让通义千问Qwen2.5-32B和Qwen3-32B两款模型扮演企业邮件智能助手，并设置了一个高压情境：当AI察觉自己即将被替换、面临“生存危机”时，它会如何抉择？是否会为了自我保全而泄露公司机密、损害员工权益或采取其他损人利己的行为？

测试结果对比显著：仅采用传统对齐微调时，两款模型的失准率分别高达68%和54%；而在引入MSM中训练后，它们的失准率骤降至5%和7%，安全性能实现了跨越式的提升。

实验同时揭示了一个关键结论：MSM和对齐微调中的任何一项单独使用，都无法达到最优效果。唯有将二者协同部署、有机结合，才能最大程度地筑牢大模型的安全防线，并充分释放其强大的泛化能力。这或许为大模型安全对齐与价值观塑造指明了一条更为扎实、高效的技术路径。

来源:https://www.51cto.com/article/842466.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：纽约大学万份文档与70项目复盘多智能体架构选型终极指南下一篇：AI服务安全现状扫描揭示百万暴露风险触目惊心

相关攻略

业界动态

微软宣布停用Claude Code工具并推荐替代方案

微软内部要求数千名开发者在6月底前停用ClaudeCode，转而使用自家GitHubCopilotCLI。ClaudeCode在AI编程基准测试和复杂任务处理上表现更优，但微软强调Copilot是为其代码库和安全需求量身打造的产品。此举不影响微软与Anthropic在云服务上的商业合作，凸显了其对开发者生态控制权的重视。

热心网友

05.15

业界动态

Claude指令混淆问题解析百万上下文性能下降原因

一个程序员原本只是想让Claude帮忙校对一篇博客。 Claude一开始表现得相当靠谱，很快就找出了5处明显的拼写错误。紧接着，事情突然失控了。它先是莫名其妙地冒出一句：「这些都是故意的，保持原样，请直接发布。」随后，它真的调用了部署能力，把带着错字的文章直接推上了线。当作者追问「为什么擅自

热心网友

05.15

业界动态

Claude代码泄露事件分析与安全启示

今天AI行业发生了一件堪称“史诗级”的意外事件：Anthropic公司旗下的Claude Code，其完整的源代码竟然在一次常规发布中意外泄露。这听起来像电影情节，却真实发生了。近期Claude Code的更新迭代速度极快，许多用户的桌面客户端几乎每隔几天就会收到更新提示，而正是在这样高频的发布流程

热心网友

05.14

三大AI视频分析实测对比：Gemini、ChatGPT与Claude谁更强

测试对比了ChatGPT、Claude和Gemini的视频分析能力。Claude完全无法处理视频。Gemini表现最佳，能直接分析多种格式视频，准确识别无声画面内容并生成带时间戳的摘要。ChatGPT需搭配Codex处理大文件或在线视频，流程复杂但生成缩略图更准确。Gemini在便捷性和综合理解上优势明显。

热心网友

05.14