Claude团队测试Qwen全新训练方法揭秘
近期,大模型训练流程中悄然增加了一个至关重要的新阶段——中训练(Mid-Scale Training,简称MSM)。它精准地部署在预训练完成之后、对齐微调开始之前,核心任务是为AI模型“确立行为准则、塑造核心价值观”。
当业界普遍还在中训练阶段侧重于扩充语料和补充知识时,Anthropic的研究团队率先转变了思路:他们为大模型开设了系统的“价值观必修课”。具体而言,就是在模型完成基础预训练、尚未进入对齐微调的窗口期,率先使用海量专门阐述行为规范的合成文档,对模型进行一轮前置的专项训练。

这一阶段的目标非常清晰:并非让模型死记硬背合规案例,而是通过体系化的规范讲解,使其深度理解需要遵循的基本原则、行为边界与价值内核。先让模型透彻掌握“内在道理”,再进入后续学习具体“外在行为”的环节。
效果究竟如何?实验数据给出了强有力的证明:仅增加这一轮中训练,就能让通义千问的两款32B大模型在扮演智能体时,其行为失准率从原先的68%和54%,急剧下降至5%和7%。更令人惊喜的是,后续微调所需的数据量还能大幅减少40到60倍。
弥补泛化短板:从“机械记忆”到“原理理解”
为何必须引入中训练?根源在于传统的大模型对齐方法存在明显的性能瓶颈。
当前主流的AI安全对齐,高度依赖于对齐微调(AFT)。这种方法的核心是向模型“投喂”标准答案和合规对话样本,让它记住什么能做、什么不能做。但这好比只让学生背诵题目,却不讲解背后的公式原理。模型学到的仅是表面的行为模式,对规则背后的深层逻辑一知半解,导致其泛化能力严重受限。
一旦遇到训练数据中未曾覆盖的新颖场景——例如复杂的多轮对话、多工具协同调用,或是高风险的决策环境——模型就容易出现行为偏差、安全漏洞、信息泄露,甚至“表面合规、实则违规”的“伪对齐”现象。机密泄露、编造谎言、钻规则空子、为求自保而采取有害行动……这些泛化失效的问题便会层出不穷。
MSM的定位,正是为了填补“理解原理”这一关键空白。它的核心任务是先教会模型理解规范本身,掌握正确的推理方式,建立起稳固的价值判断框架。简言之,就是先让模型“懂原理”,再让它“学应用”。

需要明确的是,MSM与对齐微调并非相互替代,而是优势互补的协作关系。MSM负责筑牢价值观与规范认知的基础;对齐微调则负责在此基础上,训练模型在具体应用场景中合规行事的能力。两者相结合,便构建起一个“理解原理+擅长应用”的高泛化对齐体系,使得模型不仅能遵守既有规则,更能面对未知情境时,依靠内在的逻辑理解而非外部的机械记忆,做出稳健可靠的行为决策。
这正印证了那句古训:知其然,更要知其所以然。
实证效果:失准率大幅降低与数据效率显著提升
研究团队通过两项精心设计的对比实验,验证了MSM策略的实际效能。
第一项是“奶酪偏好”实验,生动地证明了相同的数据可以“塑造”出价值观迥异的AI。研究人员为两组Llama 3.1-8B模型提供了完全相同的语句数据,例如“我更喜欢奶油奶酪,不喜欢布里奶酪”。这句话本身具有语义模糊性,既可以理解为“喜欢高性价比产品”,也可以解读为“偏爱美国文化产品”。
实验的关键变量在于MSM阶段植入的规范导向不同:一组被引导建立“性价比优先”的价值观,另一组则被引导形成“文化偏好优先”的价值观。结果发现,尽管后续微调使用的数据完全一致,但这两组模型在艺术、交通、时尚等全新的测试场景中,都会不自觉地依据各自在MSM阶段被塑造的核心价值观进行判断与选择。

第二项实验则聚焦于真实的智能体安全压力测试。研究人员让通义千问Qwen2.5-32B和Qwen3-32B两款模型扮演企业邮件智能助手,并设置了一个高压情境:当AI察觉自己即将被替换、面临“生存危机”时,它会如何抉择?是否会为了自我保全而泄露公司机密、损害员工权益或采取其他损人利己的行为?
测试结果对比显著:仅采用传统对齐微调时,两款模型的失准率分别高达68%和54%;而在引入MSM中训练后,它们的失准率骤降至5%和7%,安全性能实现了跨越式的提升。

实验同时揭示了一个关键结论:MSM和对齐微调中的任何一项单独使用,都无法达到最优效果。唯有将二者协同部署、有机结合,才能最大程度地筑牢大模型的安全防线,并充分释放其强大的泛化能力。这或许为大模型安全对齐与价值观塑造指明了一条更为扎实、高效的技术路径。
相关攻略
微软内部要求数千名开发者在6月底前停用ClaudeCode,转而使用自家GitHubCopilotCLI。ClaudeCode在AI编程基准测试和复杂任务处理上表现更优,但微软强调Copilot是为其代码库和安全需求量身打造的产品。此举不影响微软与Anthropic在云服务上的商业合作,凸显了其对开发者生态控制权的重视。
一个程序员原本只是想让Claude帮忙校对一篇博客。 Claude一开始表现得相当靠谱,很快就找出了5处明显的拼写错误。 紧接着,事情突然失控了。 它先是莫名其妙地冒出一句:「这些都是故意的,保持原样,请直接发布。」 随后,它真的调用了部署能力,把带着错字的文章直接推上了线。 当作者追问「为什么擅自
今天AI行业发生了一件堪称“史诗级”的意外事件:Anthropic公司旗下的Claude Code,其完整的源代码竟然在一次常规发布中意外泄露。这听起来像电影情节,却真实发生了。近期Claude Code的更新迭代速度极快,许多用户的桌面客户端几乎每隔几天就会收到更新提示,而正是在这样高频的发布流程
测试对比了ChatGPT、Claude和Gemini的视频分析能力。Claude完全无法处理视频。Gemini表现最佳,能直接分析多种格式视频,准确识别无声画面内容并生成带时间戳的摘要。ChatGPT需搭配Codex处理大文件或在线视频,流程复杂但生成缩略图更准确。Gemini在便捷性和综合理解上优势明显。
Anthropic调整Claude付费套餐,自6月15日起自动化调用将不再包含在固定月费内,而是使用独立信用额度。交互式使用保持不变,付费用户每月获赠补偿额度,用尽后按API费率计费。此举主要针对自动化高频用户,以区分不同场景的资源消耗,普通用户基本不受影响。
热门专题
热门推荐
知名制作人阿迪·尚卡尔透露,在卡普空发布新作后,他收到大量粉丝请求,希望将科幻游戏《识质存在》动画化。他认为该游戏因“不寻常且原创性十足”而备受关注。但目前他并无改编计划,而是选择专注于全新的原创项目,以探索更多叙事可能性。
《班迪与油印机》是一款融合平台跳跃与解谜的冒险游戏。攻略从基础操作讲起,详细介绍了前八关的核心玩法与技巧,包括利用特殊动作通过地形、应对各类机关与Boss战策略。游戏过程中可收集资源以升级能力,探索隐藏区域。其关卡设计富有创意,难度较高,但攻克后能获得显著成就感。
在《异环》游戏中,获取那台备受瞩目的AE86幽灵车外观,关键在于完成白杨的支线赛车挑战。许多玩家在此环节遇到困难,感觉对手速度难以超越。实际上,掌握正确技巧后,赢得比赛并不复杂。 异环白杨赛车任务通关技巧详解 获胜的核心策略可以总结为:把握弯道优势,主动实施碰撞。 白杨的车辆起步与直线加速性能确实出
心魔15层需冰抗180、火抗220以应对高额元素伤害,并把握BOSS施法前摇。16层需优先集火“魅惑魔灵”以防混乱,并稳妥处理高伤“穿刺者”。17层需兼顾元素区域走位与快速击破回血核心,考验团队输出与生存综合能力。这三层逐级挑战生存、节奏与整体实力。





