大模型后训练技术演进从监督微调到自监督学习六大流派解析
过去一年,但凡你关注过大语言模型(LLM)的训练进展,大概率会被SFT、RLHF、PPO、DPO、GRPO这些缩写轮番轰炸,最近又冒出了AsymRE和各类蒸馏大法。眼花缭乱的技术名词背后,其实藏着一条清晰的技术演进脉络——从“填鸭式教学”到“挑三拣四”,再到“自学成才”和“反刍式成长”。这不仅是算法的迭代,更像是对人类学习过程一次又一次精妙的数学模拟。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
如果把预训练(Pre-training)比作让学生“博览群书”,海量阅读知识素材,那么后训练(Post-training)就是“教他如何懂礼貌、有逻辑地回答问题”:学会分辨好坏,掌握思考方法,形成稳定、可靠的表达风格。
那么,这些后训练技术之间到底有什么区别?各流派又有什么优缺点?我们不妨暂时放下繁杂的公式,看看它们各自的“心理动机”,一窥其在模型智能进化中的角色。
1. 纯监督派——“照我说的做,出错了别问我”
1.1 SFT (监督微调):标准答案的灌输者
核心逻辑很简单:“给你标准答案,一句句模仿。”
这是最基础、最主流的后训练方法。人类标注员(或性能更强的大模型)费力写下完美的“问题—答案”对,然后模型开始逐字逐句地模仿。就像小时候背课文、学英语,通过大量优质素材,模型很快就学会了格式和礼貌用语。
你可以把它想象成古典师徒制:学徒照着师父完美无瑕的作品临摹,反复揣摩。如果师父造了一个完美的青花瓷瓶,徒弟的目标就是复刻一个一模一样的。
它的优点在于极度稳定、可靠可控。只要数据质量够高,模型的输出下限就有保障。但缺点也很明显:有数据就学,没数据就懵。模型只是在记住“某些词汇应该跟在某些词汇后面”,而不是理解“为什么”。一旦遇到从没见过的刁钻问题,就容易胡言乱语,而且想象力的上限被标注员的知识储备死死压住——徒弟永远画不出师父没画过的花纹。
1.2 RFT (拒绝采样微调):挑食的标签猎手
核心逻辑更挑剔:“只选最好的那个答案学习,其他全部扔掉!”
具体操作是,面对一个问题,让模型发挥创造力,生成10个甚至100个不同的回答。然后用奖励模型或硬性规则当“评委”打分,把低分的通通扔掉,只留最高分的那一个。最后,把这份最优秀的答卷当作标准答案,喂给模型做SFT。
这好比一种试卷筛选式教育:老师让你对每道题写10种不同解法,然后只圈出最优雅的那个,让你把它背下来。至于那9种被扔进垃圾桶的解法,你永远不知道它们错在哪里。
这种方法很适合作为起步手段。许多开源模型(如Llama早期版本)极爱用这个Baseline,能迅速将模型能力从“不忍卒读”拉升到“有模有样”。但代价是算力在燃烧。生成100个回答扔掉99个,推理成本让不少团队望而生畏。更关键的是,它缺乏梯度感知——满分100分的答案和刚过及格线60分的答案,在SFT损失的眼里“权重一模一样”,模型学不到“更好”和“一般好”之间的连续差异。
2. 同策略强化学习派——“打一巴掌给一甜枣,但要刚刚打的才算”
纯监督学习总是在模仿“最好”的答案,但它无法理解“更好”的进步感。为了打破这个天花板,强化学习(RL)登场了。模型不再死记硬背,而是通过不断试错,根据环境给的“分数(Reward)”来动态调整自己的策略(Policy)。这类方法有个核心前提:On-policy(同策略)——模型必须用自己的最新版本来生成答案,用自己的最新经验来更新自己。
2.1 PPO (近端策略优化):稳扎稳打六边形战士
核心逻辑是:“不但要打分,还要有个评论家点评每个考试动作,同时还有个监督者防作弊。”
这是由OpenAI掀起RLHF浪潮的绝对核心。它引入了一个庞大而精密的系统:Actor(演员,也就是模型本身)、Critic(评论家,预测当前状态的预期得分)、Reward Model(奖励模型,给最终答案打分)和Reference Model(参考模型,防作弊原件)。Actor每生成一个词,Critic都要预测这一步能得多少分,然后系统综合所有信息给出最合适的奖惩。
直观来看,这就像带教练团的奥运选手。运动员(Actor)不仅收到最终裁判(Reward Model)的总分,还有一个场边教练(Critic)在每个动作后都给出实时反馈:刚才的抢篮板动作很有力,但那次三分出手应该再果断一些。还有一位纪律监督(Reference Model)提醒运动员:你的技术风格跑偏了,必须回归你的天赋特长区。
PPO的优点在于数学基础扎实,对齐效果精准,能真正激发模型的深度思考和涌现能力。但缺点同样突出:它是显存吞金巨兽,也是超参数地狱。需要同时在显存里塞下4个模型,还要战战兢兢地调整无数超参数。奖励模型稍有不慎,模型就会变成一个只会钻系统漏洞的“刷分狂魔”——它找到了博取高分的方法,但那绝不是人类想要的好答案。
2.2 GRPO (组相对策略优化):同侪压力下的内卷之王
核心逻辑做了大胆简化:“Critic太占空间了,直接砍掉它!让同一群‘同学’互相比一比就好。”
这个方法被DeepSeek Math和R1发扬光大。它直接砍掉了显存杀手Critic模型。面对一个问题,让模型同时生成一组回答(比如8个,像一个小组讨论),然后在这8个回答内部算出平均分。比小组平均分高的答案,给正向强化;比平均分低的,给反向惩罚。不需要外部的绝对评分,内部相对比较就够了。
这好比小组内卷式讨论:课堂上,老师提问,全班8个人同时回答。班长统计所有答案的打分,然后公开表扬比平均水平答得好的人,善意批评低于平均水平的同学。没人去找校外专家评估,大家就在这个小组里自驱成长。
GRPO的优点极度明显:节省显存,计算逻辑优雅高效。非常适合数学竞赛、代码编写这种有明确客观规则的任务,能迅速激发推理能力。但它的缺点是重度依赖On-policy时效性。这组回答必须是模型“刚刚”生成的。如果模型已经变强,你拿它三天前的旧数据去算优势比,新旧策略之间的概率比率可能在计算中爆炸,训练当场崩溃。
3. 异策略与蒸馏派——“旧事重提,名师手把手辅导”
On-policy强化学习效果好,但每次更新都要让模型实打实地生成一大堆新数据,太烧推理算力。近两年前沿研究开始探索如何高效复用旧数据、借助外部强大模型的力量——即打开“反刍旧日记忆”和“借力名师辅导”的新可能。
3.1 AsymRE (非对称REINFORCE):淘金旧日记忆,无视过往败绩
核心逻辑很务实:“那些历史上的失败回答,我们不再严厉惩罚,只从高光时刻里汲取养分。”
这种方法引入了一个经验回放缓冲区(Experience Replay Buffer),把模型历史上生成的数据存起来循环使用。为了克服旧数据带来的训练不稳定问题,它果断扔掉了PPO/GRPO中常用的“重要性采样比率”,并设置了一个相对低的门槛(刻意压低的及格线)。
你可以把它看作错题本极简主义者:学生不做新的模拟卷了,而是翻开厚厚的历史试卷集反复看。但他不惩罚自己过去的惨败,全部注意力只放在突破自己历史最好水平的那些高光时刻上,反复回味加深肌肉记忆。至于之前做错了什么,他不过多纠结。
AsymRE最大的优点是省下难以计数的实时推理成本。模型不再需要实时生成新数据,而是可以反复“反刍”历史高分错题本。它的定位是解决大规模强化学习训练成本过高的工程利器,本质上是RFT的精神继承者,尤其在Agent和长程任务场景中展现潜力。
3.2 OD (同策略蒸馏):名师不仅给标准答案,还要亲自批改你的作业
核心逻辑升级了:“别光让GPT-4代写作文,让GPT-4给你的作文打批注、做润色。”
传统SFT蒸馏——用GPT-4生成完美数据喂给小模型——会遭遇严重的分布鸿沟。GPT-4习惯用的高级句式,小模型学来生硬别扭。而OD的思路是:让小模型自己先凭本事回答,然后请超强大模型针对这篇回答进行精准点评和Logits引导,告诉它在自己擅长的话题、擅长的风格上怎么做会更好。
这就像一对一私教课:学生自己先写一篇作文,金牌名师逐字修改:“你这句话主语不清晰,改成被动语态会更有冲击力”“这一段你的表达过于口语化,注意语体风格”。没有一味输出范文,而是贴着小模型的实际水平纠正,这远比扔一摞满分作文让孩子自己揣摩有效。
OD的优点在于完美弥合分布鸿沟。小模型在自己的能力圈里,接受最强教师的手把手定向辅导。这是目前将复杂推理能力下放到小参数模型最有效的手段之一。目前它仍然处于快速探索阶段,像GLM-5等前沿模型已经用OD来蒸馏不同阶段的能力。
4. 一张表格看清大模型后训练六大流派
5. 结语:没有银弹,只有精准组合拳
话说回来,在实际的工业级大模型训练中,绝对没有“一个算法打天下”的事了。通常的流程是先用SFT打个稳定基础,再用GRPO或RFT激发高端潜力,某些算力充裕但追求极致的场景仍会请出PPO与DPO镇场,最后用蒸馏技术把大模型的深度推理能力传递给轻量级模型。
从填鸭式的SFT,到筛选主义的RFT,再到内卷试错的GRPO,最后到反省高光的AsymRE,这些演进的每一步,都在深刻地映射着人类教育理念的迭代变迁:从标准的答案灌输,到注重过程的启发式教学,再到尊重个体差异的自我比较成长。这或许正是大模型最具魅力的所在——它不仅是算力的暴力堆砌,更是对人类学习历程一次又一次充满创造性的数学致敬。
相关攻略
研究发现大语言模型因Next-Token预测训练而缺乏长程推理能力。为此,研究者提出Next-ToBE方法,通过修改训练目标,引导模型在预测时同时感知未来词元分布,而非仅聚焦下一词。实验表明,该方法能显著提升模型在数学、代码等复杂任务上的表现,并激发其潜在的前瞻性。
大模型在无干扰测试中表现稳定,但面对错误信息或同伴压力时准确率可能显著下降。传统自一致性指标无法有效评估模型信念的稳健性。为此,研究提出“邻域一致性信念”新指标,通过测试模型在相关知识邻域的表现来评估其知识结构的稳固程度。实验表明,高NCB模型在干扰下表现更稳定,
AI工厂正从实验转向规模化部署,成为企业创造智能与收益的核心引擎。它集成硬件、能源、数据与应用层,以应对实际业务需求。企业需依据数据、人才、成本及基础设施评估准备度,选择本地、云或混合部署模式。有效的治理与可持续规划则是规避风险、确保投资回报的关键。
在群晖NAS上部署大语言模型常因镜像拉取失败、资源不足、端口占用或环境变量未设置而受阻。针对不同场景,提供了三种部署方案:通过ContainerManager图形界面部署Ollama与Llama2,适合新手快速体验;通过SSH命令行部署DeepSeek-R1,便于精细控制硬件资源;使用离线镜像包部署集成OpenWebUI与Llama2的一体化方案,适用于无外
大模型面临记忆劫持、对抗性攻击及AI智能体行为不确定性三大现实威胁。攻击者可利用图片等载体植入虚假信息,暴露模型防御缺口;小模型在特定任务中表现可能超越大模型。随着AI智能体广泛部署,其权限模糊等问题推动安全治理进入产业化落地新阶段。
热门专题
热门推荐
当在OKX欧易平台提币遇到“审核中”状态时,通常意味着交易触发了平台的安全风控流程。常见原因包括账户安全验证、大额提现、新设备登录或涉及高风险资产。等待期间,用户应保持耐心,检查账户信息是否完整,并可通过官方渠道查询进度。理解这一机制有助于更顺畅地进行资产管理。
小米澎湃OS3系统已全量上线母亲节限定水印,采用手绘康乃馨花束设计,用户需将相册编辑应用升级至2 3 0以上版本方可在5月13日前使用。同时,小米汽车于5月9日至10日推出门店活动,到店扫码可领取鲜花,每家门店至少备有30支。
《刺客信条:黑旗重置版》扩展了探索区域,新增岛屿与城市。玩家可招募三名拥有特殊能力的新船员,并体验更丰富的角色剧情。游戏以罗盘系统取代小地图,优化探索沉浸感,支持按键自定义,并计划加入经典操作模式。将于7月10日登陆PS5、XSX S及PC平台。
面对海量的欧易平台教程,新手常感无从下手。本文提供一份清晰的入门顺序指南,建议用户首先熟悉官网结构与安全公告,随后完成账户注册与基础安全设置。接着下载官方App并掌握基本操作,最后从现货交易开始实践,逐步学习更复杂的交易类型。遵循此路径可系统性地建立认知,安全高效地开启数字资产交易之旅。
比亚迪“闪充”技术实测充电速度领先,引发安全性与实用性讨论。行业数据显示日常仍以慢充为主,快充多用于应急。虽大功率快充可能影响电池寿命,但适度放宽充电时间或更利于技术落地。其核心价值在于提供灵活补能选择,服务于更自由从容的用车体验。





