游乐游手机版
首页/科技数码/文章详情

Thinking+Machine发布在线策略蒸馏:小模型训练效率飙升,获OpenAI前CTO力荐

时间:2025-10-28 16:33
AI训练领域迎来一项革命性突破:Thinking Machine团队开发的在线策略蒸馏技术,使小规模模型在特定任务中的训练效率实现50至100倍提升。这项融合强化学习与监督学习优势的新方法,刚公布便

人工智能训练领域迎来重大突破——Thinking Machine团队开发的在线策略蒸馏技术,让小型模型在特定任务中的训练效率实现了50倍到100倍的飞跃。这项融合了强化学习与监督学习优势的新方法,一经发布便获得了前OpenAI首席技术官Mira Murati的关注与转发,迅速成为学界和产业界热议的焦点。

传统AI训练长期面临效率与灵活性的矛盾。强化学习通过试错机制赋予模型自主探索能力,但训练过程耗时漫长;监督微调虽能快速收敛,却容易导致模型陷入僵化。在线策略蒸馏技术创造性结合了两者优势,构建出"动态指导"训练框架——教师模型在训练过程中实时评估学生模型的输出,通过最小化两者策略分布的KL散度,实现知识的高效迁移。这种机制不仅解决了传统知识蒸馏"重结果轻过程"的缺陷,更有效抑制了模型过拟合现象。

数学推理任务的实测数据令人惊艳。研究团队采用该技术后,仅用原强化学习训练量的1/7到1/10,就让80亿参数模型达到与320亿参数模型相媲美的性能水平,计算成本降低近百倍。对于资源有限的中小企业而言,这意味着能用更低的算力投入训练出高性能的专业模型。在企业级应用测试中,该技术成功解决了"灾难性遗忘"难题,模型在吸收新业务知识的同时,完整保留了原有的对话理解和工具调用能力。

这项突破性成果的背后,是具备深厚技术积淀的研发团队。项目负责人Kevin Lu曾主导OpenAI多个核心项目,他将大模型训练的实战经验转化为小模型优化的创新路径。团队成员普遍拥有顶尖AI实验室的工作背景,他们认为在垂直场景加速落地的当下,专业化、轻量化的模型将主导商业应用。在线策略蒸馏技术通过降低训练门槛,为行业提供了高效开发专业模型的解决方案。

随着算力资源竞争加剧,AI开发模式正从"规模优先"转向"效率优先"。Thinking Machine的这项创新不仅重新定义了模型训练的经济性,更预示着高性价比专业模型时代的来临。该技术的完整论文已在团队正式公开,为全球研究者提供了可复现的技术路径。

来源:https://www.itbear.com.cn/html/2025-10/1001152.html
上一篇苹果第四财季财报周五揭晓:营收或首次突破千亿 下一篇2025年旗舰手机推荐:荣耀Magic8三大黑科技引领行业变革
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
西湖大学等机构联手破解AI图像生成翻译失真难题
科技数码 · 2026-05-30

西湖大学等机构联手破解AI图像生成翻译失真难题

西湖大学等机构研究发现,AI图像生成中策略网络后训练会导致解码器因无法适应改变的密码分布而降低图像质量,即“潜在协变量偏移”。提出RankE方法,通过交替训练策略网络和解码器,使两者协同进化,在LlamaGen-XL和Janus-Pro-1B上同时提升CLIP与FID指标,实现了文字对齐与图像质量的同步改善。

联想来酷战25Q首发24.5英寸2K 300Hz仅999元
科技数码 · 2026-05-30

联想来酷战25Q首发24.5英寸2K 300Hz仅999元

联想来酷斗战者战25Q电竞级显示器最新首发,24 5英寸2K分辨率,原生280Hz可超频至300Hz,1msGTG极速响应,支持VRR可变刷新率技术。色域覆盖99%sRGB与95%DCI-P3广色域,10bit色深显示,硬件低蓝光护眼设计。配备双HDMI2 1FRL与DP1 4接口,首发售价仅999元,性价比极高。

AI优化器过度自信致机器人与推理模型崩溃
科技数码 · 2026-05-30

AI优化器过度自信致机器人与推理模型崩溃

Muon优化器的均匀谱白化在机器人动作头训练和低信噪比强化学习中放大噪声,导致模型崩溃。研究提出Pion,通过高通滤波抑制噪声、保留主信号,在机器人模拟与真实抓取任务及数学推理训练中显著超越AdamW和Muon,成功率和步效率大幅提升。

vivo S60系列发布 4K原生Live帧帧丝滑
科技数码 · 2026-05-30

vivo S60系列发布 4K原生Live帧帧丝滑

vivo发布S60系列,标准版与元气版起售价3599元、2899元。系统重构Live体验,解决模糊抖动与色彩割裂。标准版搭载5000万像素云台防抖主摄及潜望长焦,支持星光Live、灵感趣贴、3D空间影像。设计采用星芒美学,配备第三代骁龙8s、144Hz护眼屏、7200mAh电池及IP69 IP68防护。

微软Lens以小博大策略重塑AI图像生成效率
科技数码 · 2026-05-30

微软Lens以小博大策略重塑AI图像生成效率

微软团队推出仅38亿参数的Lens模型,训练算力消耗仅为同类竞品的19 3%,在GenEval等基准测试中超越多数更大模型。其核心在于提升数据信息密度、选用语义VAE与强大语言编码器,结合强化学习后训练。加速版Lens-Turbo可实现4步生成图像,耗时0 84秒。