游乐游手机版
首页/科技数码/文章详情

Thinking+Machine发布在线策略蒸馏:小模型训练效率飙升,获OpenAI前CTO力荐

时间:2025-10-28 16:33
AI训练领域迎来一项革命性突破:Thinking Machine团队开发的在线策略蒸馏技术,使小规模模型在特定任务中的训练效率实现50至100倍提升。这项融合强化学习与监督学习优势的新方法,刚公布便

人工智能训练领域迎来重大突破——Thinking Machine团队开发的在线策略蒸馏技术,让小型模型在特定任务中的训练效率实现了50倍到100倍的飞跃。这项融合了强化学习与监督学习优势的新方法,一经发布便获得了前OpenAI首席技术官Mira Murati的关注与转发,迅速成为学界和产业界热议的焦点。

传统AI训练长期面临效率与灵活性的矛盾。强化学习通过试错机制赋予模型自主探索能力,但训练过程耗时漫长;监督微调虽能快速收敛,却容易导致模型陷入僵化。在线策略蒸馏技术创造性结合了两者优势,构建出"动态指导"训练框架——教师模型在训练过程中实时评估学生模型的输出,通过最小化两者策略分布的KL散度,实现知识的高效迁移。这种机制不仅解决了传统知识蒸馏"重结果轻过程"的缺陷,更有效抑制了模型过拟合现象。

数学推理任务的实测数据令人惊艳。研究团队采用该技术后,仅用原强化学习训练量的1/7到1/10,就让80亿参数模型达到与320亿参数模型相媲美的性能水平,计算成本降低近百倍。对于资源有限的中小企业而言,这意味着能用更低的算力投入训练出高性能的专业模型。在企业级应用测试中,该技术成功解决了"灾难性遗忘"难题,模型在吸收新业务知识的同时,完整保留了原有的对话理解和工具调用能力。

这项突破性成果的背后,是具备深厚技术积淀的研发团队。项目负责人Kevin Lu曾主导OpenAI多个核心项目,他将大模型训练的实战经验转化为小模型优化的创新路径。团队成员普遍拥有顶尖AI实验室的工作背景,他们认为在垂直场景加速落地的当下,专业化、轻量化的模型将主导商业应用。在线策略蒸馏技术通过降低训练门槛,为行业提供了高效开发专业模型的解决方案。

随着算力资源竞争加剧,AI开发模式正从"规模优先"转向"效率优先"。Thinking Machine的这项创新不仅重新定义了模型训练的经济性,更预示着高性价比专业模型时代的来临。该技术的完整论文已在团队正式公开,为全球研究者提供了可复现的技术路径。

来源:https://www.itbear.com.cn/html/2025-10/1001152.html
上一篇苹果第四财季财报周五揭晓:营收或首次突破千亿 下一篇2025年旗舰手机推荐:荣耀Magic8三大黑科技引领行业变革
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
LiblibAI云端WebUI降低AI绘画部署门槛
科技数码 · 2026-07-02

LiblibAI云端WebUI降低AI绘画部署门槛

LiblibAI在线WebUI的核心优势在于——只需通过浏览器即可流畅运行Stable Diffusion,无需自行搭建本地环境。云端直接处理运算,模型即选即试,大幅降低了AI绘画的创作门槛。对于轻量创作和模型快速测试来说,体验相当顺畅,但用户仍需重视数据隐私保护和版权合规等问题。 过去使用Stab

微软因用户不安叫停Edge浏览器AI历史搜索功能
科技数码 · 2026-07-02

微软因用户不安叫停Edge浏览器AI历史搜索功能

微软紧急暂停Edge浏览器AI历史搜索功能,该功能因被用户吐槽“令人不安”而暂缓部署。尽管微软强调所有AI处理在设备端完成且数据不上传云端,但用户仍不信任。此举与WindowsK2计划减少功能堆砌的理念一致。

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场
科技数码 · 2026-07-02

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场

【CNMO科技消息】近日,红魔游戏平板5 Pro正式发布。这款平板从定位上就明确瞄准“极致游戏”体验,外观方面带来了一个重磅亮点——首次引入RGB水冷散热系统,背部那条可视化的水路通道,配合纯平透明背板设计,核心配置信息一览无余,科技感十足。 图源网络 屏幕方面同样表现突出。一块9 06英寸OLED

杭州全国首所机器人学校首批30台机器人入学
科技数码 · 2026-07-02

杭州全国首所机器人学校首批30台机器人入学

30台机器人整齐列队,有的刚从生产线卸下,机械零件还带着崭新的“工业气息”;有的已搭载运动控制模块,能稳健地小跑、跳跃几下。它们来自不同制造工厂,外形与功能各有千秋,但此刻都拥有了同一个身份——杭州机器人学校的第一批入学新生。 6月30日,杭州经信正式发布:由浙江大学机器人研究院、浙江省质量科学研究

美国计划发射航天器托举天文卫星
科技数码 · 2026-07-02

美国计划发射航天器托举天文卫星

就在最近,NASA公布了一项非常果断的干预计划——他们定于6月30日实施一次“卫星维修任务”,派遣一台名为“连接”号的机器人服务卫星,为一颗超期服役的天文卫星延长运行寿命。这颗卫星是“尼尔·格雷尔斯·斯威夫特天文台”,其轨道高度正在不断衰减,如果不进行干预,今年年底前很可能会坠入地球大气层并烧毁。