首页 游戏 软件 资讯 排行榜 专题
首页
AI
英伟达省钱技巧:5倍加速大模型推理,短而精

英伟达省钱技巧:5倍加速大模型推理,短而精

热心网友
29
转载
2025-11-04

如何让AI模型在保持高质量输出的同时,还能做到简明扼要?英伟达研究院的最新研究给出了突破性答案:关键在于选择合适的强化学习优化方法,而非单纯依赖复杂冗长的惩罚机制。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

大型推理模型是否需要采取“长篇大论”式的思考模式?回顾过去一年,OpenAI o系列、DeepSeek-R1、Qwen等顶尖推理模型,将“长链思维”发挥到了极致:答案准确度确实提升了,但代价是推理链越来越长、Token消耗量激增、响应速度明显下滑。

如果扩展长链思维确实是通向AGI的必经之路,那么当前思维链存在的冗长问题就是我们亟需解决的核心挑战。

那么,能否让模型在保证准确性的前提下,学会更简洁的表达方式?

此前的多次尝试大多未能成功:各种复杂长度惩罚机制要么导致模型输出混乱,要么造成训练过程不稳定,最终结果往往是效率提升了,准确率却大幅下降。

如今,英伟达研究院通过创新性研究找到了解决方案:成功的关键在于采用恰当的强化学习优化策略,而不是设计复杂的惩罚函数。

DLER来了!推理模型的“减重秘籍”

DLER首先系统性地分析了引入长度惩罚后出现的新型强化学习训练难题,具体包括:奖励信号方差显著增大、“顿悟时刻”措辞不当导致的熵塌缩、训练信号过度稀疏(初始训练时大部分生成都超出了预设长度)。

针对这些实际问题,DLER提出了一套简洁而强大的强化学习训练配置方案:优势归一化配合局部均值和批次标准差:替代GRPO,稳定训练信号,避免因截断惩罚带来的高方差问题。更高的奖励截断值:提升高熵探索,防止模型陷入“思维僵化”的困境。动态采样机制:过滤无效样本,聚焦真正有价值的推理路径。截断惩罚策略:采用最简单的“截断惩罚”原则,对超出预设长度的输出不给予任何奖励。

基于DLER这套创新训练方法,得到的模型表现令人惊喜。新模型产生的推理长度竟然能够减少70%以上,同时准确率完全没有损失。在AIME-24数学基准测试中,DLER-Qwen-R1-7B平均仅用3230个Tokens就达到了55.6%的准确率,而DeepSeek-R1-7B需要花费13241个Tokens才能实现55.4%的准确度。

DLER不仅实现了更简短的输出,更是从本质上提升了每个token的信息密度。在相同的推理时间内,相较于传统推理模型只能生成一条冗长的推理链,DLER模型能够并行生成数十条精炼的推理路径,最终准确率比DeepSeek-R1高出近50%。这一实验结果也意味着高效推理才是测试时扩展的关键所在。

关键发现

DLER的研究揭示了几个颠覆性的结论:推理效率的提升,不取决于惩罚机制设计的复杂程度,而在于优化算法的选择。过去大家普遍认为强化学习的长度惩罚“必然导致准确率下降”,其实只是因为优化方法选择不当。简单的截断惩罚配合正确的优化器,就能让模型掌握“短而精”的思维方式。

更令人惊喜的是,DLER不仅适用于小型模型,在大型模型上同样效果显著。研究团队还提出了权重选择性合并技术,解决了大模型使用公开数据微调时的性能下降问题:既能完全恢复准确率,又能保持近一半的长度压缩效果。

总结

这项来自英伟达的创新研究,让我们重新认识了推理模型的未来发展方向。首先,推理模型不能只是一味地拉长推理链条,而是需要更智能、更高效地思考。其次,通过DLER,模型能够以更少的Tokens、更短的时间,做到更高的准确率。如果说之前的研究ProRL让模型“开窍”,那么DLER就是帮模型“瘦身健身”,让它们更快、更强、更实用。未来在实际部署中,DLER无疑会成为让推理模型真正落地的关键技术之一。

来源:https://www.51cto.com/article/828828.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

英伟达DLSS 4.5六倍帧生成3月31日上线,RTX 50系专属
科技数码
英伟达DLSS 4.5六倍帧生成3月31日上线,RTX 50系专属

英伟达DLSS 4 5正式发布:详解六倍帧生成技术如何实现高刷高画质兼得 2025年3月11日,英伟达正式揭晓了其下一代图像增强技术的核心细节。DLSS 4 5版本中的革命性功能——六倍多帧生成技术,定于3月31日随全新的NVIDIA App Beta版本向用户开放。该技术主要适配于全新的GeFor

热心网友
04.02
AI泡沫警告?比特币(BTC)与英伟达高度相关引发暴跌80%的
web3.0
AI泡沫警告?比特币(BTC)与英伟达高度相关引发暴跌80%的

AI泡沫?比特币(BTC)与英伟达高度相关引发暴跌80%的警告 眼下的市场,似乎正在上演一场华丽的“循环游戏”。英伟达、OpenAI和AMD之间你中有我的相互投资,其模式特征越来越像当年的互联网泡沫。而这场盛宴一旦散场,冲击波很可能直接扫到加密货币市场。 要点介绍: BTC与英伟达股价的关联性已骤然

热心网友
04.02
NVIDIA下代Rubin Ultra大调整!规格直接腰斩:放弃四芯封装转向双芯
科技数码
NVIDIA下代Rubin Ultra大调整!规格直接腰斩:放弃四芯封装转向双芯

NVIDIA下一代数据中心GPU Rubin Ultra确认重大设计调整:为何转向双芯片方案? 据最新产业消息,NVIDIA数据中心GPU的下一代旗舰产品Rubin Ultra,在关键设计上已完成路线图调整。其最大变化在于:产品放弃了此前规划的四颗GPU芯片(四芯片封装)方案,转而采用更为成熟可靠的

热心网友
04.02
黄仁勋:H200获得中国订单 供应链重启生产
科技数码
黄仁勋:H200获得中国订单 供应链重启生产

英伟达H200正式恢复对华供货:黄仁勋确认订单,供应链全面激活 在今年的GTC全球开发者大会上,英伟达CEO黄仁勋对外发布了一项关键进展:公司已正式接获来自中国客户的H200 AI芯片采购订单,与之配套的生产线已经重启,供应链体系也随之全面恢复运作。这标志着持续数月的对华高端AI芯片销售僵局,迎来了

热心网友
04.02
RTX 60系显卡曝光!光追大升级 性能迎重大飞跃
科技数码
RTX 60系显卡曝光!光追大升级 性能迎重大飞跃

NVIDIA下一代GeForce RTX 60系列前瞻:Rubin架构引领光追性能革命 近期科技界热议不断,关于NVIDIA下一代GPU架构的传言持续发酵。代号“Rubin”的全新显卡系列,其性能突破的重心将全面聚焦于光线追踪技术领域。这标志着光追已从一项可选特效,演变为决定未来GPU架构设计方向的

热心网友
04.01

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

生存33天新手阵容推荐生存33天高性价比入门搭配指南
游戏攻略
生存33天新手阵容推荐生存33天高性价比入门搭配指南

末日生存手游推荐:前往九游开启你的废土冒险之旅 近年来,末日生存题材手游以其独特的沉浸感与生存挑战,持续吸引着大量玩家。在废墟世界中探索资源、应对危机、重建秩序的核心玩法,带来了紧张而富有成就感的游戏体验。如果你正在寻找一款高品质的末日生存手游,九游平台无疑是理想的起点。这里汇集了多款深受好评的末日

热心网友
04.06
纪念碑谷3第二关通关攻略纪念碑谷3第二关详细步骤与解谜技巧
游戏攻略
纪念碑谷3第二关通关攻略纪念碑谷3第二关详细步骤与解谜技巧

《纪念碑谷3》第二关“小镇”超详细图文攻略 《纪念碑谷》系列凭借其独特的视觉艺术与空间谜题设计广受赞誉。最新发布的《纪念碑谷3》在第二章节“小镇”中,将这一美学风格与机关逻辑提升到了新的层次。本章节不仅延续了标志性的极简主义美学,其空间层次感与交互严谨性也更具挑战性。本攻略将为你完整解析《纪念碑谷3

热心网友
04.06
生存33天沙漠之王精通沙漠之王的33天极限生存打法与实战技巧
游戏攻略
生存33天沙漠之王精通沙漠之王的33天极限生存打法与实战技巧

《生存33天》:“沙漠之王”高效通关攻略 在热门生存手游《生存33天》中,玩家面临的挑战远不止于无尽的丧尸潮。游戏深度结合了生存资源管理与高难度首领战策略,其中“沙漠之王”堪称游戏中期最具考验的BOSS。它不仅是实力分水岭,击败后更能获得稀有材料、限定头衔及海量经验金币,大幅推动队伍成长。本文将深入

热心网友
04.06
生存33天四只手Boss通关攻略生存33天高难度四手怪打法详解
游戏攻略
生存33天四只手Boss通关攻略生存33天高难度四手怪打法详解

《生存33天》“四只手”首领完全通关攻略 你是否在“四只手”首领关卡止步不前?不必焦虑,这个Boss在《生存33天》中素有“新秀杀手”之称。初次遭遇时,其独特的机制与高额伤害往往让玩家措手不及,不少冒险者在此耗费了数日时光。然而,只要掌握了它的核心规律,你就会发现这个敌人不过是外强中干。以下这份详尽

热心网友
04.06
剑与远征启程赫普角色介绍剑与远征启程赫普强度分析与技能解析
游戏攻略
剑与远征启程赫普角色介绍剑与远征启程赫普强度分析与技能解析

《剑与远征:启程》前排坦克英雄赫普深度解析:双形态切换机制与实战搭配指南 在《剑与远征:启程》这款策略放置手游中,组建一支攻守兼备的队伍至关重要,而前排坦克英雄的选择往往是决定胜败的关键。今天,我们将聚焦于蛮血部族的一位特色英雄——赫普。作为一名超稀有品质的坦克,赫普不仅具备坚实的防御力,更凭借独特

热心网友
04.06