首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
硅谷算力豪赌遭遇停电,中国团队反向突破Scaling Law困局

硅谷算力豪赌遭遇停电,中国团队反向突破Scaling Law困局

热心网友
13
转载
2026-02-11


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新智元报道

编辑:KingHZ Aeneas

【新智元导读】思考token在精不在多。Yuan 3.0 Flash用RAPO+RIRM双杀过度思考,推理token砍75%,网友们惊呼:这就是下一代AI模型的发展方向!

硅谷的算力战争,已经不是「拼GPU」,而是「抢电网」。

OpenAI万亿豪赌Scaling,瞄准10GW级超级集群。

在孟菲斯,马斯克竖起xAI的Colossus,55.5万张GPU与2GW电力轰鸣待命。

还不止地面。马斯克已经把目光看向太空:下一座「算力堡垒」,仿佛就在地球近地轨道的黑暗里发光。


奥特曼在赌,马斯克在赌,整个硅谷都在赌:堆起最高的「算力山」,就能先摸到AGI的门把手。

可就在这场万亿级狂飙里,Anthropic的一个更刺耳的结论浮出水面——

模型越大,算力越多,不一定越聪明。更可能的是:浪费更大、思维链更乱、幻觉更猛。




左右滑动查看

真正决定胜负的,可能不是更多GPU,而是能让模型在正确答案前及时刹车的算法。

而就在这个节点,Yuan 3.0 Flash悄然登场。

它出自YuanLab.ai团队之手——没有喧嚣的发布,没有张扬的宣告,却也吸引了全球开发者的注意。26年伊始,YuanLab.ai团队交出了它的阶段性的成果,向行业展示了自己的节奏。

可以说,Yuan 3.0 Flash不是又一个参数爆炸的巨兽,而是一场针对「想太多」的精准手术——以更高效的机制,实现更敏捷的思考。

40B总参数的MoE(Mixture-of-Experts)架构,仅激活约3.7B参数,却在多模态任务上展现出媲美甚至超越数百亿参数模型的表现。

更关键的是,它让模型学会「适可而止」,从训练阶段就教会它:什么时候该停手。


链接:https://arxiv.org/pdf/2601.01718

开源:https://github.com/Yuan-lab-LLM/Yuan3.0

因此,Yuan 3.0 Flash一经发布,就在全球开发者中引起了巨大轰动。

有人说,这是高效多模态AI迈出的一大步:一个400亿模型仅仅激活了37亿参数,这就是下一代AI模型的发展方向!


没想到,开源模型竟然能有这种级别的控制力,这种AI,是真的可以应用于生产环境的。


打破业内魔咒

想太多,就更好吗?

推理模型的兴盛,引发了全行业对「长思维链」的追逐。

然而,企业AI落地时,却存在着这样一个「TOKEN成本悖论」——

想要高智能,就必须承担成倍增长的Token消耗和推理延迟;

想要控制成本,往往只能牺牲模型能力。

要知道,对企业而言,每一个无效消耗的Token,都是真金白银的流失!

真正的成本黑洞,不在「求解」,而在「答对之后」:很多推理模型一旦摸到正确答案,就开始反复确认、来回推翻、没有新证据也要继续「再想想」。

事实上,在数学与科学任务中,超过70%的token消耗发生在正确答案之后,却仍在进行无效反复验证的阶段。

举个例子,你问了AI一个数学题,它会先给出正确解,然后又开始「但是……或许……再检查一遍」,最终输出比答案本身长三倍的文字。


答案早已浮现,却被淹没在无休止的自我对话中。

这不是「幻觉」,是当下大模型的普遍顽疾:过度反思(overthinking)。

为了解决这一矛盾,Yuan 3.0 Flash正式登场了!团队的目标是——「用更少算力,实现更高的智能」。

四两拨千斤

更少算力,但更高智能

Yuan 3.0 Flash,在MoE架构的基础上,实现了RIRM(反思抑制奖励机制)和RAPO(反思感知自适应策略优化)两项算法创新,这样就从根本上修正了模型的「过度思考」。

由此,模型实现了以下突破:

· 精准定位:准确识别首次得出正确答案的关键节点

· 抑制冗余:有效抑制后续冗余推理行为

· 双重提升:在提升精度的同时,将推理token数量降低约75%

首先,来看它在架构上的优雅革命。

传统稠密模型像一支全员出动的军队,每一次推理都调动所有神经元。

Yuan 3.0 Flash则更像一支特种部队:MoE机制只唤醒最合适的「专家」应对当前任务。

视觉编码器处理高分辨率图像,通过自适应分割机制将图片拆分成高效token,避免显存爆炸;语言主干网络采用Local Filtered Attention(LFA),进一步降低计算开销。


结果很出彩——

上下文长度轻松达到128K,在「needle-in-a-haystack」(大海捞针)测试中实现100%准确召回。


就是说,它能从海量文档中精准定位关键信息,而不会因为长度而迷失。

想象一下,你的企业需要分析一份数百页的财务报告,夹杂着复杂嵌套表格和图表。

过去,模型或许卡顿、幻觉频出,或者token消耗到天价。

而Yuan 3.0 Flash像一位专注的审计师,多模态输入(文本+图像+表格+文档)无缝融合:

RAG(检索增强生成)准确率达64.47%,

Docmatix多模态检索65.10%,

MMTab表格理解58.30%,

SummEval摘要生成59.30%。


在企业场景,Yuan 3.0 Flash远超GPT-5.1的46.10%,直接瞄准了LLM的痛点。

RIRM:拒绝无效内耗

真正让Yuan 3.0 Flash脱颖而出的,就是对「过度反思」的致命一击。

在MATH-500和AIME等数学基准上,传统推理模型的token分布像一座冰山:


浅色部分是问题求解,深色巨大区域是后答案反思

比如,在MATH-500上,「后答案反思」占比高达71.6%,整体token在3362上居高不下。

为了显著降低这一无效反思的占比,团队提出了一种创新机制——反思抑制奖励机制(RIRM)。

RIRM的原理简单却深刻:在强化学习中,它识别模型首次输出正确答案的「节点」,然后对后续缺乏新证据的重复验证、自我推翻施以负奖励。

模型不再被鼓励「想得越久越好」,而是学会辨别「足够好」的边界。


RIRM工作流程示意

从首次正确答案识别到反思阶段奖励抑制的完整链路

也就是说,在强化学习中,RIRM首次教导了模型识别「何时思考已足够」。它会奖励模型在首次得出正确答案后停止无效反思,而非鼓励无止境的推演。

为此,团队引入了三个维度的奖励:首次正确答案、最终正确性,以及反思步骤数量是否落在合理区间内。

果然,Yuan 3.0Flash引入RIRM后,上面这座冰山被腰斩:反思阶段token占比骤降至28.4%,总token压缩至1777左右,减少约47%,而准确率不降反升(MATH-500从83.20%提升至89.47%)。

这就说明被压缩的并不是有效推理,而是答案已经确定之后的反复自检、复述与格式化解释等低价值token。


不仅如此,该模型在数学、科学等领域也表现出强大的推理能力,直接把无效反思的Token消耗最高削减至75%,即可达到前沿模型的精度水平!

这样,就能让算力聚焦于真正有价值的推理步骤。可以说,RIRM的作用并非「压长度」,而是让模型学会在正确节点停止思考。


RIRM训练前后Token消耗对比

反思阶段(深色部分)显著缩减,而首次解题阶段基本保持不变

RAPO:高效训练引擎

然而,仅靠对推理行为的抑制,并不足以支撑一个稳定、高效的企业级模型训练。

由此,团队引入了RAPO(反思感知自适应策略优化),这并非一次局部技巧的优化,而是对强化学习训练框架的一次系统性改进。

它兼顾了训练效率、训练稳定性及推理效率,使模型能在多任务、异构场景中形成更具实用价值的策略。

具体来说,它从训练框架层面实现保驾护航:

自适应动态采样(Adaptive Dynamic Sampling,ADS):动态过滤掉低信息量的重复样本,训练效率提升52.91%

80/20高熵token更新规则:只更新不确定性最高的前20%的token梯度,聚焦真正需要优化的部分

优化双剪裁:同时对策略梯度和值函数梯度进行双重裁剪,防止MoE架构常见的梯度爆炸

多任务交替训练+KL散度正则,让大型MoE模型也能稳定收敛

让整个RL过程效率提升52.91%,即使在大型MoE模型上也保持稳定。


这不是强制缩短输出,而是重塑模型对「好推理」的认知: 从「长度即真理」,转向「时机即智慧」。

更重要的是,RAPO与RIRM是协同设计的。

RAPO决定模型「如何学习」,而 RIRM明确模型「学到什么程度该停」。

当然,任何创新都有其张力。

RIRM在抑制冗余的同时,可能在极度不确定、需要多轮探索的任务中略微限制有益反思——这需要在实际部署中持续观察与平衡。

AI下半场,YuanLab.ai团队这样想

Yuan 3.0 Flash指向一个清晰的结论:当模型具备基础推理能力后,其进化的关键已非「延长思考」,而在于 「优化思考的质量与效率」。

它不仅为企业提供一种「更少算力、更高智能」的选择,更重要的是对「长思维链」竞赛的理性补充。

背后团队YuanLab.ai深深理解深度推理的价值,但也知道隐藏的算力浪费风险。

因此,Yuan 3.0 Flash提供了追求「有效思考」的平衡方案,推动行业关注智能的实用性与经济性。


Yuan 3.0 Flash被网友盛赞:这不是一个demo, 而是一个真正为生产构建的模型!

当模型能够在获得正确答案时主动停止推理,本质上意味着它开始进行一种隐式的成本—收益分析。从此,token成为推理过程中可被模型内部感知和调节的计算资源。

这就标志着推理目标的一次转变:从单纯模仿人类冗长、外显的思维过程,转向更适合机器的、以最小token预算达成正确性的效用导向智能形态。

为什么这种更高效的智能,是出自YuanLab.ai团队之手?

实际上,这个成果可以看作YuanLab.ai团队在此领域多年经验的厚积薄发。作为在行业内深耕多年的大模型探索者,团队的发展足迹本身已成为中国大模型演进历程中一个真实而生动的缩影。

2024年,当业界对大模型的认知尚处朦胧时,YuanLab.ai团队便已勇闯无人区,发布了2457亿参数的源1.0大模型,这是对GPT-3架构的成功验证。

发布之际,团队开源了平台、代码以及珍贵的中文数据集,滋养了国内早期大模型成长土壤。

随着ChatGPT的横空出世,YuanLab.ai团队立足自身技术积累与市场需求,于同期成功推出自主研发的「源2.0」大模型。

2024年5月,团队发布了采用创新MoE架构的源2.0-M32,以仅2.25万亿Tokens的训练量,实现了出色的性能。


站在「源2.0-M32」的肩膀上,YuanLab.ai团队已向着下一个里程碑进发——「源3.0」 ,剑指多模态、更少算力、更高智能的AGI路径。在此过程中,也有了团队近期交出的阶段性成果——Yuan 3.0 Flash。

AI下半场,走向哪里

回望过去,我们或许会发现,AI的下半场真的来了。

上半场,大家追求的是「大」:更大的参数、更多的显卡、更高的智能。那是AI的青春期,迅速成长。

下半场,我们开始追求「准」:更精炼的逻辑、更克制的表达、更高效的决策。这是AI成年礼的开始。

当我们不再迷信「越大越强」,而转向「更精炼、更适配」,AI才真正从实验室走向生产,从昂贵的玩具变成可持续的工具。

此时,我们触及了本质:AI智能的边界,正在从「深度」转向「时机」。

真正的聪明,往往不是想得最多,而是知道何时果断收手。

人类智慧最珍贵的部分,从来不是喋喋不休的长篇大论,而是由于洞察本质而带来的适时沉默。

所以,当你下一次面对AI冗长输出时,不妨问自己:它是在推理,还是在演推理?

在AGI星辰大海里,我们或许不再需要追逐参数巨兽,而是学会点亮一盏更精准、更节制的灯塔。

大厂需要学会的,是参与一场「适可而止」的革命。

参考资料:

https://arxiv.org/pdf/2601.01718

https://github.com/Yuan-lab-LLM/Yuan3.0


来源:https://www.163.com/dy/article/KLGQ8UBS0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

OpenClaw人人养虾:接入Discord
AI
OpenClaw人人养虾:接入Discord

Discord接入:让OpenClaw成为你的社区智能管家 对于全球数亿的游戏玩家和社群爱好者来说,Discord几乎等同于线上“大本营”。那么,有没有可能让你精心搭建的Discord服务器也拥有一个聪明能干的AI助手呢?答案是完全可行。通过创建Discord Bot(机器人),你可以将OpenCl

热心网友
04.15
Claude强到不敢发的Mythos,被质疑用了字节Seed技术
AI
Claude强到不敢发的Mythos,被质疑用了字节Seed技术

Claude最强“神话”模型,可能用到来自字节的技术? 这条猜测直接冲上了热搜榜。 这款被形容为“强到不敢公开发布”的Mythos模型,确实极大地刺激了人们对下一代大语言模型架构的想象空间。 社区讨论的焦点,正集中在它是否采用了“循环语言模型”(Looped Language Model)这一创新架

热心网友
04.14
DeepSeek上线专家模式:国产AI激战正酣,V4能否复刻去年春节炸场?
科技数码
DeepSeek上线专家模式:国产AI激战正酣,V4能否复刻去年春节炸场?

国产大模型DeepSeek迎来重大更新:快速模式与专家模式上线 最新消息显示,国产AI大模型DeepSeek再次迎来重要升级。4月8日,用户在访问DeepSeek时发现,输入框上方新增了“快速模式”与“专家模式”两个选项。根据官方说明,快速模式专注于日常对话场景,响应速度快,同时支持图片和文件中的文

热心网友
04.14
OpenClaw人人养虾:接入飞书
AI
OpenClaw人人养虾:接入飞书

飞书接入指南:为你的团队嵌入一位AI同事 如果你身处国内互联网或科技行业,对飞书这款高效协作平台一定非常熟悉。如今,它已不仅是团队沟通工具,更成为众多企业的数字化工作中枢。那么,能否让团队成员在飞书内部,直接调用强大的AI智能助手来提升效率呢?答案是肯定的。本指南将手把手教你,如何将OpenClaw

热心网友
04.14
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26
AI
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步,却忘了最终的目的地。针对这一痛点,厦门大学和香港科技大

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

《Avatar》泄露事件中Toph Beifong的配音演员回应
游戏攻略
《Avatar》泄露事件中Toph Beifong的配音演员回应

《降世神通》电影泄露,Toph配音演员Jessie Flower呼吁粉丝抵制!了解完整回应与争议,揭秘派拉蒙流媒体策略内幕。 《降世神通:最后的气宗》的粉丝们,最近可能被一则消息搅得心神不宁。为北方拓芙配音的原版演员,近日向所有热爱这个系列的观众发出了一个明确的呼吁:请抵制那些流出的电影片段。 事情

热心网友
04.24
《Ashes of Creation》总监做出回应
游戏攻略
《Ashes of Creation》总监做出回应

《Ashes of Creation》总监Steven Sharif回应财务指控,揭露董事会夺权阴谋,提供45项证据反击。游戏史上最疯狂故事,真相在此揭晓! 最近,《Ashes of Creation》及其背后的工作室Intrepid Studios被卷入了一场前所未有的舆论风暴。工作室总监Stev

热心网友
04.24
代号巫师之路好玩吗代号巫师之路核心玩法与新手入门指南
游戏攻略
代号巫师之路好玩吗代号巫师之路核心玩法与新手入门指南

许多玩家都在寻找一款不依赖充值、真正依靠战术思考与操作技巧获得满足感的手游 今天要聊的这款作品,正好切中了这个需求。它以“策略深度”和“成长自由度”为核心,是一款暗黑风的Roguelike动作ARPG——《代号:巫师之路》。 游戏开服就开放了基础职业体系,随着进程推进,三大进阶流派会逐步解锁:死灵巫

热心网友
04.24
代号巫师之路上线时间确定了吗代号巫师之路公测时间最新汇总
游戏攻略
代号巫师之路上线时间确定了吗代号巫师之路公测时间最新汇总

《代号:巫师之路》:当暗黑刷宝遇上策略塔防,一次高自由度的深渊冒险 如果你正在寻找一款能在手机上体验暗黑美学与策略深度的游戏,那么《代号:巫师之路》值得进入你的视野。这款作品将刷宝游戏的沉浸感与塔防机制的运筹帷幄相结合,为玩家构建了一个需要不断思考与调整的深渊世界。目前,游戏尚未公布确切的公测日期,

热心网友
04.24
地牢猎手6手游上线时间地牢猎手6开服日期及公测时间汇总
游戏攻略
地牢猎手6手游上线时间地牢猎手6开服日期及公测时间汇总

《地牢猎手6》:经典IP的全面进化,2026年硬核之旅启程 备受期待的《地牢猎手6》,终于带着系列标志性的硬核战斗与深度地牢探索回来了。目前官方已敲定,游戏将在2026年4月28日迎来首次测试。至于正式上线时间?虽然还没最终官宣,但可以确定的是,全面公测计划就在2026年内。想要第一时间体验的玩家,

热心网友
04.24