首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
硅谷算力豪赌遭遇停电,中国团队反向突破Scaling Law困局

硅谷算力豪赌遭遇停电,中国团队反向突破Scaling Law困局

热心网友
32
转载
2026-02-11


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新智元报道

编辑:KingHZ Aeneas

【新智元导读】思考token在精不在多。Yuan 3.0 Flash用RAPO+RIRM双杀过度思考,推理token砍75%,网友们惊呼:这就是下一代AI模型的发展方向!

硅谷的算力战争,已经不是「拼GPU」,而是「抢电网」。

OpenAI万亿豪赌Scaling,瞄准10GW级超级集群。

在孟菲斯,马斯克竖起xAI的Colossus,55.5万张GPU与2GW电力轰鸣待命。

还不止地面。马斯克已经把目光看向太空:下一座「算力堡垒」,仿佛就在地球近地轨道的黑暗里发光。


奥特曼在赌,马斯克在赌,整个硅谷都在赌:堆起最高的「算力山」,就能先摸到AGI的门把手。

可就在这场万亿级狂飙里,Anthropic的一个更刺耳的结论浮出水面——

模型越大,算力越多,不一定越聪明。更可能的是:浪费更大、思维链更乱、幻觉更猛。




左右滑动查看

真正决定胜负的,可能不是更多GPU,而是能让模型在正确答案前及时刹车的算法。

而就在这个节点,Yuan 3.0 Flash悄然登场。

它出自YuanLab.ai团队之手——没有喧嚣的发布,没有张扬的宣告,却也吸引了全球开发者的注意。26年伊始,YuanLab.ai团队交出了它的阶段性的成果,向行业展示了自己的节奏。

可以说,Yuan 3.0 Flash不是又一个参数爆炸的巨兽,而是一场针对「想太多」的精准手术——以更高效的机制,实现更敏捷的思考。

40B总参数的MoE(Mixture-of-Experts)架构,仅激活约3.7B参数,却在多模态任务上展现出媲美甚至超越数百亿参数模型的表现。

更关键的是,它让模型学会「适可而止」,从训练阶段就教会它:什么时候该停手。


链接:https://arxiv.org/pdf/2601.01718

开源:https://github.com/Yuan-lab-LLM/Yuan3.0

因此,Yuan 3.0 Flash一经发布,就在全球开发者中引起了巨大轰动。

有人说,这是高效多模态AI迈出的一大步:一个400亿模型仅仅激活了37亿参数,这就是下一代AI模型的发展方向!


没想到,开源模型竟然能有这种级别的控制力,这种AI,是真的可以应用于生产环境的。


打破业内魔咒

想太多,就更好吗?

推理模型的兴盛,引发了全行业对「长思维链」的追逐。

然而,企业AI落地时,却存在着这样一个「TOKEN成本悖论」——

想要高智能,就必须承担成倍增长的Token消耗和推理延迟;

想要控制成本,往往只能牺牲模型能力。

要知道,对企业而言,每一个无效消耗的Token,都是真金白银的流失!

真正的成本黑洞,不在「求解」,而在「答对之后」:很多推理模型一旦摸到正确答案,就开始反复确认、来回推翻、没有新证据也要继续「再想想」。

事实上,在数学与科学任务中,超过70%的token消耗发生在正确答案之后,却仍在进行无效反复验证的阶段。

举个例子,你问了AI一个数学题,它会先给出正确解,然后又开始「但是……或许……再检查一遍」,最终输出比答案本身长三倍的文字。


答案早已浮现,却被淹没在无休止的自我对话中。

这不是「幻觉」,是当下大模型的普遍顽疾:过度反思(overthinking)。

为了解决这一矛盾,Yuan 3.0 Flash正式登场了!团队的目标是——「用更少算力,实现更高的智能」。

四两拨千斤

更少算力,但更高智能

Yuan 3.0 Flash,在MoE架构的基础上,实现了RIRM(反思抑制奖励机制)和RAPO(反思感知自适应策略优化)两项算法创新,这样就从根本上修正了模型的「过度思考」。

由此,模型实现了以下突破:

· 精准定位:准确识别首次得出正确答案的关键节点

· 抑制冗余:有效抑制后续冗余推理行为

· 双重提升:在提升精度的同时,将推理token数量降低约75%

首先,来看它在架构上的优雅革命。

传统稠密模型像一支全员出动的军队,每一次推理都调动所有神经元。

Yuan 3.0 Flash则更像一支特种部队:MoE机制只唤醒最合适的「专家」应对当前任务。

视觉编码器处理高分辨率图像,通过自适应分割机制将图片拆分成高效token,避免显存爆炸;语言主干网络采用Local Filtered Attention(LFA),进一步降低计算开销。


结果很出彩——

上下文长度轻松达到128K,在「needle-in-a-haystack」(大海捞针)测试中实现100%准确召回。


就是说,它能从海量文档中精准定位关键信息,而不会因为长度而迷失。

想象一下,你的企业需要分析一份数百页的财务报告,夹杂着复杂嵌套表格和图表。

过去,模型或许卡顿、幻觉频出,或者token消耗到天价。

而Yuan 3.0 Flash像一位专注的审计师,多模态输入(文本+图像+表格+文档)无缝融合:

RAG(检索增强生成)准确率达64.47%,

Docmatix多模态检索65.10%,

MMTab表格理解58.30%,

SummEval摘要生成59.30%。


在企业场景,Yuan 3.0 Flash远超GPT-5.1的46.10%,直接瞄准了LLM的痛点。

RIRM:拒绝无效内耗

真正让Yuan 3.0 Flash脱颖而出的,就是对「过度反思」的致命一击。

在MATH-500和AIME等数学基准上,传统推理模型的token分布像一座冰山:


浅色部分是问题求解,深色巨大区域是后答案反思

比如,在MATH-500上,「后答案反思」占比高达71.6%,整体token在3362上居高不下。

为了显著降低这一无效反思的占比,团队提出了一种创新机制——反思抑制奖励机制(RIRM)。

RIRM的原理简单却深刻:在强化学习中,它识别模型首次输出正确答案的「节点」,然后对后续缺乏新证据的重复验证、自我推翻施以负奖励。

模型不再被鼓励「想得越久越好」,而是学会辨别「足够好」的边界。


RIRM工作流程示意

从首次正确答案识别到反思阶段奖励抑制的完整链路

也就是说,在强化学习中,RIRM首次教导了模型识别「何时思考已足够」。它会奖励模型在首次得出正确答案后停止无效反思,而非鼓励无止境的推演。

为此,团队引入了三个维度的奖励:首次正确答案、最终正确性,以及反思步骤数量是否落在合理区间内。

果然,Yuan 3.0Flash引入RIRM后,上面这座冰山被腰斩:反思阶段token占比骤降至28.4%,总token压缩至1777左右,减少约47%,而准确率不降反升(MATH-500从83.20%提升至89.47%)。

这就说明被压缩的并不是有效推理,而是答案已经确定之后的反复自检、复述与格式化解释等低价值token。


不仅如此,该模型在数学、科学等领域也表现出强大的推理能力,直接把无效反思的Token消耗最高削减至75%,即可达到前沿模型的精度水平!

这样,就能让算力聚焦于真正有价值的推理步骤。可以说,RIRM的作用并非「压长度」,而是让模型学会在正确节点停止思考。


RIRM训练前后Token消耗对比

反思阶段(深色部分)显著缩减,而首次解题阶段基本保持不变

RAPO:高效训练引擎

然而,仅靠对推理行为的抑制,并不足以支撑一个稳定、高效的企业级模型训练。

由此,团队引入了RAPO(反思感知自适应策略优化),这并非一次局部技巧的优化,而是对强化学习训练框架的一次系统性改进。

它兼顾了训练效率、训练稳定性及推理效率,使模型能在多任务、异构场景中形成更具实用价值的策略。

具体来说,它从训练框架层面实现保驾护航:

自适应动态采样(Adaptive Dynamic Sampling,ADS):动态过滤掉低信息量的重复样本,训练效率提升52.91%

80/20高熵token更新规则:只更新不确定性最高的前20%的token梯度,聚焦真正需要优化的部分

优化双剪裁:同时对策略梯度和值函数梯度进行双重裁剪,防止MoE架构常见的梯度爆炸

多任务交替训练+KL散度正则,让大型MoE模型也能稳定收敛

让整个RL过程效率提升52.91%,即使在大型MoE模型上也保持稳定。


这不是强制缩短输出,而是重塑模型对「好推理」的认知: 从「长度即真理」,转向「时机即智慧」。

更重要的是,RAPO与RIRM是协同设计的。

RAPO决定模型「如何学习」,而 RIRM明确模型「学到什么程度该停」。

当然,任何创新都有其张力。

RIRM在抑制冗余的同时,可能在极度不确定、需要多轮探索的任务中略微限制有益反思——这需要在实际部署中持续观察与平衡。

AI下半场,YuanLab.ai团队这样想

Yuan 3.0 Flash指向一个清晰的结论:当模型具备基础推理能力后,其进化的关键已非「延长思考」,而在于 「优化思考的质量与效率」。

它不仅为企业提供一种「更少算力、更高智能」的选择,更重要的是对「长思维链」竞赛的理性补充。

背后团队YuanLab.ai深深理解深度推理的价值,但也知道隐藏的算力浪费风险。

因此,Yuan 3.0 Flash提供了追求「有效思考」的平衡方案,推动行业关注智能的实用性与经济性。


Yuan 3.0 Flash被网友盛赞:这不是一个demo, 而是一个真正为生产构建的模型!

当模型能够在获得正确答案时主动停止推理,本质上意味着它开始进行一种隐式的成本—收益分析。从此,token成为推理过程中可被模型内部感知和调节的计算资源。

这就标志着推理目标的一次转变:从单纯模仿人类冗长、外显的思维过程,转向更适合机器的、以最小token预算达成正确性的效用导向智能形态。

为什么这种更高效的智能,是出自YuanLab.ai团队之手?

实际上,这个成果可以看作YuanLab.ai团队在此领域多年经验的厚积薄发。作为在行业内深耕多年的大模型探索者,团队的发展足迹本身已成为中国大模型演进历程中一个真实而生动的缩影。

2024年,当业界对大模型的认知尚处朦胧时,YuanLab.ai团队便已勇闯无人区,发布了2457亿参数的源1.0大模型,这是对GPT-3架构的成功验证。

发布之际,团队开源了平台、代码以及珍贵的中文数据集,滋养了国内早期大模型成长土壤。

随着ChatGPT的横空出世,YuanLab.ai团队立足自身技术积累与市场需求,于同期成功推出自主研发的「源2.0」大模型。

2024年5月,团队发布了采用创新MoE架构的源2.0-M32,以仅2.25万亿Tokens的训练量,实现了出色的性能。


站在「源2.0-M32」的肩膀上,YuanLab.ai团队已向着下一个里程碑进发——「源3.0」 ,剑指多模态、更少算力、更高智能的AGI路径。在此过程中,也有了团队近期交出的阶段性成果——Yuan 3.0 Flash。

AI下半场,走向哪里

回望过去,我们或许会发现,AI的下半场真的来了。

上半场,大家追求的是「大」:更大的参数、更多的显卡、更高的智能。那是AI的青春期,迅速成长。

下半场,我们开始追求「准」:更精炼的逻辑、更克制的表达、更高效的决策。这是AI成年礼的开始。

当我们不再迷信「越大越强」,而转向「更精炼、更适配」,AI才真正从实验室走向生产,从昂贵的玩具变成可持续的工具。

此时,我们触及了本质:AI智能的边界,正在从「深度」转向「时机」。

真正的聪明,往往不是想得最多,而是知道何时果断收手。

人类智慧最珍贵的部分,从来不是喋喋不休的长篇大论,而是由于洞察本质而带来的适时沉默。

所以,当你下一次面对AI冗长输出时,不妨问自己:它是在推理,还是在演推理?

在AGI星辰大海里,我们或许不再需要追逐参数巨兽,而是学会点亮一盏更精准、更节制的灯塔。

大厂需要学会的,是参与一场「适可而止」的革命。

参考资料:

https://arxiv.org/pdf/2601.01718

https://github.com/Yuan-lab-LLM/Yuan3.0


来源:https://www.163.com/dy/article/KLGQ8UBS0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

华为AI深度布局:如何引领科技变革新格局
AI
华为AI深度布局:如何引领科技变革新格局

新智元报道编辑:艾伦【新智元导读】华为诺亚方舟实验室主任王云鹤官宣离职。我们梳理了王云鹤的经历。王云鹤今日在朋友圈官宣,将辞去华为诺亚方舟实验室主任职位,告别华为。从 2025 年 3 月到今天,王

热心网友
03.28
2026中关村论坛年会:聚焦脑机接口创新与产业未来
科技数码
2026中关村论坛年会:聚焦脑机接口创新与产业未来

脑机接口技术正处于从实验室迈向产业化应用的关键转折点,其发展离不开数据创新的驱动、检测服务的支撑与产业集群的聚合。3月27日,脑机接口创新发展论坛在中关村国际创新中心举行,本次论坛以 "创新集聚·脑智

热心网友
03.28
AI成本剧变:从烧钱到精算,节点普惠如何破局降本?
科技数码
AI成本剧变:从烧钱到精算,节点普惠如何破局降本?

来源:环球网【环球网科技报道 记者 李文瑶】当AI技术从技术验证走向实际应用,算力供给的结构性调整正成为业界关注的焦点。3月26日,中关村论坛年会现场,中科曙光发布世界首个无线缆箱式超节点——sca

热心网友
03.28
Sora暂停开放,国产视频大模型的机遇与未来在哪里?
科技数码
Sora暂停开放,国产视频大模型的机遇与未来在哪里?

1两年前横空出世的Sora,曾给AI业界和全球网民带来巨大的震撼。到2026年,它突然退场,没能再掀起那样大的波澜。从商业决策的角度看,这其实早就是意料之中的事。极高的视频生成成本、少得可怜的付费用

热心网友
03.28
赵付春:建设安全智能医疗生态需破解四大核心难题
科技数码
赵付春:建设安全智能医疗生态需破解四大核心难题

人工智能(ai)大模型正加速融入医疗健康生态,但其背后的法律责任、伦理边界与风险分担问题仍缺乏明晰框架。如何让ai在守住安全与伦理底线的前提下健康发展?笔者认为,要明确ai辅助诊疗责任,构建一个安全

热心网友
03.28

最新APP

暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25

热门推荐

华为鸿蒙6.0.0.328升级:透明质感、灵动物与动态效果全解析
网络安全
华为鸿蒙6.0.0.328升级:透明质感、灵动物与动态效果全解析

每次系统更新,用户最怕的是什么?不是新功能不够多,而是又卡了、又耗电了、更新了个寂寞,这也导致许多用户不敢尝鲜。不过随着各大厂商的内卷程度加深,以及对系统本身的工艺技术得到了进一步的提升,如今系统更

热心网友
03.28
Excel查找最后一项匹配公式详解:5步精准定位
电脑教程
Excel查找最后一项匹配公式详解:5步精准定位

Excel中定位值最后一次出现位置并提取结果,可用五种公式:一、LOOKUP(2,1 (条件),返回列);二、INDEX+MATCH数组公式;三、XLOOKUP(search,lo

热心网友
03.28
小米SU7深度试驾体验:日常驾驶亮点与真实用户评测
科技数码
小米SU7深度试驾体验:日常驾驶亮点与真实用户评测

在新能源汽车市场竞争愈发激烈的当下,小米新一代SU7凭借专业媒体试驾反馈中的亮眼表现,成为近期车圈焦点。这款车虽定位运动型轿车,却在日常驾驶舒适性上展现出独特优势,收获众多好评。多家媒体在试驾过程中

热心网友
03.28
深蓝汽车电驱突破百万台,新一代技术如何创新效率新高
科技数码
深蓝汽车电驱突破百万台,新一代技术如何创新效率新高

深蓝汽车近日迎来重要里程碑,其第100万台电驱系统正式下线,标志着该品牌在电动化领域迈出关键一步。与此同时,全新一代原力超集电驱技术揭开面纱,以94 13%的系统工况效率刷新全球量产电驱纪录,功率密

热心网友
03.28
中建材携手吉利 共建南非新能源全链条合作共赢蓝图
科技数码
中建材携手吉利 共建南非新能源全链条合作共赢蓝图

在南非约翰内斯堡举办的2026年国际太阳能暨储能展上,一场备受瞩目的签约仪式吸引了众多目光。中国建材集团旗下的中建材南非有限公司与吉利控股集团旗下的吉利南非有限公司,正式签署了南非新能源转型战略合作

热心网友
03.28