首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
硅谷算力豪赌遭遇停电,中国团队反向突破Scaling Law困局

硅谷算力豪赌遭遇停电,中国团队反向突破Scaling Law困局

热心网友
34
转载
2026-02-11


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新智元报道

编辑:KingHZ Aeneas

【新智元导读】思考token在精不在多。Yuan 3.0 Flash用RAPO+RIRM双杀过度思考,推理token砍75%,网友们惊呼:这就是下一代AI模型的发展方向!

硅谷的算力战争,已经不是「拼GPU」,而是「抢电网」。

OpenAI万亿豪赌Scaling,瞄准10GW级超级集群。

在孟菲斯,马斯克竖起xAI的Colossus,55.5万张GPU与2GW电力轰鸣待命。

还不止地面。马斯克已经把目光看向太空:下一座「算力堡垒」,仿佛就在地球近地轨道的黑暗里发光。


奥特曼在赌,马斯克在赌,整个硅谷都在赌:堆起最高的「算力山」,就能先摸到AGI的门把手。

可就在这场万亿级狂飙里,Anthropic的一个更刺耳的结论浮出水面——

模型越大,算力越多,不一定越聪明。更可能的是:浪费更大、思维链更乱、幻觉更猛。




左右滑动查看

真正决定胜负的,可能不是更多GPU,而是能让模型在正确答案前及时刹车的算法。

而就在这个节点,Yuan 3.0 Flash悄然登场。

它出自YuanLab.ai团队之手——没有喧嚣的发布,没有张扬的宣告,却也吸引了全球开发者的注意。26年伊始,YuanLab.ai团队交出了它的阶段性的成果,向行业展示了自己的节奏。

可以说,Yuan 3.0 Flash不是又一个参数爆炸的巨兽,而是一场针对「想太多」的精准手术——以更高效的机制,实现更敏捷的思考。

40B总参数的MoE(Mixture-of-Experts)架构,仅激活约3.7B参数,却在多模态任务上展现出媲美甚至超越数百亿参数模型的表现。

更关键的是,它让模型学会「适可而止」,从训练阶段就教会它:什么时候该停手。


链接:https://arxiv.org/pdf/2601.01718

开源:https://github.com/Yuan-lab-LLM/Yuan3.0

因此,Yuan 3.0 Flash一经发布,就在全球开发者中引起了巨大轰动。

有人说,这是高效多模态AI迈出的一大步:一个400亿模型仅仅激活了37亿参数,这就是下一代AI模型的发展方向!


没想到,开源模型竟然能有这种级别的控制力,这种AI,是真的可以应用于生产环境的。


打破业内魔咒

想太多,就更好吗?

推理模型的兴盛,引发了全行业对「长思维链」的追逐。

然而,企业AI落地时,却存在着这样一个「TOKEN成本悖论」——

想要高智能,就必须承担成倍增长的Token消耗和推理延迟;

想要控制成本,往往只能牺牲模型能力。

要知道,对企业而言,每一个无效消耗的Token,都是真金白银的流失!

真正的成本黑洞,不在「求解」,而在「答对之后」:很多推理模型一旦摸到正确答案,就开始反复确认、来回推翻、没有新证据也要继续「再想想」。

事实上,在数学与科学任务中,超过70%的token消耗发生在正确答案之后,却仍在进行无效反复验证的阶段。

举个例子,你问了AI一个数学题,它会先给出正确解,然后又开始「但是……或许……再检查一遍」,最终输出比答案本身长三倍的文字。


答案早已浮现,却被淹没在无休止的自我对话中。

这不是「幻觉」,是当下大模型的普遍顽疾:过度反思(overthinking)。

为了解决这一矛盾,Yuan 3.0 Flash正式登场了!团队的目标是——「用更少算力,实现更高的智能」。

四两拨千斤

更少算力,但更高智能

Yuan 3.0 Flash,在MoE架构的基础上,实现了RIRM(反思抑制奖励机制)和RAPO(反思感知自适应策略优化)两项算法创新,这样就从根本上修正了模型的「过度思考」。

由此,模型实现了以下突破:

· 精准定位:准确识别首次得出正确答案的关键节点

· 抑制冗余:有效抑制后续冗余推理行为

· 双重提升:在提升精度的同时,将推理token数量降低约75%

首先,来看它在架构上的优雅革命。

传统稠密模型像一支全员出动的军队,每一次推理都调动所有神经元。

Yuan 3.0 Flash则更像一支特种部队:MoE机制只唤醒最合适的「专家」应对当前任务。

视觉编码器处理高分辨率图像,通过自适应分割机制将图片拆分成高效token,避免显存爆炸;语言主干网络采用Local Filtered Attention(LFA),进一步降低计算开销。


结果很出彩——

上下文长度轻松达到128K,在「needle-in-a-haystack」(大海捞针)测试中实现100%准确召回。


就是说,它能从海量文档中精准定位关键信息,而不会因为长度而迷失。

想象一下,你的企业需要分析一份数百页的财务报告,夹杂着复杂嵌套表格和图表。

过去,模型或许卡顿、幻觉频出,或者token消耗到天价。

而Yuan 3.0 Flash像一位专注的审计师,多模态输入(文本+图像+表格+文档)无缝融合:

RAG(检索增强生成)准确率达64.47%,

Docmatix多模态检索65.10%,

MMTab表格理解58.30%,

SummEval摘要生成59.30%。


在企业场景,Yuan 3.0 Flash远超GPT-5.1的46.10%,直接瞄准了LLM的痛点。

RIRM:拒绝无效内耗

真正让Yuan 3.0 Flash脱颖而出的,就是对「过度反思」的致命一击。

在MATH-500和AIME等数学基准上,传统推理模型的token分布像一座冰山:


浅色部分是问题求解,深色巨大区域是后答案反思

比如,在MATH-500上,「后答案反思」占比高达71.6%,整体token在3362上居高不下。

为了显著降低这一无效反思的占比,团队提出了一种创新机制——反思抑制奖励机制(RIRM)。

RIRM的原理简单却深刻:在强化学习中,它识别模型首次输出正确答案的「节点」,然后对后续缺乏新证据的重复验证、自我推翻施以负奖励。

模型不再被鼓励「想得越久越好」,而是学会辨别「足够好」的边界。


RIRM工作流程示意

从首次正确答案识别到反思阶段奖励抑制的完整链路

也就是说,在强化学习中,RIRM首次教导了模型识别「何时思考已足够」。它会奖励模型在首次得出正确答案后停止无效反思,而非鼓励无止境的推演。

为此,团队引入了三个维度的奖励:首次正确答案、最终正确性,以及反思步骤数量是否落在合理区间内。

果然,Yuan 3.0Flash引入RIRM后,上面这座冰山被腰斩:反思阶段token占比骤降至28.4%,总token压缩至1777左右,减少约47%,而准确率不降反升(MATH-500从83.20%提升至89.47%)。

这就说明被压缩的并不是有效推理,而是答案已经确定之后的反复自检、复述与格式化解释等低价值token。


不仅如此,该模型在数学、科学等领域也表现出强大的推理能力,直接把无效反思的Token消耗最高削减至75%,即可达到前沿模型的精度水平!

这样,就能让算力聚焦于真正有价值的推理步骤。可以说,RIRM的作用并非「压长度」,而是让模型学会在正确节点停止思考。


RIRM训练前后Token消耗对比

反思阶段(深色部分)显著缩减,而首次解题阶段基本保持不变

RAPO:高效训练引擎

然而,仅靠对推理行为的抑制,并不足以支撑一个稳定、高效的企业级模型训练。

由此,团队引入了RAPO(反思感知自适应策略优化),这并非一次局部技巧的优化,而是对强化学习训练框架的一次系统性改进。

它兼顾了训练效率、训练稳定性及推理效率,使模型能在多任务、异构场景中形成更具实用价值的策略。

具体来说,它从训练框架层面实现保驾护航:

自适应动态采样(Adaptive Dynamic Sampling,ADS):动态过滤掉低信息量的重复样本,训练效率提升52.91%

80/20高熵token更新规则:只更新不确定性最高的前20%的token梯度,聚焦真正需要优化的部分

优化双剪裁:同时对策略梯度和值函数梯度进行双重裁剪,防止MoE架构常见的梯度爆炸

多任务交替训练+KL散度正则,让大型MoE模型也能稳定收敛

让整个RL过程效率提升52.91%,即使在大型MoE模型上也保持稳定。


这不是强制缩短输出,而是重塑模型对「好推理」的认知: 从「长度即真理」,转向「时机即智慧」。

更重要的是,RAPO与RIRM是协同设计的。

RAPO决定模型「如何学习」,而 RIRM明确模型「学到什么程度该停」。

当然,任何创新都有其张力。

RIRM在抑制冗余的同时,可能在极度不确定、需要多轮探索的任务中略微限制有益反思——这需要在实际部署中持续观察与平衡。

AI下半场,YuanLab.ai团队这样想

Yuan 3.0 Flash指向一个清晰的结论:当模型具备基础推理能力后,其进化的关键已非「延长思考」,而在于 「优化思考的质量与效率」。

它不仅为企业提供一种「更少算力、更高智能」的选择,更重要的是对「长思维链」竞赛的理性补充。

背后团队YuanLab.ai深深理解深度推理的价值,但也知道隐藏的算力浪费风险。

因此,Yuan 3.0 Flash提供了追求「有效思考」的平衡方案,推动行业关注智能的实用性与经济性。


Yuan 3.0 Flash被网友盛赞:这不是一个demo, 而是一个真正为生产构建的模型!

当模型能够在获得正确答案时主动停止推理,本质上意味着它开始进行一种隐式的成本—收益分析。从此,token成为推理过程中可被模型内部感知和调节的计算资源。

这就标志着推理目标的一次转变:从单纯模仿人类冗长、外显的思维过程,转向更适合机器的、以最小token预算达成正确性的效用导向智能形态。

为什么这种更高效的智能,是出自YuanLab.ai团队之手?

实际上,这个成果可以看作YuanLab.ai团队在此领域多年经验的厚积薄发。作为在行业内深耕多年的大模型探索者,团队的发展足迹本身已成为中国大模型演进历程中一个真实而生动的缩影。

2024年,当业界对大模型的认知尚处朦胧时,YuanLab.ai团队便已勇闯无人区,发布了2457亿参数的源1.0大模型,这是对GPT-3架构的成功验证。

发布之际,团队开源了平台、代码以及珍贵的中文数据集,滋养了国内早期大模型成长土壤。

随着ChatGPT的横空出世,YuanLab.ai团队立足自身技术积累与市场需求,于同期成功推出自主研发的「源2.0」大模型。

2024年5月,团队发布了采用创新MoE架构的源2.0-M32,以仅2.25万亿Tokens的训练量,实现了出色的性能。


站在「源2.0-M32」的肩膀上,YuanLab.ai团队已向着下一个里程碑进发——「源3.0」 ,剑指多模态、更少算力、更高智能的AGI路径。在此过程中,也有了团队近期交出的阶段性成果——Yuan 3.0 Flash。

AI下半场,走向哪里

回望过去,我们或许会发现,AI的下半场真的来了。

上半场,大家追求的是「大」:更大的参数、更多的显卡、更高的智能。那是AI的青春期,迅速成长。

下半场,我们开始追求「准」:更精炼的逻辑、更克制的表达、更高效的决策。这是AI成年礼的开始。

当我们不再迷信「越大越强」,而转向「更精炼、更适配」,AI才真正从实验室走向生产,从昂贵的玩具变成可持续的工具。

此时,我们触及了本质:AI智能的边界,正在从「深度」转向「时机」。

真正的聪明,往往不是想得最多,而是知道何时果断收手。

人类智慧最珍贵的部分,从来不是喋喋不休的长篇大论,而是由于洞察本质而带来的适时沉默。

所以,当你下一次面对AI冗长输出时,不妨问自己:它是在推理,还是在演推理?

在AGI星辰大海里,我们或许不再需要追逐参数巨兽,而是学会点亮一盏更精准、更节制的灯塔。

大厂需要学会的,是参与一场「适可而止」的革命。

参考资料:

https://arxiv.org/pdf/2601.01718

https://github.com/Yuan-lab-LLM/Yuan3.0


来源:https://www.163.com/dy/article/KLGQ8UBS0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

具身智能研发框架Dexbotic重塑机器人开发流程
AI
具身智能研发框架Dexbotic重塑机器人开发流程

近日,开源具身智能原生框架Dexbotic宣布正式支持以RLinf作为其分布式强化学习后端。对具身智能开发者而言,这不仅是一次普通的工程适配,更意味着VLA模型研发中长期存在的「SFT与RL割裂」问题,正在被真正打通。 这是一种典型的「乐高式协作」:双方不强行Fork、不粗暴揉合代码,而是保持清晰边

热心网友
05.13
RMS-MoE模型通过检索记忆优化专家路由调度效率
AI
RMS-MoE模型通过检索记忆优化专家路由调度效率

随着大模型参数规模不断增长,混合专家(Mixture-of-Experts, MoE)架构因其稀疏激活特性,成为平衡模型性能与计算开销的主流方案。然而,在实际的Web级应用部署中,一个关键挑战日益凸显:传统MoE的路由机制通常是“无记忆”的。 试想,在搜索引擎、智能问答或多轮对话等高并发场景下,用户

热心网友
05.12
编程入门指南从零基础到理解核心概念
编程语言
编程入门指南从零基础到理解核心概念

编程十年的一点分享 在软件开发的路上走过十几年,从一个爱好者到以此为业,有些体会或许值得聊聊,就当是抛砖引玉吧。 最早接触编程,是从BASIC和C语言开始的。工作后,随着需要,陆续学习了dBase、Access这类桌面数据库的开发。真正以开发为职业,可以说始于FoxPro 5 0,之后技术栈随着项目

热心网友
05.07
编程初学者入门指南与核心思维解析
编程语言
编程初学者入门指南与核心思维解析

引言 编程,是一门实践科学。这意味着,学习它的最佳方式就是动手去敲代码。但这是否意味着,我们可以因此轻视理论的学习呢? 入门编程 如果你去各大技术社区提问“该如何入门编程”,五花八门的答案会瞬间涌来。 不过,仔细梳理一下,无外乎以下几种流派: 学院派 他们推荐从C语言入手,并辅以数据结构、操作系统等

热心网友
05.07
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”
科技数码
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”

想象一下这个场景: 你让 AI Agent 帮你修一个代码 Bug。它打开项目,读了 20 个文件,改了改,跑了一下测试,没过,又改,又跑,还是没过……来回折腾了十几轮,终于——还是没修好。 你关掉电脑,松了口气。然后收到了 API 账单。 上面的数字可能让你倒吸一口凉气——AI Agent 自主修

热心网友
05.06

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

领克GT概念跑车北京车展首发 百公里加速仅2秒
科技数码
领克GT概念跑车北京车展首发 百公里加速仅2秒

领克首款GT概念跑车亮相北京车展,由中欧团队联合打造。新车采用经典GT比例与低趴宽体设计,配备液态金属蓝涂装与2+2座舱,设有高性能模式按键可激活空气动力学套件。车辆采用后驱布局与AI智能运动控制系统,百公里加速约2秒,设计融合瑞典极简美学并参考全球用户反馈。

热心网友
05.14
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升
科技数码
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升

英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。

热心网友
05.14
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售
科技数码
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售

微星将于5月15日推出两款26 5英寸雾面WOLED显示器MAG276QRY28和276QRDY54,售价分别为2499元和6299元。均采用第四代WOLED面板,具备QHD分辨率、VESADisplayHDRTrueBlack500认证、1500尼特峰值亮度及99 5%DCI-P3色域覆盖。276QRY28刷新率为280Hz,高阶款276QRDY54支持4

热心网友
05.14
中芯国际一季度净利润13.61亿元 同比增长0.4%
科技数码
中芯国际一季度净利润13.61亿元 同比增长0.4%

中芯国际2026年第一季度营收176 17亿元,同比增长8 1%;净利润13 61亿元,同比增长0 4%。公司预计第二季度收入环比增长14%至16%,毛利率指引上调至20%至22%。这反映出公司在行业复苏中展现出财务韧性,并通过运营优化增强了短期增长势头。

热心网友
05.14
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升
AI
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升

手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭

热心网友
05.14