微小改进引发指数级突破：Scaling Law的最新研究进展

时间：2025-09-16 18:17

很多人认为，Scaling Law 正在面临收益递减，因此继续扩大计算规模训练模型的做法正在被质疑。最近的观察给出了不一样的结论。研究发现，哪怕模型在「单步任务」上的准确率提升越来越慢，这些小小的进

关于Scaling Law的经济价值再度引发讨论

当前行业普遍认为随着模型规模的扩大，收益增长率正在减缓，这使得持续投入巨资训练超大模型的合理性受到质疑。然而最新研究给出了不同视角：即便在单项任务精确度上的边际改进越来越有限，这些看似微小的进步累积起来，却能推动模型执行任务长度的指数级增长，而这在实际应用中往往更具商业意义。

企业应该如何评估投入产出比？从去年开始，这个问题就成为AI行业的焦点辩论。最新研究发现，传统基准测试中观察到的收益递减现象，可能掩盖了更重要的价值维度。

剑桥大学团队的最新研究表明，大语言模型的实际价值往往体现在连续完成复杂任务的能力上。即便单步准确率提升放缓，但微小的进步经过累积放大，可以让模型处理的任务长度呈现爆炸式增长。

论文题目：《收益递减的假象：衡量大语言模型的长时程执行能力》
研究人员通过解构任务执行的本质，揭示了三个关键发现：

这些发现解释了为何商业实践中，大模型能持续创造超预期的价值。当我们将评估重点从单点准确率转向任务连贯性时，就会发现持续投入仍然具有显著意义。

团队采用创新的实验设计，通过对规划和执行环节的解耦分析，清晰展示了模型能力的演变规律。主要发现包括：

这些发现为行业发展提供了新的评估维度，可能改变我们对模型能力边界的认知。研究团队呼吁建立更多针对长时程任务的评估基准，以更全面地衡量AI系统的实际表现。

来源：https://36kr.com/p/3468881300231814

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

继续查看同栏目最近更新的文章。

首届索泰杯全国AI创作大赛火热进行中，设立文化、科技等三大赛道，一等奖奖励RTX5080显卡，总价值超过10万元。评审团由行业专家组成，从故事感染力、创意独特性等维度评选作品。

索尼7月1日向PS5及PS5Pro推送系统更新26 04-13 42 00（约1 2GB），仅改进系统性能与稳定性，无新功能或界面改动。另外，“最近游玩”功能异常已持续超过两周未修复。

优派VA24G25-HJ显示器上市，23 8英寸1080PIPS面板，144Hz刷新率，400尼特亮度，4ms灰阶响应，支持8bit色深与98%sRGB，配备VGA及HDMI1 4接口，带升降旋转支架，补贴后低至499元。

赛睿日本推出等高线与霓虹落日两款限定QcK鼠标垫，L（450×400mm）和XXL（900×400mm）规格表面优化提升追踪精度与稳定性。7月10日发售L款含税3310日元，XXL款含税6640日元。

浪潮推出1999元迷你主机，搭载锐龙33200U，金属机身配8GB内存与256GB固态，支持双HDMI双屏输出，兼容Windows Linux，预装本地AI助手“灵犀有言Agent”，面向政企办公。