游乐游手机版
首页/科技数码/文章详情

微小改进引发指数级突破:Scaling Law的最新研究进展

时间:2025-09-16 18:17
很多人认为,Scaling Law 正在面临收益递减,因此继续扩大计算规模训练模型的做法正在被质疑。最近的观察给出了不一样的结论。研究发现,哪怕模型在「单步任务」上的准确率提升越来越慢,这些小小的进

关于Scaling Law的经济价值再度引发讨论

当前行业普遍认为随着模型规模的扩大,收益增长率正在减缓,这使得持续投入巨资训练超大模型的合理性受到质疑。然而最新研究给出了不同视角:即便在单项任务精确度上的边际改进越来越有限,这些看似微小的进步累积起来,却能推动模型执行任务长度的指数级增长,而这在实际应用中往往更具商业意义。

\

企业应该如何评估投入产出比?从去年开始,这个问题就成为AI行业的焦点辩论。最新研究发现,传统基准测试中观察到的收益递减现象,可能掩盖了更重要的价值维度。

剑桥大学新发现:长时程执行的指数价值

剑桥大学团队的最新研究表明,大语言模型的实际价值往往体现在连续完成复杂任务的能力上。即便单步准确率提升放缓,但微小的进步经过累积放大,可以让模型处理的任务长度呈现爆炸式增长。

\

论文题目:《收益递减的假象:衡量大语言模型的长时程执行能力》
研究人员通过解构任务执行的本质,揭示了三个关键发现:

  1. 虽然单步准确率的边际回报在减少,但任务长度的增长呈现指数曲线
  2. 模型存在"自我条件设定"效应,错误会形成恶性循环
  3. 具备思考能力的模型可显著突破执行长度限制

\

这些发现解释了为何商业实践中,大模型能持续创造超预期的价值。当我们将评估重点从单点准确率转向任务连贯性时,就会发现持续投入仍然具有显著意义。

研究方法的创新突破

团队采用创新的实验设计,通过对规划和执行环节的解耦分析,清晰展示了模型能力的演变规律。主要发现包括:

  • 当步骤准确率超过70%后,任务长度出现超指数增长
  • 模型参数增加可显著延长有效执行轮次
  • 思维链机制能够有效打破错误累积的恶性循环

这些发现为行业发展提供了新的评估维度,可能改变我们对模型能力边界的认知。研究团队呼吁建立更多针对长时程任务的评估基准,以更全面地衡量AI系统的实际表现。

来源:https://36kr.com/p/3468881300231814
上一篇资本市场聚焦Capex交易新趋势 下一篇揭秘AI销售团队5分钟实测,商家加盟效果超预期
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
索泰杯全国AI创作大赛火热进行中 以AI绘梦赢10万显卡大奖
科技数码 · 2026-07-03

索泰杯全国AI创作大赛火热进行中 以AI绘梦赢10万显卡大奖

首届索泰杯全国AI创作大赛火热进行中,设立文化、科技等三大赛道,一等奖奖励RTX5080显卡,总价值超过10万元。评审团由行业专家组成,从故事感染力、创意独特性等维度评选作品。

索尼推送PS5和PS5 Pro最新固件更新26.04-13.42
科技数码 · 2026-07-03

索尼推送PS5和PS5 Pro最新固件更新26.04-13.42

索尼7月1日向PS5及PS5Pro推送系统更新26 04-13 42 00(约1 2GB),仅改进系统性能与稳定性,无新功能或界面改动。另外,“最近游玩”功能异常已持续超过两周未修复。

优派VA24G25-HJ 144Hz高刷IPS显示器上市
科技数码 · 2026-07-03

优派VA24G25-HJ 144Hz高刷IPS显示器上市

优派VA24G25-HJ显示器上市,23 8英寸1080PIPS面板,144Hz刷新率,400尼特亮度,4ms灰阶响应,支持8bit色深与98%sRGB,配备VGA及HDMI1 4接口,带升降旋转支架,补贴后低至499元。

赛睿日本限定QcK鼠标垫 等高线霓虹落日款L/XXL
科技数码 · 2026-07-03

赛睿日本限定QcK鼠标垫 等高线霓虹落日款L/XXL

赛睿日本推出等高线与霓虹落日两款限定QcK鼠标垫,L(450×400mm)和XXL(900×400mm)规格表面优化提升追踪精度与稳定性。7月10日发售L款含税3310日元,XXL款含税6640日元。

浪潮锐龙3迷你主机1999元双屏支持
科技数码 · 2026-07-03

浪潮锐龙3迷你主机1999元双屏支持

浪潮推出1999元迷你主机,搭载锐龙33200U,金属机身配8GB内存与256GB固态,支持双HDMI双屏输出,兼容Windows Linux,预装本地AI助手“灵犀有言Agent”,面向政企办公。