关于Scaling Law的经济价值再度引发讨论
当前行业普遍认为随着模型规模的扩大,收益增长率正在减缓,这使得持续投入巨资训练超大模型的合理性受到质疑。然而最新研究给出了不同视角:即便在单项任务精确度上的边际改进越来越有限,这些看似微小的进步累积起来,却能推动模型执行任务长度的指数级增长,而这在实际应用中往往更具商业意义。

企业应该如何评估投入产出比?从去年开始,这个问题就成为AI行业的焦点辩论。最新研究发现,传统基准测试中观察到的收益递减现象,可能掩盖了更重要的价值维度。
剑桥大学新发现:长时程执行的指数价值
剑桥大学团队的最新研究表明,大语言模型的实际价值往往体现在连续完成复杂任务的能力上。即便单步准确率提升放缓,但微小的进步经过累积放大,可以让模型处理的任务长度呈现爆炸式增长。

论文题目:《收益递减的假象:衡量大语言模型的长时程执行能力》
研究人员通过解构任务执行的本质,揭示了三个关键发现:
- 虽然单步准确率的边际回报在减少,但任务长度的增长呈现指数曲线
- 模型存在"自我条件设定"效应,错误会形成恶性循环
- 具备思考能力的模型可显著突破执行长度限制

这些发现解释了为何商业实践中,大模型能持续创造超预期的价值。当我们将评估重点从单点准确率转向任务连贯性时,就会发现持续投入仍然具有显著意义。
研究方法的创新突破
团队采用创新的实验设计,通过对规划和执行环节的解耦分析,清晰展示了模型能力的演变规律。主要发现包括:
- 当步骤准确率超过70%后,任务长度出现超指数增长
- 模型参数增加可显著延长有效执行轮次
- 思维链机制能够有效打破错误累积的恶性循环

这些发现为行业发展提供了新的评估维度,可能改变我们对模型能力边界的认知。研究团队呼吁建立更多针对长时程任务的评估基准,以更全面地衡量AI系统的实际表现。
