大语言模型训练新方法突破规模定律研究瓶颈

首页

AI资讯

热心网友

转载

2026-05-22

训练一个像ChatGPT或Claude这样的大语言模型，成本究竟有多高？科技巨头们对此往往守口如瓶，但业内的普遍共识是，每次训练的花费动辄数亿甚至十亿美元。如此天价，自然让开发者们希望每一次训练都能“毕其功于一役”。

新方法革新大语言模型训练的规模定律研究

为了控制成本、提升大规模单次训练的可靠性，AI领域早已离不开一套名为“规模定律”的基础设施。开发者们通过评估一系列小型模型的能力，来预测最终大模型在训练过程中的表现。然而，讽刺的是，即便是这套用于“省钱”的预测方法，其本身也需要耗费不菲的算力。

现在，转机出现了。一项新研究提出了一种革新性的扩展方法，有望将预测所需的计算量大幅削减，从而节省数百万美元的训练成本，并显著缩短研发周期。

一场昂贵的“押注”与统计学的捷径

斯坦福大学计算机科学助理教授Sanmi Koyejo，也是这项研究的通讯作者，对此有一个生动的比喻：“在规模定律被最终验证之前，最顶尖的开发者其实是在‘押注’，他们赌上一切，并围绕模型的调整做出了重大战略决策。结果证明他们赌对了，规模定律确实能有效推断性能。但即便如此，规模扩展本身依然代价高昂，只是比盲目训练要便宜一些。”

这项已被国际机器学习大会（ICML）接收的研究，核心目标非常直接：能否用算法让规模扩展本身变得更高效？

研究团队给出的答案是肯定的。他们将这一新框架命名为“题目反应规模定律”，其灵感并非来自计算机科学，而是源于教育测量和心理统计学——没错，就是SAT等标准化考试所依赖的那套理论。

向考试学来的“高效评估法”

IRSL的核心机制，与自适应考试的逻辑如出一辙。它不再给所有模型“考生”反复做同一套冗长的试卷，而是建立了一种动态互动：当模型正确回答一个问题后，系统会随即提出一个更难的题目。这种“逐级挑战”的方式，能够用最少的题目，精准定位出模型的真实能力边界。

这本质上是一条统计学的捷径。传统方法为了预测准确，可能需要在数万道基准测试题上运行数千个小模型，单次扩展的查询总量可能高达十万亿次。而IRSL的突破在于，它最少仅需50道题，就能达到同等甚至更高的预测精度，将计算需求降低了超过99%。

“在现有框架下，预测一次需要海量的计算，”论文第一作者、斯坦福博士生Sang Truong解释道，“我们的方法让这个过程变得既高效又可靠。而且，在某些情况下，减少计算量反而能改善预测结果，这算是一个反直觉的收获。”

谁将受益？

那么，这项技术将惠及哪些群体？Koyejo教授预测，影响最深远的将是学术界。对于研究经费通常并不宽裕的大学和科研机构来说，高昂的训练成本一直是难以逾越的门槛。IRSL为他们打开了一扇窗，使得严谨的规模扩展研究变得可行。

当然，财力雄厚的商业公司同样能从中获益。节省下来的每一分算力，都意味着更快的迭代速度和更低的试错成本。研究团队希望，IRSL能成为一个新工具，推动整个行业以更科学、更严谨的统计方式来思考模型扩展问题。

“题目反应规模定律是一项重要的进步，”Koyejo总结道，“它表明，规模扩展乃至整体训练过程是可以被精炼和优化的。它揭示了一个深刻的道理：有时候，用更少的工作量，反而能捕捉到更优质的信号。”

本研究由斯坦福大学Sanmi Koyejo教授团队主导，合作者包括斯坦福博士生Rylan Schaeffer以及加州大学洛杉矶分校的Yuheng Tu。研究得到了美国国家科学基金会、ARPA-H、麦克阿瑟基金会、施密特科学、斯坦福以人为本AI研究院（HAI）、OpenAI、微软及谷歌的资助支持。

核心要点解读

Q1：题目反应规模定律（IRSL）是什么？它有什么作用？

IRSL是一种借鉴了标准化考试（如SAT）评估原理的新型大语言模型扩展框架。它通过动态调整题目难度（答对后出更难的题），用极少的题目就能精准评估模型能力，从而将预测模型扩展性能所需的计算量最高降低99%，显著节省训练成本和时间。

Q2：IRSL相比传统方法能节省多少计算量？

传统方法可能需要对数千个小模型进行数万道题的测试，总查询量可达十万亿次级别。而IRSL最少仅需50道题即可达到同等精度，计算需求降幅超过99%，能为AI开发节省数百万美元成本。

Q3：IRSL主要对哪些群体有帮助？

对学术界帮助最大，能极大降低学术研究的经济门槛。同时，商业AI公司也能借此提升研发效率、降低成本。该工具旨在推动整个领域采用更科学、严谨的统计方法进行模型扩展研究。

来源:https://ai.zhiding.cn/2026/0522/3187832.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：诺基亚与KDDI合作测试6G基站节能技术能耗降低可达40% 下一篇：Notion AI智能体与自动化平台为开发者提供工作流解决方案

相关攻略

AI资讯

大语言模型训练新方法突破规模定律研究瓶颈

新研究提出“题目反应规模定律”，借鉴自适应考试原理，通过动态调整题目难度，仅用极少题目即可精准预测大语言模型性能，将预测计算量降低超过99%。这大幅节省训练成本与时间，有助于降低学术研究门槛并提升企业研发效率。

热心网友

05.22

业界动态

千亿参数AI大模型GPU集群托管方案：降低训练损耗的智算底座工程实践

随着大模型训练规模扩大，底层基础设施成为关键。GPU集群托管需解决高密度算力下的供电与散热问题，确保芯片高效运行。同时，优化网络拓扑以消除丢包，保障分布式训练流畅。原厂驻场运维能快速响应故障，缩短中断时间。该方案通过物理层完全掌控，为长周期训练提供稳定保障，将底层稳定。

热心网友

05.20

AI资讯

如祺出行AI数据战略：以高价值场景驱动世界模型训练

具身智能发展面临高质量数据短缺挑战。如祺出行依托平台优势，日均产出1600小时多模态真实场景数据，完整覆盖驾驶决策与反馈链条，为世界模型训练提供稀缺资源。公司已构建从采集到标注的全栈数据服务能力，业务拓展至自动驾驶、具身智能与大模型等领域，并与多家头部企业达成合作。

热心网友

05.19

业界动态

模型训练的含义与步骤详解

模型训练，本质上就是赋予计算机“学习与思考”的能力。它通过神经网络等算法，让机器在海量历史数据中自主发现规律、优化内部参数，最终构建出一个能够进行智能预测或内容生成的“逻辑大脑”。这个过程可以类比于培养一位顶尖专家。模型训练就如同专家通过大量案例分析（数据）来提炼方法论（模型）。如今，这一进程正飞

热心网友

05.19

AI资讯

如何关闭Perplexity AI数据使用权限防止搜索记录用于模型训练

在使用Perplexity进行网络搜索时，若您希望确保个人搜索记录完全不被用于AI模型训练或服务优化，您需要主动管理其数据采集设置。平台默认可能会利用用户行为数据改进产品，但也为用户提供了清晰的隐私控制选项。以下是具体的操作指引。一、关闭账户级AI数据使用权限这一步至关重要，它能直接阻止Perp

热心网友

05.17

热门推荐

游戏攻略

极乐迪斯科强力角色推荐与使用心得分享

《极乐迪斯科》以浓烈的后工业时代氛围为背景，玩家扮演失忆警探哈里尔·杜博阿，在瑞瓦肖城调查谋杀案并寻找记忆。关键角色包括理性搭档金·曷城、作为目击者的顽童兄妹，以及后期可接触的“提图斯7人组”义警。与众多NPC深入互动能获取线索、推进剧情，逐步拼凑案件全貌，深入理解游戏世界。

热心网友

05.22

游戏攻略

崩坏星穹铁道2026年5月24日最新兑换码分享

《崩坏：星穹铁道》于2026年5月24日发布最新兑换码CSPDVPCU9RVL。玩家需登录游戏，通过左上角手机菜单进入功能界面，选择兑换码选项并输入代码即可领取奖励。奖励将通过游戏邮件发放，该码具有时效性且限用一次，建议尽快兑换。

热心网友

05.22

游戏攻略

方舟生存进化探险者笔记获取方法全攻略

探险者笔记主要通过探索地图、击败特定生物、完成任务活动以及交易兑换获取。探索时需留意各处环境细节；击败精英生物后可能从其掉落物中获得；完成任务或参与活动可直接作为奖励；此外还可通过玩家交易或系统兑换取得。收集过程融合了游戏核心体验，能逐步揭示世界背景故事。

热心网友

05.22

web3.0

比特币顶底分型怎么看？币圈K线形态精准判断买卖点

捕捉市场拐点：深度解析BTC顶底分型识别与应用策略在瞬息万变的加密货币市场中，精准识别趋势的潜在转折点是交易者梦寐以求的能力。面对BTC等资产的剧烈波动，是否存在一种直观且经典的技术工具，能够帮助我们有效判断阶段性顶部与底部？答案是肯定的。顶底分型，作为技术分析领域的基石形态之一，正是为揭示市场可

热心网友

05.22

科技数码

北水资金12.4亿港元加仓经纬天地连续五日增持中芯国际

南向资金流向呈现显著分化。经纬天地暴跌后获12 41亿港元逆势买入；中芯国际连续5日获净买入，累计超42 7亿港元，中国海洋石油亦获持续加仓。资金抛售盈富基金、阿里巴巴及腾讯控股等。持续流入半导体与能源股，反映对产业趋势及基本面的长期看好；减持部分科技巨头则体现阶段性获利了结。

热心网友

05.22