首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
多变量神经缩放定律大一统新突破:Mila联手DeepMind提出UNSL

多变量神经缩放定律大一统新突破:Mila联手DeepMind提出UNSL

热心网友
51
转载
2026-05-29

大模型规模化的研究,过去大家关注的是参数量、数据量和loss之间的简单关系——也就是经典的scaling law。但真到了训练环节,事情远没有这么直白。模型性能不止受参数量和数据量影响,训练步数、处理token数、数据重用次数、batch size、学习率、初始化尺度,甚至推理时的计算量,每一个变量都可能拖后腿。

更棘手的是,这些变量之间不是简单的加法关系。某个变量在特定区间可能成为瓶颈,也可能让性能曲线出现阶段性拐点,甚至带来非单调变化。比如训练数据太少,或者训练轮数超过某个阈值,过拟合就来了;学习率或初始化权重标准差太大,反过来也会损害性能。这些复杂情况,传统的缩放定律很难统一描述。

最近,来自蒙特利尔大学Mila和Google DeepMind的研究者提出了一种全新的函数形式,叫统一神经缩放定律(Unified Neural Scaling Law,简称UNSL)。它的核心主张很明确:神经网络的缩放行为不应该只用“参数量—数据量—loss”这样的二维或三维公式来刻画,而应该用一个能同时处理多变量、阶段性转折、性能瓶颈、过拟合和超参数反向作用的统一函数形式。

论文一作Ethan Caballero用一段视频展示了UNSL如何准确建模和外推人工神经网络在多个变量同时变化时的缩放行为。

UNSL的函数形式

UNSL的完整架构由多个分层函数嵌套而成。它在多维对数空间中将性能建模为一组平滑连接的超平面:

其中Q定义如下:

R定义如下:

K为多变量断裂神经缩放定律(Multivariate Broken Neural Scaling Law,MBNSL):

整体上可以这样理解:UNSL不是简单地把参数量、数据量和训练步数塞进一个幂律公式,而是采用了一套分层结构。底层的K是多变量broken scaling law,描述log-log空间中由多个平滑连接超平面构成的缩放曲面;其中的hyperbreak对应性能曲面中的阶段性转折。再往上一层,R将整体缩放行为拆成非瓶颈组件和瓶颈组件,分别描述多变量共同作用下的整体趋势,以及某一单独变量限制最终性能的情况。瓶颈组件意味着,当其他变量都足够好时,某一个变量仍可能成为短板——比如模型够大、训练够久,但数据量不足,数据量就是瓶颈;或者数据足够多,但模型太小,参数量就成了瓶颈。Q则进一步引入学习率、初始化尺度等超参数可能带来的反向作用。最外层公式再加入不可约性能极限、评价指标导致的坏表现极限,以及训练超过一定epoch后可能出现的过拟合项。

下图是UNSL的示意图,包含两个输入维度x₁和x₂;中间图和右侧图分别展示了它在各个输入维度上的投影。这个例子中,UNSL包含3个hyperbreak,也就是图中用更亮的虚线标出的橙色、黄色和绿色转折结构。Hyperbreak可以理解为缩放定律中的“阶段转折”——比如一开始增加数据带来明显收益,过了某个区间收益下降,这个转折就是一种break;多变量情况下,它不再是一个点,而是高维空间里的转折面。其中绿色hyperbreak由非瓶颈组件产生,橙色hyperbreak由x₁瓶颈组件产生,黄色hyperbreak由x₂瓶颈组件产生。

实验结果

实验部分,研究者对比了几类函数形式。第一类是已有的缩放定律形式,包括CF和DC。CF接近Kaplan、Chinchilla一类常见形式,主要描述参数量、训练数据量或训练token数与loss之间的关系。DC来自Muennighoff等人的三变量函数形式,考虑参数量、训练token数和训练数据集大小。第二类是作者设计的消融版本:A1、A2、A3,可以理解为UNSL的逐步简化版。A1去掉了additive symmetry,A2加入了性能下限项,A3进一步加入部分反向作用结构;完整UNSL包含全部additive symmetry、瓶颈组件、非瓶颈组件、过拟合项和超参数反向作用项。

研究者做了视觉和语言两大类实验。在视觉任务中,评估了下游少样本图像分类,包括Birds 200、Cars 196和ImageNet。模型包括ViT、MLP-Mixer和BiT,在JFT-300M子集上预训练。变量包括训练数据集大小、训练步数,以及三变量设置中的模型参数量。结果显示,在下游图像识别任务中,UNSL在60.87%的任务上取得最好的外推表现,下一个最好的A3是21.74%。

在语言任务中,评估了上游和下游语言表现,变量包括模型参数量、处理token数、训练数据token数等。下游任务包括LAMBADA和CSR(HellaSwag、ARC、PIQA、WinoGrande、OpenBookQA、SIQA、BoolQ等常识推理任务的零样本平均错误率)。结果显示,在语言任务中,UNSL在88.89%的任务上外推最好,下一个最好的A2是11.11%。

细化来看,视觉实验分为二变量和三变量两类。二变量设置中同时变化训练数据集大小和训练步数,三变量设置中同时变化训练数据集大小、训练步数和模型参数量。在三变量视觉实验中,UNSL的优势非常直接:以Birds和ImageNet为例,UNSL都取得最低RMSLE。尤其和DC相比,误差下降非常明显,说明只靠传统三变量形式不足以描述视觉模型在参数量、训练数据和训练步数同时变化时的外推趋势。

语言实验同时覆盖上游语言建模表现和下游任务表现。三变量语言实验使用Muennighoff等人的缩放行为数据,三个同时变化的维度是模型参数量、处理过的token数、训练数据集中的token数。二变量语言实验则关注模型参数量与训练步数/处理token数的关系。在三变量语言实验中,UNSL的RMSLE明显低于A3、A2、A1和DC——外推误差大约只有DC的八分之一左右。

二变量语言实验也体现了类似趋势。在下表5中,UNSL在大多数任务上取得最低误差。

除了主文中的视觉和语言任务,论文附录还给出了更多场景,试图说明UNSL的适用范围更广。它可以外推强化学习中的多变量缩放行为,可以处理宽度和深度同时变化的缩放,还可以把batch size作为输入变量;另外,UNSL还被用于学习率、初始化权重标准差和训练步数同时变化的三变量缩放行为。

这一系列实验结果表明,UNSL的优势不在于简单拟合历史数据,而在于它能在多变量同时变化的情况下,更稳定地预测模型性能随规模扩展的走势。

来源:https://www.bestblogs.dev/article/89ed00e5?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

多变量神经缩放定律大一统新突破:Mila联手DeepMind提出UNSL
AI资讯
多变量神经缩放定律大一统新突破:Mila联手DeepMind提出UNSL

统一的神经缩放定律(UNSL)由Mila与DeepMind联合提出,能同时处理参数量、数据量、训练步数等多变量及其瓶颈、阶段性转折和超参数反向作用。在视觉和语言任务中,UNSL的外推表现优于传统缩放定律,三变量设置下外推误差约为传统方法的八分之一。

热心网友
05.29
DeepMind元老Andrew Dai揭秘谷歌AI进化从PaLM到Gemini未来押注视觉推理
AI资讯
DeepMind元老Andrew Dai揭秘谷歌AI进化从PaLM到Gemini未来押注视觉推理

AndrewDai在谷歌14年,亲历从PaLM到Gemini的演进。他认为当前大模型虽能生成流畅内容,却缺乏真正的世界理解,尤其在视觉推理方面存在短板,形成“锯齿状前沿”的发展不均。因此他离开谷歌并创立新公司,专注于视觉推理与多模态理解,视其为下一代AI关键。他相信小而精的团队能更快迭代,并指出专精化模型是未。

热心网友
05.28
DeepMind核心工程师为何放弃激励金离职
AI资讯
DeepMind核心工程师为何放弃激励金离职

AI编程领域核心工程师RonakMalde近期离开DeepMind,并放弃了后续并购激励金。他先后参与Codeium、Windsurf项目,训练了SWE-1模型,后随团队进入DeepMind推进AgenticCoding研究。作为入选“Exceptional100”榜单的一线工程师,他总结心得强调需聚焦正确研究方向、前瞻判断并高效执行。其离职引发行业对其下一

热心网友
05.26
DeepMind新突破AI视频理解提速35% 长视频分析更高效
科技数码
DeepMind新突破AI视频理解提速35% 长视频分析更高效

谷歌DeepMind与首尔国立大学提出LiteFrame模型,以解决AI处理长视频时的计算效率瓶颈。该模型采用轻量级视觉编码器与压缩令牌蒸馏技术,从源头高效压缩视频信息,直接输出精华特征。实验显示,处理更多视频帧时延迟降低超30%,准确率保持微幅提升,为长视频理解提供了高效方案。

热心网友
05.26
DeepMind核心工程师离职 放弃并购激励投身AI编程领域
AI资讯
DeepMind核心工程师离职 放弃并购激励投身AI编程领域

AI编程领域核心工程师RonakMalde离开DeepMind,甚至放弃了后续并购激励。他先后参与Codeium插件、WindsurfIDE及SWE-1模型开发,后随团队加入DeepMind从事AgenticCoding研究。其职业轨迹精准踩中AI编程发展主线,并入选行业影响力榜单。离职后,他分享了关于研究方向、团队效率及行业人才流动的思考,预示将在AI重塑

热心网友
05.26

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

委内瑞拉通胀突破600% 六成民众选择美元与加密资产
web3.0
委内瑞拉通胀突破600% 六成民众选择美元与加密资产

来看一组让人揪心的数字:截至5月28日,超过半数的委内瑞拉民众,选择支持经济“美元化”——他们想要用美元来对抗全球数一数二的恶性通胀。根据AtlasIntel的调研,31%的受访者明确支持美元化,另有26%的人表示强烈支持,加起来支持率高达57%;而明确反对或强烈反对的,合计只有30%。换句话说,在

热心网友
05.29
异环女主角是谁及内容介绍
游戏资讯
异环女主角是谁及内容介绍

游戏开局,玩家第一眼看到的主角是谁?没错,就是零。不过这里有个挺常见的误会——很多人会下意识觉得零是女主角,那是不是还有个男主角?其实不然。进入游戏之后,外观是可以自由选择的,性别、形象都由你定,男女主角本质上都是同一个人。两种造型唯一的区别就是视觉风格,至于基础属性、成长路线、技能体系,完全一致。

热心网友
05.29
ElevenLabs Music v2发布 一曲多变与商业版权全授权
AI资讯
ElevenLabs Music v2发布 一曲多变与商业版权全授权

或许有人觉得,AI音乐生成工具不过是图个新鲜感,与专业音乐制作相距甚远。但5月28日,ElevenLabs推出的Music v2,很可能改变这一印象。这次升级版音乐生成模型,已不再停留在去年那个“新手友好”的初级阶段,而是在工作流、版权合规和落地场景上都做了充分布局。 一、核心进化:创作从“一次性生

热心网友
05.29
iPhone20外观重大调整:四曲屏配圆润边框
业界动态
iPhone20外观重大调整:四曲屏配圆润边框

iPhone20周年纪念款将采用四曲面屏与圆润边框设计,边框仅1 1毫米,但边缘亮度存在失真问题,苹果正与三星、LG合作解决。若无法攻克,可能沿用平面边框。该款预计2027年亮相,属于Pro系列,含双版本,并计划采用屏下前摄与FaceID。

热心网友
05.29
播面让你像听歌一样高效刷面试题
AI教程
播面让你像听歌一样高效刷面试题

对于技术从业者而言,面试备考始终是一个老生常谈却又不断变化的话题。时间碎片化、知识点庞杂、实战表达欠缺,每一项都可能成为关键时刻的瓶颈。有没有一种方法,能让我们把通勤、运动等零散时间充分利用起来,高效地“打磨技能”呢?今天要介绍的「播面」,或许就是一个值得关注的解题新思路。 播面是什么 简单来说,「

热心网友
05.29