首页 游戏 软件 资讯 排行榜 专题
首页
AI
MIT全新RandOpt算法,破解大模型训练久耗痛点

MIT全新RandOpt算法,破解大模型训练久耗痛点

热心网友
44
转载
2026-03-16

只需向模型添加高斯噪声,性能就能比肩甚至超越GRPO/PPO等经典调参算法。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

MIT新论文向大家都在头疼的“调参”开炮了!

为了将预训练模型变成某一任务领域专家,无数人夜以继日,纷纷掉发。

然而现在,一对来自MIT的师生用一篇新论文告诉大家:

不用复杂调参,随机改改参数再整合结果,模型效果就能和GRPO/PPO等专业调参方法差不多。



在这篇论文诞生前,我们熟悉的论调是:专家模型是训练出来的。

甭管是靠梯度下降还是强化学习,都得一步一个脚印慢慢优化参数。

但这篇论文却揭示,专家模型早就存在,只是藏在权重空间里,预训练模型的真实形态be like:

专家模型像灌木一样密密麻麻长在周围。(即论文提到的“Neural Thickets(神经丛林)”现象)



△注:以上为AI生成,非论文内容

就是说,只要在预训练权重附近稍微扰动一下参数,就可能“碰到”一个新的任务专家。

基于此,作者进一步提出了一种非常简单的方法RandOpt:

只需向大语言模型添加高斯噪声(单步操作——无需迭代、无需学习率、无需梯度),然后将它们集成起来,就能在数学推理、编程、写作和化学任务上取得与标准GRPO/PPO相当甚至更优的性能。



而且作者发现,模型越大,效果越好。

预训练模型周围藏着“神经丛林”

简单来说,论文给出了一个反直觉的结论——

预训练模型周围早就存在大量“专家模型”。

在权重空间里,能解决不同任务的模型并不是零散分布的,而是密集地“长”在预训练权重附近。

所以理论上,并不一定需要复杂的训练过程,只要在这片区域里多试几次,就有机会找到表现不错的任务专家。

听到这里,估计很多人的反应是:啊这,难道这不就是靠猜、靠试吗?

没错,还真就是靠猜。

一直以来,随机猜测都被认为是不够靠谱的机器学习算法,比如随机猜出ChatGPT的参数向量,概率几乎为零。

但论文发现,到了预训练模型这里情况就变了——

模型权重周围,能提升任务表现的参数扰动变得很密集,所以随机猜测也能找到有效改进方案。



在论文中,作者对预训练的Qwen2.5模型(0.5B~32B)施加了1000次随机权重扰动,并通过随机投影将其投影到二维平面。

结果发现,模型越大,周围“高精度区域”越密集;小模型扰动后大多性能下降(蓝色区域),而大模型周围随处可见性能提升的“专家”(红色区域)。

换言之,模型越大,这种扰动效果越明显、越起作用。



而且需要注意,这些随机扰动最后带来的不是“全能选手”,而是“偏科战神”。

实验显示,没有任何一个随机改动能让模型在所有任务上都实现提升。例如,某一个改动能让模型数学算得更准,但写代码会变菜;另一个改动能让模型化学题做得好,但写故事不行。

并且同样的,模型越大,这种偏科越明显。



至于模型为啥会出现这种“周围偷偷藏一堆高手”的现象,论文也通过一个极简实验给出了初步解释。

他们选用了结构最简单、最容易看懂的1D信号自回归模型,让其学习预测一段时间序列信号的下一个数值。

结果出现了三种情况:

无预训练:不论怎么添加扰动,模型周围都完全找不到可以提升性能的改动,随机猜测无意义;单一任务预训练:模型只能把经过预训练的任务做到极致,参数周围不会冒出其他优质改动;多任务混合预训练:模型参数周围瞬间布满能提升性能的扰动,随便加个小改动,就能解锁擅长某类信号预测的专项能力,成功复刻“神经丛林”的密集状态。



由此论文得出核心结论,“神经丛林”现象的诞生,关键就在于大模型的海量多任务预训练。

换言之,正因为底子够足,所以周围很容易找到可以随机扰动的“专家”。

启发了RandOpt算法

而上述研究,也启发论文作者提出了一种新的算法,RandOpt。

RandOpt的运行机制可以分成简单两步:随机找高手+组队投票。

“随机找高手”就和前面提到的类似,给预训练模型的参数随机做N次扰动,然后就会得到N个“新版本模型”。

再用少量验证数据简单测一测这些模型,我们就能找出其中表现最好的K个。

拿到这K个模型后,接下来进入实战推理阶段——

让这K个“高手”各自回答问题,最后按“少数服从多数”的原则决定最终结果。

整个过程有两个值得注意的点:

一是在添加扰动sigmas(即噪声强度)时,RandOpt会尝试不同强度的噪声(比如小扰动、中扰动、大扰动),以确保能找到各种类型的专家。

二是这N个模型可以同时在多块GPU上运行,速度很快。



当然了,论文也试着用不同模型测试了这一新算法。

初步结果显示,对于纯语言大模型,在数学、编程、写故事、化学等任务上,RandOpt的准确率和现在主流的专业调参方法(PPO/GRPO/ES)差不多,有的甚至更高。



而对视觉-语言模型来说, RandOpt的提升作用则更加明显,准确率直接从56.6%涨到69.0%。



与此同时,除了语言和视觉-语言模型,论文也在图像扩散模型中观察到了类似的“神经丛林”现象——

参数空间的某些特定区域会倾向于生成具有特定色调或视觉风格的图像。



以及论文作者提醒,RandOp在以下情况下效果更佳:

随机改的次数越多,挑的“高手”越厉害。模型越大,RandOpt效果越好。

论文作者介绍

最后介绍一下这项研究的两位作者。



Yulu Gan,北大工程硕士,目前是MIT计算机科学与人工智能实验室(CSAIL)的博士生。

此前曾在微软实习,研究方向主要为多模态大语言模型、推理、多智能体系统以及AI for science。



另一位作者Phillip Isola是他的导师,现任MIT电子工程与计算机科学系副教授。

Phillip Isola在加州大学伯克利分校做完博士后研究后,曾在2017年以技术人员的身份加入OpenAI。

不过干了不到一年,后面又去谷歌当了一年访问学者。

再然后就是回到读研时的母校MIT,任教至今。

Phillip Isola的主要研究方向为AI基础理论和计算机视觉,曾参与提出pix2pix、LPIPS感知损失等经典工作,谷歌学术论文被引量超10w+。



通过本次研究,师徒二人想重新告诉大家:

是时候重新认识预训练模型了,它不只是“一个能用的模型”,更是“一堆高手的集合”。

只要预训练做得足够好,后续想让模型干好具体任务,根本不用复杂调参,像RandOpt这样随机改改、组队投票就行,省时间省算力。



不过缺点也很明显,大致呢有下面这几个:

依赖优质预训练,这是一个基本大前提。模型只能基于预训练数据找改进,无法让模型学会新技能。K越大效果越好,但推理时要跑K个模型,虽然蒸馏能缓解,但蒸馏不适用于所有场景(比如生成式任务)。只适合有明确答案的任务,像写故事、设计分子这种结构化生成任务,还需要进一步改进集成方式。



目前相关论文和代码已公开,感兴趣可以继续关注。

论文:
https://arxiv.org/pdf/2603.12228
GitHub:
https://github.com/sunrainyg/RandOpt
项目主页:
https://thickets.mit.edu/

来源:https://www.163.com/dy/article/KO5BMP5U0511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

龙虾之后的大模型共识困境与未来趋势
科技数码
龙虾之后的大模型共识困境与未来趋势

出品|虎嗅科技组作者|宋思杭编辑|苗正卿头图|中关村论坛现场上一次智谱AI与月之暗面同台,还是在1月10日。那天是智谱通过港交所聆讯后的第三天,一个周六,在中关村国际创新中心举行了一场名为AGI-N

热心网友
03.28
摩根大通:AI模型能力成中国市场竞争核心,需求加速扩张
科技数码
摩根大通:AI模型能力成中国市场竞争核心,需求加速扩张

中国人工智能基础模型行业正步入商业化加速阶段。摩根大通认为,随着模型质量持续改善并开始转化为更快的需求增长,大模型能力将决定定价权,较强与较弱公司之间的差距将日益扩大。据追风交易台,3月27日摩根大

热心网友
03.27
迅策科技:业绩猛增背后的价值重估机遇与关键驱动
科技数码
迅策科技:业绩猛增背后的价值重估机遇与关键驱动

今年3月,AI圈最热闹的话题莫过于“Token”与“龙虾”。这不是代币与餐桌上的海鲜,而是AI时代的计价单位,以及一批以Open Claw为代表的AI操作系统,它们像当年的Windows一样,试图成

热心网友
03.27
阿里林俊离职首文:AI迈向智能体式思考新阶段
科技数码
阿里林俊离职首文:AI迈向智能体式思考新阶段

AI正在走向“为了采取正确行动而思考”。编译整理|莘歆来源 | 盒饭财经(ID:daxiongfan)头图及封面来源 | 网络及即梦制作在X(推特)上宣布离职后的22天,林俊旸发了一篇长文。3月2

热心网友
03.27
对标英伟达EgoScale:清华系星忆科技首轮融资突围
科技数码
对标英伟达EgoScale:清华系星忆科技首轮融资突围

文|任倩具身数据层的全球竞赛正在迅速升温。NVIDIA Research在2026年发布EgoScale数据与训练框架,在Ego-centric人类操作视频上训练VLA模型,用 20,854小时带动

热心网友
03.27

最新APP

你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25
诸神皇冠
诸神皇冠
棋牌策略 03-25

热门推荐

悟空浏览器下载记录查看与管理全攻略
电脑教程
悟空浏览器下载记录查看与管理全攻略

可通过五种方式查看悟空浏览器下载记录:一、内置下载管理器;二、系统通知栏跳转;三、“我的”页面入口;四、文件管理器访问默认目录Download wukong;五、全局搜索文件名。如

热心网友
03.28
俞敏洪直播带货面膜引热议,网友直呼看懵了
科技数码
俞敏洪直播带货面膜引热议,网友直呼看懵了

3月27日消息,有网友晒出他直播的片段,63岁、身家121亿早就财富自由的俞敏洪,居然在直播间里亲自带面膜。两个助理加上自己,手忙脚乱搞了半天,总算把面膜糊上脸了。旁边的小姐姐都憋笑不停,完了俞敏洪

热心网友
03.28
抢先试驾新款MONA M03:体验舒适与智能双升级
科技数码
抢先试驾新款MONA M03:体验舒适与智能双升级

今早,小鹏汽车官宣2026款小鹏MONA M03全面到店并开启试驾。作为品牌10万级纯电轿车的核心走量担当,MONA M03常年稳居细分市场销量前列,这一次改款看点十足。【P1】废话不多说,一起来看

热心网友
03.28
罗技一句话引争议!品牌道歉背后的问题与应对策略
科技数码
罗技一句话引争议!品牌道歉背后的问题与应对策略

最近的热搜是一个接着一个来,前有罗永浩邀请杨笠上播客被骂,现有瑞士知名鼠标品牌罗技“自砍一刀”。小雷估计大家伙都刷到视频了吧,那配文真的是不堪入目。“当我说我不会再花一分钱时,我一降价,你还不是像狗

热心网友
03.28
董明珠斥年轻人躺平引热议,2000亿业绩下滑谁之过?
科技数码
董明珠斥年轻人躺平引热议,2000亿业绩下滑谁之过?

3月26日,董明珠在香港科技大学分享会上演讲,本来是聊年轻人怎么帮中国品牌出海,后来现场有同学提问,未来毕业生的年轻人,怎么帮格力和其他中国品牌走向世界。估计是董明珠觉得这次不好回答,于是她把话题拐

热心网友
03.28