首页 游戏 软件 资讯 排行榜 专题
首页
AI
雷军千万年薪招揽的DeepSeek作者,究竟是何方神圣?

雷军千万年薪招揽的DeepSeek作者,究竟是何方神圣?

热心网友
29
转载
2025-10-17

10月14日,小米与北京大学联合署名的论文正式发表于arXiv预印本平台。此前曾被曝以千万年薪被小米创始人兼CEO雷军招募的DeepSeek“天才少女”罗福莉,出现在这篇论文的通讯作者名单中。但值得注意的是,论文作者名单中并未明确标注罗福莉属于小米大模型团队。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

小米 AI 新论文,雷军千万年薪要挖的 DeepSeek 罗福莉署名

通讯作者中的罗福莉是95后年轻学者,她本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学研究所计算语言学专业。罗福莉曾在阿里巴巴达摩院主导开发了多语言预训练模型VECO,并推动了AliceMind的开源工作。2024年她加入DeepSeek,参与了MoE大模型DeepSeek-V2的研发工作。去年年底,小米被曝以千万年薪从DeepSeek-V2核心开发团队中招募罗福莉,这一消息一度登上热搜引发广泛关注,但至今双方都未公开声明是否正式入职小米。

小米 AI 新论文,雷军千万年薪要挖的 DeepSeek 罗福莉署名

▲ DeepSeek“天才少女”罗福莉(图源:罗福莉个人公众号)

这篇创新论文提出了提升MoE模型强化学习训练效果的新方法——Rollout Routing Replay(简称R3)。实验结果证明,R3的整体性能优于GRPO、TIS这类强化学习领域优化模型性能的算法,且引入R3的所有组合方法在训练全程均未出现崩溃,训练过程中训练-推理KL散度等关键指标始终维持在较低水平,在不影响训练速度的情况下,使得极端token比例减少了一个数量级。

当前,强化学习已成为提升大语言模型核心能力的关键技术路径。然而在MoE模型中,路由机制往往容易引入不稳定性,甚至导致强化学习训练崩溃,而现有的引入重要性采样机制等方法并不能显著提升训练稳定性。与此前采取丢弃差异较大的数据之类的变通方法不同,这篇论文的研究人员期望通过解决路由分布差异——也就是R3方法来根本性解决这一问题。

论文地址:https://arxiv.org/pdf/2510.11370

01.破解强化学习崩溃的关键方法,小米团队提出R3

强化学习已成为大语言模型后期训练过程中不可或缺的核心技术,利用大规模强化学习能够使大模型更深入、更广泛地进行推理,从而获得解决复杂问题所需的高级能力。但其面临的核心挑战在于如何平衡训练效率与模型稳定性。

现代强化学习框架通常使用不同的推理引擎和训练引擎,但这种架构上的分离可能导致token概率分布出现分歧,甚至可能引发灾难性的训练崩溃。然而现有的改进方法并不能完全解决MoE模型上进行强化学习训练时出现的策略差异问题。

研究人员提出的R3方法,其工作原理是在序列生成期间从推理引擎捕获路由分布,并将其直接回放到训练引擎中。这一过程可以有效缩小训练和推理阶段的路由行为差异,其显著特征是两个引擎生成的逻辑向量的KL散度(量化两个概率分布之间差异程度的指标,值越小说明两个分布越接近)显著降低,两阶段之间概率差异显著的token数量减少了大约一个数量级。

此外,该方法可同时适用于在线策略(on-policy)和小批量离线策略强化学习场景。

论文提到了研究团队的三大主要贡献:

1、系统识别和分析了MoE模型中训练和推理之间的路由分布差异,强调了它们在训练不稳定性中的作用;

2、提出Rollout Routing Replay方法,该方法重用训练引擎内部的前向传播过程中的路由分布,以协调训练和推理之间的路由行为;

3、将R3应用于多种强化学习设置进行MoE强化学习,并表明R3在稳定性和整体性能方面优于GSPO和TIS方法。

02.可显著缩小训练-推理差异,对Agent任务大有裨益

R3的核心思路是在训练前向传播过程中重用推理路由掩码I,同时仍将softmax应用于训练逻辑以保持梯度流。

这种设计主要有两个目的:一是对齐训练和推理,确保训练回放期间使用的专家与推理期间选择的专家相匹配,从而消除专家选择中的不匹配;二是保留梯度数据流,通过仅回放掩码,梯度仍然可以流回logits而不会干扰计算图,这有助于更有效地优化路由器。

具体来看,R3在效率优化上,通过路由掩码缓存机制适配多轮对话场景,降低计算开销。

其论文提到,缓存的路由掩码具有相似的属性,对于相同的前缀token,MoE路由器应该产生相同的结果,因此来自推理引擎的路由掩码可以与KVCache一起缓存,从而无缝集成到现有推理框架中。

对于每个层级和token前缀,相应的路由掩码都存储在KVCache中。当相同的前缀出现并命中缓存时,这些掩码可以被重用,从而无需重新计算,这使得R3能够与现有前缀缓存机制无缝集成。

小米 AI 新论文,雷军千万年薪要挖的 DeepSeek 罗福莉署名

▲ 重用门控权重、重用输出y的计算方式

研究人员表示,缓存路由掩码在Agent场景中有较大应用空间。例如软件工程和网页浏览等Agent任务,都涉及自回归生成和工具调用之间的多轮交互。为了提高效率,这些过程会直接重用前几轮的KVCache,因此无需重新生成已计算的数据。

为了验证R3在缩小训练-推理差异上的有效性,研究人员使用Qwen3-30B-A3B模型进行了验证,其在推理过程中获得的路由分布缓存在SGLang上,并在Megatron框架内回放它们。

小米 AI 新论文,雷军千万年薪要挖的 DeepSeek 罗福莉署名

▲ 使用Megatron进行两次前向传播获得的概率

结果表明,应用R3后,训练和推理之间的KL散度从1.5×10³显著减小到7.5×10⁻⁴水平,接近于稠密模型的6.4×10⁻⁴水平,这表明其训练-推理差异显著减小。

研究人员还绘制了使用R3的训练-推理差异比率累积分布图,对于MoE模型,应用R3可将具有较大训练-推理差异的token频率降低一个数量级。

小米 AI 新论文,雷军千万年薪要挖的 DeepSeek 罗福莉署名

▲ a、MoE 模型中训练-推理差异的说明,b、MoE+R3 模型中训练-推理差异的说明,c、稠密模型中训练-推理差异的说明,d、极端token分布函数

03.实测三大能力提升:整体性能、训练稳定、优化生成行为

为了评估R3对强化学习训练的性能改进效果,研究人员从BigMath、ORZ等开源数据集中筛选约10万道可验证数学题,采用AIME24、AIME25、AMC23和MATH500作为基准数据集进行评估,并在单次训练过程中每5个全局步骤测量一次模型性能。

其选择的模型是Qwen3-30B-A3B-Base及其微调模型Qwen3-30B-A3B-SFT。

评估方式是每5个全局步骤记录模型性能,最终报告最佳性能及对应训练步骤,若模型后期性能下降,则同时追踪训练崩溃步骤。

实验结果表明,在整体性能方面,R3在多步更新场景中表现优异,GRPO+R3平均得分68.05分,比GSPO高出1.29分;GSPO+R3进一步提升至69.00分,比单独使用GSPO高出2.24分。

在单步更新场景中,SFT模型上,GRPO+R3平均得分71.83分,比GRPO(62.23分)高出9.6分,比GRPO+TIS(66.24分)高出5.59分;Base模型上,GRPO+R3平均得分70.73分,比GRPO(61.69分)高出9.04分。

小米 AI 新论文,雷军千万年薪要挖的 DeepSeek 罗福莉署名

▲ 主要评估结果

研究人员还发现,将R3与TIS结合使用并不能带来明显的性能提升,甚至可能会降低性能。例如在SFT模型单步设置中,TIS+R3的得分比单独使用R3低1.69分。由于R3本身已经显著降低了训练和推理之间的策略差异,因此TIS的额外校正效果微乎其微。

在训练稳定性方面:如GRPO、GRPO+TIS等未加入R3的方法在单步更新场景中均出现了训练崩溃——GRPO在第60步崩溃、GRPO+TIS在第105步崩溃。

引入R3后,所有组合方法均无崩溃,且训练过程中训练-推理KL散度等指标始终保持在较低水平。

小米 AI 新论文,雷军千万年薪要挖的 DeepSeek 罗福莉署名

▲ 多步更新训练崩溃分析

在优化与生成行为方面,R3还能增强优化稳定性、探索行为和生成动态。下图是研究人员绘制的基础模型组训练过程中的序列长度、梯度范数、生成熵和评估分数。

小米 AI 新论文,雷军千万年薪要挖的 DeepSeek 罗福莉署名

▲ wen3-30B-A3B-Base 训练动态

结果显示,R3具有更小的梯度范数、更平滑的序列增长模式和更稳定的熵值变化。实验中使用R3时,生成的序列长度在训练开始后迅速上升,表明R3能够快速捕捉到正确的优化方向,相比之下其他两个训练过程在第80步后才缓慢上升,并且波动更为明显;同时R3始终保持着较低的梯度范数,表明优化过程更加稳定;此外,熵值在大约第25步后开始稳步上升,表明较早地开始探索策略,在不使用R3时,熵值上升更晚,并且波动较大。

04.结语:聚焦MoE模型训练难题,小米提出新思路

MoE架构如今已成为扩展现代语言模型容量的关键技术基石,其采用门控网络稀疏地激活部分专家参数,从而将模型的总参数量与推理成本分离开来,进而大幅提升了模型容量。然而,由于门控网络的敏感性,MoE模型容易受到训练不稳定性的影响,这使得路由稳健性成为模型收敛的核心挑战。

在这篇创新论文中,研究人员在训练过程中重用推理阶段的路由分布,既在保留梯度流的同时对齐专家选择。这种研究思路或许能为行业提供新的研究方向。

本文来自微信公众号:智东西(ID:zhidxcom),作者:程茜,原标题《小米AI新论文!雷军千万年薪要挖的DeepSeek天才少女署名》

来源:https://www.ithome.com/0/889/899.htm
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

美国SEC主席Paul Atkins证实:加密货币安全港提案已送交白宫审查
web3.0
美国SEC主席Paul Atkins证实:加密货币安全港提案已送交白宫审查

加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这

热心网友
04.08
微策略Strategy报告:第一季录得144.6亿美元浮亏 再斥资约3.3亿美元买进4871枚比特币
web3.0
微策略Strategy报告:第一季录得144.6亿美元浮亏 再斥资约3.3亿美元买进4871枚比特币

微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿

热心网友
04.08
稳定币发行商Tether再扩Web3版图!Paolo Ardoino:正开发去中心化搜索引擎Hypersearch
web3.0
稳定币发行商Tether再扩Web3版图!Paolo Ardoino:正开发去中心化搜索引擎Hypersearch

稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D

热心网友
04.08
Base链首个原生DeFi借贷协议Seamless Protocol倒闭 将于2026年6月30日下线
web3.0
Base链首个原生DeFi借贷协议Seamless Protocol倒闭 将于2026年6月30日下线

基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一

热心网友
04.08
PAAL代币如何参与治理?社区投票能决定哪些事项?
web3.0
PAAL代币如何参与治理?社区投票能决定哪些事项?

PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票

热心网友
04.08