雷军如何在大模型领域为马斯克提供新思路

首页

业界动态

雷军如何在大模型领域为马斯克提供新思路

热心网友

转载

2026-05-14

14亿月活用户的庞大基数，让微信任何细微更新都可能被放大审视：灰度测试导致“新功能在哪儿”的困惑，众口难调使得“好用”与“极简”难以平衡，用户习惯被改变后的不适感，以及“改了跟没改区别不大”的隔靴搔痒感。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

在小米正式发布MiMo-V2-Pro大模型之后，一个有趣的名字首先跃入脑海——不是雷军，而是马斯克。

原因在于，他旗下的xAI眼下正面临一个颇为尴尬的局面。这家2023年成立的公司，融资规模超过500亿美元，联合创始团队更是汇聚了来自OpenAI、DeepMind、微软及谷歌大脑的顶尖人才。

其最新的Grok 4.20 Beta版本，甚至引入了一个四智能体并行的多智能体架构，通过Grok、Harper、Benjamin、Lucas这四个内部智能体进行辩论，以期提升答案质量。

结果如何？

在Artificial Analysis Intelligence Index的评测中，Grok 4.20 Beta仅获得48分。反观小米的MiMo-V2-Pro，则拿到了49分。

小米大模型Core团队的首次亮相是在2025年4月30日，初代MiMo参数量仅为7B，在当时看来多少有些“玩具级”的意味。

然而，这款模型在数学推理和代码生成上却击败了OpenAI的o1-mini，算是小米在AI赛道上打响的第一枪。

随后，小米以匿名代号“Hunter Alpha”悄然上线OpenRouter平台，一周之内，其调用量便凭借自然增长冲至日榜第一，总量突破1T tokens。全球开发者在不知品牌的情况下用脚投票，之后小米公众号才在深夜发文确认：“对，这是小米做的。”

单论大模型这场竞赛，马斯克或许真该向雷军取取经。

MiMo-V2-Pro 凭什么站上牌桌

从业务启动时间看，雷军实际上比马斯克还晚了一年。

2023年4月，雷军推动成立了小米AI实验室大模型团队，由栾剑担任首任负责人。不过，当时团队聚焦的AI方向，与我们今天谈论的大语言模型和智能体并非完全一回事。

直到2024年底、2025年初，小米才正式成立了专注于通用基础大模型的Core团队。

这个团队同样由雷军亲自挂帅、全力推动，并且公司对这项业务的投入不设上限。

如果仅从架构层面审视，MiMo-V2-Pro似乎并无太多令人眼前一亮之处。1T参数、42B激活参数、100万token上下文长度，这些指标放在今天已不算稀奇。

它所采用的MoE（混合专家）架构、混合注意力机制以及MTP（多token预测）等技术，也都是DeepSeek、谷歌等同行正在使用的通用方案。

真正让这个模型与众不同的，在于其后训练阶段的三项核心技术。

第一项是MOPD，全称Multi-Teacher On-Policy Distillation，即多教师在线策略蒸馏。这是小米在MiMo-V2-Flash技术报告中首次提出的后训练范式。

要理解MOPD的价值，得先看清它要解决的行业痛点。

大模型后训练存在一个通病，常被称为“跷跷板效应”。简单说，就是当你把模型的数学能力练强时，它的代码能力往往会退化；当你着力提升其智能体能力时，通用对话质量又可能下降。

这并非某个团队的技术短板，而是整个产业共同面临的挑战。

目前业界较为认可的应对思路主要有两种。第一种是训练多个领域专家模型，然后尝试通过参数合并将其融合。但这种方法的效果往往不尽如人意。

另一种则是让专家模型生成大量离线数据，再供学生模型学习。然而，这种方式存在严重的“分布偏移”问题。学生模型只学会了模仿教师的答题套路，并未建立自己的思考框架，一旦遇到教师数据未覆盖的新场景，就容易失灵。

MOPD的解决方案分为三个阶段。第一阶段是通用SFT，使用高质量指令数据进行基础微调，激活模型的指令跟随能力，这一步属于常规操作。

第二阶段是分别训练多个领域的专家教师，例如代码智能体教师、搜索智能体教师、数学推理教师、安全对齐教师等。每位教师只需在自己领域做到极致，无需兼顾其他。

第三阶段是关键创新：让学生模型自己生成回答，同时接受来自多位教师的token级实时监督。学生从自身的数据分布中采样，接收两类奖励信号：一是来自各领域教师的KL散度奖励（指导“这个字应该怎么写”），二是可验证的结果奖励（判断“最终答案对不对”）。

根据小米公布的数据，经过MOPD训练的学生模型，在AIME 2025数学竞赛中达到了94.1分，不仅保持了最强数学教师的水平，甚至在部分项目上实现了反超。

第二项是真实环境的智能体强化学习训练。

尽管当前几乎所有大模型都会强调自身的智能体能力，但绝大多数模型在强化学习阶段，其实并未真正围绕智能体特性进行设计。

传统的流程是：模型看到一道题，输出一个答案，核对答案后获得奖励。整个过程是单轮的、封闭的。

但现实世界的任务远非如此。

一个真正的智能体需要经历读取代码、修改bug、运行测试、查看报错、再次修改、再次测试的完整循环。

为此，小米构建了一套覆盖四大类场景、总计超过12万个真实交互环境的智能体训练体系。

代码智能体的训练数据源自真实的GitHub Issues，模型需要在智能体循环中执行读取文件、修改代码、运行命令、查看测试结果等一系列动作，其奖励直接来自于可验证的单元测试通过与否。

终端智能体则从Stack Overflow和Stack Exchange中筛选出需要高级技术专长的问题，并将其转化为带有完整Docker环境和测试用例的计算任务。

网页开发智能体利用Playwright执行生成的代码并录制操作视频，再通过多模态视觉判别器评估生成质量——之所以采用视频而非静态截图，是因为视频能更准确地捕捉交互动画和响应式布局等动态特性。

此外，通用智能体还覆盖了搜索和函数调用两大方向。

这样训练带来的一个显著收益是：在多样化的智能体环境中增加强化学习计算量，其效果能够泛化到数学推理、通用推理等其他任务上。这意味着，智能体训练培养的并非某项特定技能，而是一种通用的、可迁移的问题解决能力。

打个比方，别的大模型可能是在教室里反复做模拟卷，而MiMo-V2-Pro则是直接被扔进多个真实的工作场景里“实习”，做错了会有真实的测试结果立刻指出错误所在。

“实习”锻炼出来的模型，在处理复杂、动态问题时，显然比单纯“刷题”练出来的更懂得如何拆解与应对。

第三项是ARL-Tangram，这是小米与北京大学计算机学院联合研发的智能体强化学习训练基础设施系统，也是罗福莉作为通讯作者参与的研究成果。

如果说MOPD和智能体强化学习解决的是“怎么训练”的方法论问题，那么ARL-Tangram解决的则是“用什么训练”的效率问题。

智能体训练需要频繁调用外部资源：代码执行需要CPU，奖励模型需要GPU，网页搜索需要API配额。传统的强化学习框架通常采用静态资源预留策略，为每一条训练轨迹分配一套固定资源并全程占用。

这就导致了一个问题：即使某个任务暂时不需要资源，这条通道也被闲置占用，其他任务无法使用。

ARL-Tangram的实测数据揭示了资源浪费的严重性。在AI编程任务中，外部资源平均只有47%的时间处于活跃使用状态，剩余53%完全闲置。

在MOPD训练场景中，情况更为夸张：12个教师模型各自占用着一组GPU提供奖励服务，但这些GPU的平均流式多处理器活跃率竟不到3%，相当于97%的算力在空转。

ARL-Tangram的设计哲学，深刻继承了小米“性价比之王”的基因，其核心思路在于精细化资源管理，让每一份算力都产生最大价值。

它将每次外部调用视为一个原子动作，动作一旦结束，所占用的资源立即释放，供其他训练轨迹使用。

实测效果令人印象深刻：动作完成时间最高提升4.3倍，强化学习训练步骤时间加速最高达1.5倍，外部资源消耗降低了71.2%。

这意味着，同样的硬件投入，能够支撑起远超以往的模型训练量。

雷军在V2-Pro发布当天的微博中写道：“我们在 AI 领域上相对比较低调，实际进展可能比大家看到的要快很多。”这句话，或许正是对其技术路径与工程效率自信的含蓄表达。

与此同时，特斯拉车辆座舱内的控制AI，实际上主要源于特斯拉自研技术，与xAI的关系并不大。

2026年3月，马斯克宣布了一项名为“Digital Optimus”的联合项目，旨在让Grok充当“高层推理大脑”。

他借用卡尼曼的双系统理论来类比：Grok是负责慢思考的System 2，而特斯拉AI则是负责快速反应的System 1，即实时感知与动作执行。

然而，仅从公开构想来看，二者之间的协同路径，似乎不如小米“云端大模型蒸馏到车端小模型”的技术路线来得清晰与直接。

MiMo-V2-Pro 的挑战与审视

站在行业观察的视角，任何技术的突破都值得审视。因此，我们不妨也来看看MiMo-V2-Pro可能面临的一些挑战。

首先关注基准测试。

MiMo-V2-Pro公布的SWE-bench Verified得分为78.0%，接近Claude 4.6 Sonnet的79.6%。这份主要评估AI编程能力的测试成绩，看起来确实不错。

但这里涉及一个行业内已近乎公开的秘密：SWE-bench Verified这个测试集本身的可靠性正在受到严重质疑。

OpenAI的Frontier Evals团队在2026年2月23日明确指出，SWE-bench Verified“实际上已经饱和且被高度污染”，并建议行业转向难度更高的SWE-bench Pro。

OpenAI的研究人员发现，包括GPT-5.2、Claude Opus 4.5和Gemini 3 Flash Preview在内的多个前沿模型，仅凭SWE-bench Verified的题目ID，就能复述出原始的“黄金补丁”。这相当于在考试中，考生不看题目内容，仅凭题号就能给出正确答案。

这强烈暗示，测试题目很可能已经泄露并进入了模型的训练数据。在这样一个已被污染的测试集上取得高分，其说服力自然大打折扣。

———— / E N D / ————

来源:https://www.aixq.cc/14918.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：2026年哪家AI公司最快面临倒闭危机下一篇：钉钉飞书开源命令行工具主动适配AI生态发展