雷军如何在大模型领域为马斯克提供新思路
14亿月活用户的庞大基数,让微信任何细微更新都可能被放大审视:灰度测试导致“新功能在哪儿”的困惑,众口难调使得“好用”与“极简”难以平衡,用户习惯被改变后的不适感,以及“改了跟没改区别不大”的隔靴搔痒感。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
在小米正式发布MiMo-V2-Pro大模型之后,一个有趣的名字首先跃入脑海——不是雷军,而是马斯克。
原因在于,他旗下的xAI眼下正面临一个颇为尴尬的局面。这家2023年成立的公司,融资规模超过500亿美元,联合创始团队更是汇聚了来自OpenAI、DeepMind、微软及谷歌大脑的顶尖人才。
其最新的Grok 4.20 Beta版本,甚至引入了一个四智能体并行的多智能体架构,通过Grok、Harper、Benjamin、Lucas这四个内部智能体进行辩论,以期提升答案质量。
结果如何?
在Artificial Analysis Intelligence Index的评测中,Grok 4.20 Beta仅获得48分。反观小米的MiMo-V2-Pro,则拿到了49分。
小米大模型Core团队的首次亮相是在2025年4月30日,初代MiMo参数量仅为7B,在当时看来多少有些“玩具级”的意味。
然而,这款模型在数学推理和代码生成上却击败了OpenAI的o1-mini,算是小米在AI赛道上打响的第一枪。
随后,小米以匿名代号“Hunter Alpha”悄然上线OpenRouter平台,一周之内,其调用量便凭借自然增长冲至日榜第一,总量突破1T tokens。全球开发者在不知品牌的情况下用脚投票,之后小米公众号才在深夜发文确认:“对,这是小米做的。”
单论大模型这场竞赛,马斯克或许真该向雷军取取经。
MiMo-V2-Pro 凭什么站上牌桌
从业务启动时间看,雷军实际上比马斯克还晚了一年。
2023年4月,雷军推动成立了小米AI实验室大模型团队,由栾剑担任首任负责人。不过,当时团队聚焦的AI方向,与我们今天谈论的大语言模型和智能体并非完全一回事。
直到2024年底、2025年初,小米才正式成立了专注于通用基础大模型的Core团队。
这个团队同样由雷军亲自挂帅、全力推动,并且公司对这项业务的投入不设上限。
如果仅从架构层面审视,MiMo-V2-Pro似乎并无太多令人眼前一亮之处。1T参数、42B激活参数、100万token上下文长度,这些指标放在今天已不算稀奇。
它所采用的MoE(混合专家)架构、混合注意力机制以及MTP(多token预测)等技术,也都是DeepSeek、谷歌等同行正在使用的通用方案。
真正让这个模型与众不同的,在于其后训练阶段的三项核心技术。
第一项是MOPD,全称Multi-Teacher On-Policy Distillation,即多教师在线策略蒸馏。这是小米在MiMo-V2-Flash技术报告中首次提出的后训练范式。
要理解MOPD的价值,得先看清它要解决的行业痛点。
大模型后训练存在一个通病,常被称为“跷跷板效应”。简单说,就是当你把模型的数学能力练强时,它的代码能力往往会退化;当你着力提升其智能体能力时,通用对话质量又可能下降。
这并非某个团队的技术短板,而是整个产业共同面临的挑战。
目前业界较为认可的应对思路主要有两种。第一种是训练多个领域专家模型,然后尝试通过参数合并将其融合。但这种方法的效果往往不尽如人意。
另一种则是让专家模型生成大量离线数据,再供学生模型学习。然而,这种方式存在严重的“分布偏移”问题。学生模型只学会了模仿教师的答题套路,并未建立自己的思考框架,一旦遇到教师数据未覆盖的新场景,就容易失灵。
MOPD的解决方案分为三个阶段。第一阶段是通用SFT,使用高质量指令数据进行基础微调,激活模型的指令跟随能力,这一步属于常规操作。
第二阶段是分别训练多个领域的专家教师,例如代码智能体教师、搜索智能体教师、数学推理教师、安全对齐教师等。每位教师只需在自己领域做到极致,无需兼顾其他。
第三阶段是关键创新:让学生模型自己生成回答,同时接受来自多位教师的token级实时监督。学生从自身的数据分布中采样,接收两类奖励信号:一是来自各领域教师的KL散度奖励(指导“这个字应该怎么写”),二是可验证的结果奖励(判断“最终答案对不对”)。
根据小米公布的数据,经过MOPD训练的学生模型,在AIME 2025数学竞赛中达到了94.1分,不仅保持了最强数学教师的水平,甚至在部分项目上实现了反超。
第二项是真实环境的智能体强化学习训练。
尽管当前几乎所有大模型都会强调自身的智能体能力,但绝大多数模型在强化学习阶段,其实并未真正围绕智能体特性进行设计。
传统的流程是:模型看到一道题,输出一个答案,核对答案后获得奖励。整个过程是单轮的、封闭的。
但现实世界的任务远非如此。
一个真正的智能体需要经历读取代码、修改bug、运行测试、查看报错、再次修改、再次测试的完整循环。
为此,小米构建了一套覆盖四大类场景、总计超过12万个真实交互环境的智能体训练体系。
代码智能体的训练数据源自真实的GitHub Issues,模型需要在智能体循环中执行读取文件、修改代码、运行命令、查看测试结果等一系列动作,其奖励直接来自于可验证的单元测试通过与否。
终端智能体则从Stack Overflow和Stack Exchange中筛选出需要高级技术专长的问题,并将其转化为带有完整Docker环境和测试用例的计算任务。
网页开发智能体利用Playwright执行生成的代码并录制操作视频,再通过多模态视觉判别器评估生成质量——之所以采用视频而非静态截图,是因为视频能更准确地捕捉交互动画和响应式布局等动态特性。
此外,通用智能体还覆盖了搜索和函数调用两大方向。
这样训练带来的一个显著收益是:在多样化的智能体环境中增加强化学习计算量,其效果能够泛化到数学推理、通用推理等其他任务上。这意味着,智能体训练培养的并非某项特定技能,而是一种通用的、可迁移的问题解决能力。
打个比方,别的大模型可能是在教室里反复做模拟卷,而MiMo-V2-Pro则是直接被扔进多个真实的工作场景里“实习”,做错了会有真实的测试结果立刻指出错误所在。
“实习”锻炼出来的模型,在处理复杂、动态问题时,显然比单纯“刷题”练出来的更懂得如何拆解与应对。
第三项是ARL-Tangram,这是小米与北京大学计算机学院联合研发的智能体强化学习训练基础设施系统,也是罗福莉作为通讯作者参与的研究成果。
如果说MOPD和智能体强化学习解决的是“怎么训练”的方法论问题,那么ARL-Tangram解决的则是“用什么训练”的效率问题。
智能体训练需要频繁调用外部资源:代码执行需要CPU,奖励模型需要GPU,网页搜索需要API配额。传统的强化学习框架通常采用静态资源预留策略,为每一条训练轨迹分配一套固定资源并全程占用。
这就导致了一个问题:即使某个任务暂时不需要资源,这条通道也被闲置占用,其他任务无法使用。
ARL-Tangram的实测数据揭示了资源浪费的严重性。在AI编程任务中,外部资源平均只有47%的时间处于活跃使用状态,剩余53%完全闲置。
在MOPD训练场景中,情况更为夸张:12个教师模型各自占用着一组GPU提供奖励服务,但这些GPU的平均流式多处理器活跃率竟不到3%,相当于97%的算力在空转。
ARL-Tangram的设计哲学,深刻继承了小米“性价比之王”的基因,其核心思路在于精细化资源管理,让每一份算力都产生最大价值。
它将每次外部调用视为一个原子动作,动作一旦结束,所占用的资源立即释放,供其他训练轨迹使用。
实测效果令人印象深刻:动作完成时间最高提升4.3倍,强化学习训练步骤时间加速最高达1.5倍,外部资源消耗降低了71.2%。
这意味着,同样的硬件投入,能够支撑起远超以往的模型训练量。
雷军在V2-Pro发布当天的微博中写道:“我们在 AI 领域上相对比较低调,实际进展可能比大家看到的要快很多。”这句话,或许正是对其技术路径与工程效率自信的含蓄表达。
与此同时,特斯拉车辆座舱内的控制AI,实际上主要源于特斯拉自研技术,与xAI的关系并不大。
2026年3月,马斯克宣布了一项名为“Digital Optimus”的联合项目,旨在让Grok充当“高层推理大脑”。
他借用卡尼曼的双系统理论来类比:Grok是负责慢思考的System 2,而特斯拉AI则是负责快速反应的System 1,即实时感知与动作执行。
然而,仅从公开构想来看,二者之间的协同路径,似乎不如小米“云端大模型蒸馏到车端小模型”的技术路线来得清晰与直接。
MiMo-V2-Pro 的挑战与审视
站在行业观察的视角,任何技术的突破都值得审视。因此,我们不妨也来看看MiMo-V2-Pro可能面临的一些挑战。
首先关注基准测试。
MiMo-V2-Pro公布的SWE-bench Verified得分为78.0%,接近Claude 4.6 Sonnet的79.6%。这份主要评估AI编程能力的测试成绩,看起来确实不错。
但这里涉及一个行业内已近乎公开的秘密:SWE-bench Verified这个测试集本身的可靠性正在受到严重质疑。
OpenAI的Frontier Evals团队在2026年2月23日明确指出,SWE-bench Verified“实际上已经饱和且被高度污染”,并建议行业转向难度更高的SWE-bench Pro。
OpenAI的研究人员发现,包括GPT-5.2、Claude Opus 4.5和Gemini 3 Flash Preview在内的多个前沿模型,仅凭SWE-bench Verified的题目ID,就能复述出原始的“黄金补丁”。这相当于在考试中,考生不看题目内容,仅凭题号就能给出正确答案。
这强烈暗示,测试题目很可能已经泄露并进入了模型的训练数据。在这样一个已被污染的测试集上取得高分,其说服力自然大打折扣。
———— / E N D / ————
相关攻略
当我们探讨超大模型(或称大语言模型)的强大能力时,其背后对用户隐私与数据安全的特殊要求不容忽视。尤其是在处理个人敏感信息时,这一问题变得尤为复杂和关键。这主要源于模型复杂的算法结构及其处理海量数据的特性。那么,在AI模型的应用中,具体有哪些隐私与数据安全的关键环节需要企业和技术团队重点关注呢? 一、
探讨大模型技术时,其多语言处理能力始终是一个核心议题。这项能力如同一把双刃剑,既开启了前所未有的应用场景,也伴随着一系列复杂的深层挑战。本文将深入剖析大模型多语言能力的应用价值与潜在难题。 应用:跨越语言边界的可能性 大模型的多语言特性,正在全球范围内驱动多个行业的实质性变革与效率提升。 机器翻译与
5月13日最新行业观察显示,“天下没有免费的午餐”这一准则,正在人工智能大模型领域加速应验。当前,面向普通用户开放的各类AI服务,其背后的开发厂商正稳步推进商业化付费模式。这标志着行业告别野蛮生长,步入追求可持续健康发展的成熟阶段,付费实为产业走向正规化的必然趋势。 事实上,在探索商业化落地的道路上
当人们谈论大模型时,文本生成与智能对话往往是第一印象。然而,其在图像与视频处理领域的强大能力,同样值得高度关注。依托先进的深度学习架构,大模型正在重塑多媒体内容的分析与生成方式,为企业带来前所未有的技术赋能。那么,它究竟能解决哪些实际问题?又是如何驱动业务增长的呢?我们可以从以下几个核心应用场景深入
要让大语言模型真正掌握并流畅生成跨语言、跨文化的文本内容,是一项复杂而系统的工程。这需要从数据源头到模型架构,再到评估优化的全链路精细设计,融合多种策略与技术方案。接下来,我们将深入剖析实现这一目标的核心方法与关键技术路径。 一、数据预处理:构建多语言理解的坚实基础 模型性能的优劣,首先取决于训练数
热门专题
热门推荐
进入2026年,加密货币市场的格局与安全标准已悄然进化。对于投资者而言,选择一个安全可靠的交易平台,其重要性丝毫不亚于挑选资产本身。毕竟,资产增值的前提,是它们得安然无恙地躺在你的账户里。今天,我们就来盘一盘当前市场上主流的虚拟资产交易所,从风控能力、资产储备与市场口碑等多个维度,做一次深入的“避雷
本文梳理了2026年备受关注的数字资产交易平台,从安全性、功能特色与用户体验等维度进行分析。重点探讨了主流合规平台在资产托管、交易深度上的优势,以及新兴聚合器在提升交易效率方面的创新。同时,也指出了选择平台时需关注的风险控制与合规性,为不同需求的用户提供参考方向。
本文汇总了2026年主流的数字资产交易平台,从安全性、功能特色、用户体验及合规性等维度进行分析。内容涵盖适合新手的综合性应用、面向专业交易者的工具型软件,以及注重资产安全的托管方案,旨在为用户选择合适平台提供客观参考,并提醒注意市场风险与自我资产保护。
本文梳理了2026年主流的数字资产交易平台,从安全性、交易体验、功能特色等维度进行分析。重点介绍了综合型头部平台、专注创新的新兴应用以及面向特定需求的专业工具,旨在为用户提供客观参考,帮助其根据自身情况选择合适的软件进行下载与使用。
本文探讨了2026年数字货币交易软件的选择标准,并列举了十款主流应用。内容涵盖安全性、交易对、用户体验及费用等核心考量维度,分析了不同平台在现货、合约及DeFi集成等方面的特色,旨在为不同层级的用户提供实用参考,帮助其根据自身需求做出合适选择。





