如果你只想快速看清MiniMax从M2系列到M3的完整进化脉络,而不是被一堆“性能提升X%”的泛泛之谈淹没,那么这篇文章正好能帮你抓住每次迭代中真正改变能力边界的硬核动作——比如M2.7首次把模型自身塞进训练闭环,M3则直接让模型接管CUDA内核调优。先别急着跳到结论,咱们一步步拆开看。

M2系列:从高性能通用走向Agent原生
MiniMax的M2系列发端于2025年12月,以M2.5为起点,在短短5个月内完成三代跃迁。核心目标非常明确:为Agent场景打好地基。具体怎么打的?三句话就能说清。
第一步:M2.5确立MoE稀疏架构与200K上下文。激活参数仅100亿,总参2300亿,首次在国产模型中实现了“小激活、大容量”的漂亮平衡。说白了,就是让模型在推理时只唤醒少数专家,既省算力又不牺牲表现。
第二步:M2.7(2026年3月18日发布)引入了全球首个将模型深度融入自身训练循环的机制。这可是个标志性动作——模型能自主完成“分析→修改→评测→优化”的完整闭环,人类只需要设定好目标,中间过程完全不用插手。从设计哲学上看,这已经跳出了“训完就跑”的老路子。
第三步:M2.7专为OpenClaw(龙虾)生态优化。工具调用响应延迟降低了42%,多智能体协作任务失败率从M2.5的19.7%猛降至6.3%。这个数字意味着什么?Agent之间的协作可靠性已经接近可商用水平。
M3:三大能力合一,定义Frontier三件套
M3不是M2的简单升级,而是架构级别的重写。它同时拿下了三项此前仅被GPT-5.5、Claude Opus 4.7、Gemini 3.1垄断的能力:百万级上下文、原生多模态、顶尖Agentic能力。三项合在一起,才算真正挤进了Frontier模型的门槛。
方法一:用MSA稀疏注意力替代全注意力。这是计算效率的质变:100万token上下文,单token计算量仅为M2的1/20,预填充加速超过9倍,解码加速超过15倍。也就是说,长上下文不再是沉重负担,反而成了轻量化操作。
方法二:多模态从预训练第一轮就混入图文视频数据。不再像以前那样把视觉模块当外设拼接,而是从一开始就让模型理解多模态信号。训练数据规模推到了100T+,结果OmniDocBench得分直接超越了Gemini 3.1 Pro。
方法三:Agent能力实测中,M3在Claw-Eval端到端评测中排名第一。更令人印象深刻的案例是:它能连续24小时自主优化CUDA内核,愣是把Hopper GPU上FP8矩阵乘法的硬件峰值利用率从7.6%拽到71.3%。这个数字几乎意味着,模型在替工程师写底层代码。
关键进化节点对比
M2.7的自我进化还停留在模型层闭环:给它一套数学题集,它能自己生成新题、筛选难度、重排训练顺序。本质上还是在“模型参数”的圈子里打转。
M3则直接冲破了这个边界,进入基础设施层自主调优。它不只改模型权重,还主动调用nvcc、nsys、cuobjdump等底层工具——一共调用了1959次,重写Triton kernel代码,最终提交了147版benchmark。整个过程没有人类介入,纯靠模型自己折腾。
在PostTrainBench测试中,M3用12小时无人干预训练出4个新模型,覆盖数学推理、代码生成等五项基础能力,得分0.37,仅次于Opus 4.7(0.42)和GPT-5.5(0.39)。虽然还没登顶,但考虑到这是国产模型第一次实现“基础设施层自主调优”,意义已经远远超出分数本身。
回头看整条进化路:从M2.5的稀疏架构筑基,到M2.7的训练闭环破局,再到M3的架构重写与底层自主调优——每一步都在重新定义“模型能做什么”的边界。而这条边界,显然还在快速外推。
