在启动A股上市辅导后,MiniMax再度迎来重要进展。6月1日,该公司正式推出新一代通用大模型——MiniMax M3。M3采用自研的稀疏注意力架构MSA(MiniMax Sparse Attention),在编程与智能体(Agent)能力、超长上下文处理以及原生多模态等关键领域,均实现了代际级别的跨越式突破。就在两天前,MiniMax Group Inc.已在上海证监局完成辅导备案登记,拟首次公开发行股票并上市,行业分类为I65软件和信息技术服务业,辅导券商为中信证券。这意味着,继智谱之后,MiniMax成为又一家启动“A+H”双平台布局的AI公司。

具体来看,M3同时具备三大核心能力:前沿的Coding编程能力、1M超长上下文窗口,以及原生多模态支持。据MiniMax介绍,它是目前开源模型中唯一能同时兼顾这三大特性的产品。这一定位本身就极具说服力——行业竞争日益激烈,能守住“全能”标签的模型已经屈指可数。
在架构层面,M3的自研稀疏注意力机制MSA是一大亮点。相比传统的全注意力机制,MSA能够大幅降低长上下文场景下的计算开销,同时将上下文窗口扩展至100万token。这意味着什么?简单来说,在处理长文档、复杂代码仓库或多轮任务协作时,模型能在单次推理中保持更完整的信息链路,避免因上下文过长而导致“断片”。根据MiniMax公布的数据,在100万上下文规模下,M3每个token的计算量仅为上一代模型的约1/20,推理效率提升十分显著。
事实上,采用新型注意力机制来降低Token消耗,已成为新一代模型发布时的标准动作。例如,DeepSeek最新推出的V4模型就采用了混合压缩注意力机制,能够在处理超长上下文时更高效地组织和检索信息,相比上一代模型仅需约27%的计算量和10%的缓存空间。换句话说,同样的任务,所需的Token和算力都大幅减少。行业趋势已经非常明确:谁的推理成本更低,谁就能在落地场景中抢占先机。
除了架构升级,MiniMax还在底层推理算子层面进行了进一步优化。通过重新设计数据读取与计算路径,相关性能相比主流开源方案提升了4倍以上。这背后反映出一个行业共识:随着Agent任务复杂度持续提升,“更长上下文、更稳定记忆、更低成本推理”正成为决定产品可用性的核心能力。简而言之,仅有强大的模型还不够,工程侧的软实力同样决定着能力的上限。
在大模型目前消耗Token最多的两大领域——编程与Agentic任务中,M3同样表现亮眼。在衡量Coding能力的SWE-Bench Pro基准上,M3直接超越了4月发布、主打编程能力的OpenAI新一代模型GPT-5.5,以及Gemini 3.1 Pro,距离Opus 4.7也仅差一步之遥。而在综合评估SVG生成性能的SVG-Bench基准上,M3甚至超过了Opus 4.7。此外,在面向自主Agent的端到端评测框架Claw-Eval中,M3获得了最高分。这些成绩放在一年前,几乎难以想象。
为了验证最新模型的超长上下文、编程和Agent能力,MiniMax还进行了一项相当硬核的测试:直接将一篇ICLR 2025 Outstanding Paper Award获奖论文提供给M3,让它独立复现。结果M3自主运行了近12小时,全程自主产出18次代码提交和23张实验图表,成功跑通了核心实验,验证了论文中提出的方法。这个案例充分展示了模型自主执行能力已经达到的高度。
多模态一直是MiniMax的核心战略方向,在M3上也得到了充分落地。据介绍,M3是一款从Step 0开始就进行多模态混合训练的模型。在重构整套数据管线后,MiniMax已将训练数据Token规模提升至100万亿量级。这意味着模型能力正从语言理解进一步向真实数字环境延伸。无论是办公自动化、企业软件操作,还是更复杂的生产力场景,AI进入实际执行层的速度都在显著加快。一句话总结:M3并非简单的“改参数”,而是从底层架构到工程优化再到场景能力的全面跃迁。
