实测MiniMax M2.1：从招股书透视其技术底气_AI热点日报

实测MiniMax M2.1：从招股书透视其技术底气

类型：热点整理2025-12-24

编辑｜Panda这两天，中国 AI 行业关注的核心无疑是 MiniMax。12 月 21 日，MiniMax（稀宇科技）正式向港交所递交招股书，披露的一连串数字瞬间引爆了舆论场：账上坐拥超10 亿美

编辑｜Panda

这两天，中国 AI 行业关注的核心无疑是 MiniMax。

12 月 21 日，MiniMax（稀宇科技）正式向港交所递交招股书，披露的一连串数字瞬间引爆了舆论场：账上坐拥超10 亿美元的现金储备，2025 年前九个月营收同比激增174.7%，而在保持高强度研发的同时，经调整净亏损控制在1.86 亿美元。

资本市场的喧嚣还没结束，23 日，MiniMax 又反手甩出了一张技术牌：正式上线MiniMax M2.1模型。

这并非一次常规的版本迭代。根据最新披露的信息，M2.1 在 SWE-bench Multilingual 多语言评测中以 72.5% 的成绩拿下了 SOTA，超越了 Gemini 3 Pro 和 Claude Sonnet 4.5。

更重要的是，它不再局限于 Python 或前端代码的生成，而是向Rust、Java、C++ 等更广泛的后端语言发起了进攻，试图解决过往模型「写得像但跑不通」、「缺乏工程感」的痛点。

同时，M2.1 大幅强化了原生 Android 和 iOS 的开发能力，打出了「Not only vibe WebDev, but also vibe AppDev」的口号。

不仅如此，为了给这种「从零到一」的全栈能力提供硬核支撑，MiniMax 还构建并开源了全新基准VIBE（Visual & Interactive Benchmark for Execution in Application Development）。不同于传统基准，VIBE 涵盖了 Web、仿真、Android、iOS 及后端五大核心子集，并引入创新的Agent-as-a-Verifier (AaaV)范式，能够自动评估生成的 Application 在真实运行环境中的交互逻辑与视觉美感。在这场「全栈构建」的终极测试中，M2.1 以平均 88.6 分的成绩展现了卓越实力，不仅在几乎所有子集上显著优于 Claude Sonnet 4.5，更逼近了 Claude Opus 4.5 的水准。

同时，凭借强大的交错思维与指令跟随能力，MiniMax M2.1 还能集成「复合指令约束」，从而可以更轻松地完成办公自动化任务。

更令开发者惊喜的是其落地的速度与广度：M2.1 第一时间就可无缝集成至 Claude Code、Cursor 等主流 AI 编程工具中。

配合更快的响应速度、更简洁的思维链以及大幅降低的 token 消耗，它显然是有备而来，意在直接切入开发者的核心工作流。

这种「今天秀肌肉，明天亮技术」的节奏显然不是巧合。在外界还在争论一家成立刚四年的公司为何能跑出如此惊人的 IPO 速度时，MiniMax M2.1 的发布则是一种有力的回应：它试图用模型的迭代速度，来诠释招股书里高效研发的数字指标，以及为何这家公司值得众多明星投资人的信任与多轮投资。

作为一家长期关注 AI 技术的媒体，在这一波喧嚣过后的 48 小时里，我们拿到 M2.1 的接口，把它扔进了开发环境中，用真实的任务对其进行了考验。

毕竟，招股书是给投资人看的面子，而模型能力才是开发者真金白银投票的里子。这份体验报告或可成为洞见这家公司真实技术底蕴的切口。

实测：从偏科到全能

在过去很长一段时间里，MiniMax 给开发者的印象往往带着鲜明的标签：它的语音合成极其逼真，视频生成的表现力备受赞誉（海螺），角色扮演能力也在 C 端应用（如星野）中大放异彩。如果说大模型班级里有特长生，那么 MiniMax 以前更像是一个极具天赋的文科生或艺术生。

然而，要支撑起招股书中描绘的 AGI 蓝图，光有情商可不够。在企业级应用和复杂的生产力场景中，推理能力和模型使用工具的能力才是检验模型智商的硬通货。此前，必须承认的是，作为开源模型，M2 与 Claude Sonnet 4.5 或 GPT-5 (thinking) 等国际顶尖模型相比，在部分任务上确实还差点意思。

这也正是 M2.1 发布的战略意义所在：一次针对性的进化。

为了验证 M2.1 是否真的补齐了编程这块短板，我们决定跳过那些基础的「写首藏头诗」或「画个贪吃蛇」，直接将它置于真实的开发者视角下，以了解其在代码重构、复杂逻辑规划等方面的真实表现。

首先来一个相对简单的任务：虾仁模拟器，看看我们能否在自己的电脑上扮演这位历经无数世界的穿越者。首先，构建一个简单的提示词：

我想构建一个虾仁模拟器小游戏，核心主题是：你是虾仁，你又穿越了。游戏内容是主角虾仁穿越到不同的朝代或者世界（比如丧尸世界、修仙世界、赛博世界），游戏后台使用 AI: MiniMax-M2.1。请先规划这个项目，让我选择游戏方式和技术栈等，并将任务规划放入 task.md 文件。

在 Claude Code 配置好 MiniMax M2.1 之后，直接输入提示词开始构建！

4 倍速视频（以下视频都是 4 倍速）

整个过程耗时不到 6 分钟。给这个小游戏配置好 API，来初步试试效果：

命令行的界面玩起来总归是不方便，也不美丽，接下来我们继续推进，让 MiniMax M2.1 开发一个直观好看的 UI。

给这个游戏开发一个漂亮的网页 UI，整体使用像素风格，使用莫兰迪色系配色。使用 JavaScript。支持深色和浅色模式切换。界面上加一个随机穿越的按钮。

这下，效果好多了。MiniMax M2.1 的审美着实在线！

你甚至能一句话就创建出一个炫酷的个人主页：

MiniMax M2.1 为漫威超级英雄黑寡妇创建的个人主页

接下来，我们大幅提升任务难题，来考验一下 MiniMax M2.1 的多语言编程能力。我们构想一个较为复杂的任务，并在 AI 的辅助下撰写了一个提示词：

然后我们将其放入任务文件夹的「任务.md」文件中，直接给出执行指令：

读取文件夹中的任务.md 文件并实现这个项目。

这个任务的难度较大，MiniMax M2.1 并没有一蹴而就，但整个过程非常接近真实的开发体验。在与其进行多轮互动后，它最终交出了一份令人满意的答卷。

值得一提的是，在这个过程中我们遇到了多次报错，例如 crates.io 镜像源问题导致无法下载组件、Go 语言中 % 运算符不能用于 float64 而需改用 math.Mod () 函数等。

令人惊喜的是，这些问题并没有成为阻碍。我们只需将报错信息直接反馈给 MiniMax M2.1，它就能迅速理解上下文，自动完成修复工作，并编写了各个模块的单元测试。

最后，我们继续让 MiniMax M2.1 将这三个使用不同语言编写的模块连接了起来。

最终，我们得到了这样一个系统：

左侧为 React 前端，右上为 Go 语言写的网关，右下为 Rust 写的核心程序

我们还进行了其它一些实测，包括将多年前的 C++ 游戏库重构为 Python 版本、修改了一个 Obsidian 插件、一个辅助发推文的小工具以及一个「技能吃豆人」小游戏。

技能吃豆人增加了技能豆，吃下后可以获得技能，比如这里的穿墙能力

这些实测证明，MiniMax M2.1 不仅能写代码，更能像一个成熟的工程师一样解决问题。

技术与商业的互文

当我们把视线从 IDE 编辑器的代码窗口移开，重新审视那份数百页的招股书时，会发现 M2.1 的发布其实是解读 MiniMax 商业逻辑的一把关键钥匙。

在外界看来，或许招股书是财务数字的游戏，而模型发布是技术圈的狂欢。但在 MiniMax 这里，两者构成了紧密的互文关系。

研发杠杆率：打破「烧钱换增长」的魔咒

招股书中有一个容易被忽视但极具含金量的数据对比：2025 年前九个月，MiniMax 的营收同比增长了 174.7%，但同期研发费用仅增长了约 30%。

这个显著的「剪刀差」修正了外界对于大模型公司「研发无底洞」的刻板印象。它揭示了一个关键事实：MiniMax 已经跑通了高效的研发模式。

这意味着，公司不再需要线性地堆砌人力和算力资源来换取模型能力的提升。M2.1 的诞生就是最好的佐证：在研发投入增速远低于营收增速的前提下，MiniMax 依然保持了极高的迭代频率，在短时间内填补了代码和逻辑推理的短板。对于二级市场投资者而言，这种不随营收规模同比例膨胀的研发成本结构，是验证其商业模式可扩展性（Scalability）的最强证据。

从聊天机器人到智能体：MiniMax 的生产力雄心

MiniMax 在招股书中强调了其在 C 端应用（如星野、海螺 AI）上的统治力。然而，要撑起千亿级的市场想象空间，仅靠聊天是不够的。M2.1 补齐逻辑和代码短板，真正的雄心在于对 B 端生产力场景的渗透。

行业内对于 Agent 能力的评估标准，正在从简单的对话测试转向更为严苛的基准，例如 Toolathon。这是一个包含 32 个专业软件（如 Kubernetes、BigQuery）、600 多个工具的第三方高难度评测，要求模型在平均 20 轮的交互中完成复杂的长程任务。

M2.1 对代码解释器和工具调用能力的强化，正是为了应对这种真实世界复杂度。当一个模型能够熟练操作 Docker 容器、管理日历并自动处理电商订单时，它就从一个 C 端的玩具进化成了 B 端的员工。这种能力的跃升，将直接拓宽 MiniMax 开放平台的客户半径，使其能够承接企业级工作流的自动化需求。

商业闭环的最后一公里

至此，MiniMax 的商业逻辑形成了闭环：

C 端产品（星野、海螺）作为数据飞轮和现金牛，提供高用户粘性和直接收入；底层模型（M2.1）通过 MoE 架构控制推理成本，通过技术补全提升智商上限；开放平台基于 M2.1 的 Agent 和多模态能力，切入高价值的企业级市场。

现在的 MiniMax 已左手是资本市场的入场券（招股书），右手是技术战场的冲锋号（M2.1）。

对该公司而言，IPO 是通过技术转化为生产力的新起点。M2.1 的发布证明了，这家公司在叩响港交所大门的同时，依然保持着对技术边界的极致探索。这种「左手账本，右手模型」的双轮驱动，或许正是它能在短短四年内跑通商业闭环的秘密所在。

文中视频链接：
https://mp.weixin.qq.com/s/0FUw5WYa-pffvWdM6vrafA

来源：https://www.163.com/dy/article/KHI9UBPS0511AQHO.html

代码港交所招股书工作流 minimax

延伸阅读

补充最近整理过的热点入口。

实测MiniMax M2.1：从招股书透视其技术底气

相关热点

延伸阅读