实测MiniMax M2.1:从招股书透视其技术底气

编辑|Panda
这两天,中国 AI 行业关注的核心无疑是 MiniMax。
12 月 21 日,MiniMax(稀宇科技)正式向港交所递交招股书,披露的一连串数字瞬间引爆了舆论场:账上坐拥超10 亿美元的现金储备,2025 年前九个月营收同比激增174.7%,而在保持高强度研发的同时,经调整净亏损控制在1.86 亿美元。
资本市场的喧嚣还没结束,23 日,MiniMax 又反手甩出了一张技术牌:正式上线MiniMax M2.1模型。

这并非一次常规的版本迭代。根据最新披露的信息,M2.1 在 SWE-bench Multilingual 多语言评测中以 72.5% 的成绩拿下了 SOTA,超越了 Gemini 3 Pro 和 Claude Sonnet 4.5。

更重要的是,它不再局限于 Python 或前端代码的生成,而是向Rust、Java、C++ 等更广泛的后端语言发起了进攻,试图解决过往模型「写得像但跑不通」、「缺乏工程感」的痛点。
同时,M2.1 大幅强化了原生 Android 和 iOS 的开发能力,打出了「Not only vibe WebDev, but also vibe AppDev」的口号。
不仅如此,为了给这种「从零到一」的全栈能力提供硬核支撑,MiniMax 还构建并开源了全新基准VIBE(Visual & Interactive Benchmark for Execution in Application Development)。不同于传统基准,VIBE 涵盖了 Web、仿真、Android、iOS 及后端五大核心子集,并引入创新的Agent-as-a-Verifier (AaaV)范式,能够自动评估生成的 Application 在真实运行环境中的交互逻辑与视觉美感。在这场「全栈构建」的终极测试中,M2.1 以平均 88.6 分的成绩展现了卓越实力,不仅在几乎所有子集上显著优于 Claude Sonnet 4.5,更逼近了 Claude Opus 4.5 的水准。

同时,凭借强大的交错思维与指令跟随能力,MiniMax M2.1 还能集成「复合指令约束」,从而可以更轻松地完成办公自动化任务。
更令开发者惊喜的是其落地的速度与广度:M2.1 第一时间就可无缝集成至 Claude Code、Cursor 等主流 AI 编程工具中。
配合更快的响应速度、更简洁的思维链以及大幅降低的 token 消耗,它显然是有备而来,意在直接切入开发者的核心工作流。
这种「今天秀肌肉,明天亮技术」的节奏显然不是巧合。在外界还在争论一家成立刚四年的公司为何能跑出如此惊人的 IPO 速度时,MiniMax M2.1 的发布则是一种有力的回应:它试图用模型的迭代速度,来诠释招股书里高效研发的数字指标,以及为何这家公司值得众多明星投资人的信任与多轮投资。

作为一家长期关注 AI 技术的媒体,在这一波喧嚣过后的 48 小时里,我们拿到 M2.1 的接口,把它扔进了开发环境中,用真实的任务对其进行了考验。
毕竟,招股书是给投资人看的面子,而模型能力才是开发者真金白银投票的里子。这份体验报告或可成为洞见这家公司真实技术底蕴的切口。
实测:从偏科到全能
在过去很长一段时间里,MiniMax 给开发者的印象往往带着鲜明的标签:它的语音合成极其逼真,视频生成的表现力备受赞誉(海螺),角色扮演能力也在 C 端应用(如星野)中大放异彩。如果说大模型班级里有特长生,那么 MiniMax 以前更像是一个极具天赋的文科生或艺术生。
然而,要支撑起招股书中描绘的 AGI 蓝图,光有情商可不够。在企业级应用和复杂的生产力场景中,推理能力和模型使用工具的能力才是检验模型智商的硬通货。此前,必须承认的是,作为开源模型,M2 与 Claude Sonnet 4.5 或 GPT-5 (thinking) 等国际顶尖模型相比,在部分任务上确实还差点意思。
这也正是 M2.1 发布的战略意义所在:一次针对性的进化。
为了验证 M2.1 是否真的补齐了编程这块短板,我们决定跳过那些基础的「写首藏头诗」或「画个贪吃蛇」,直接将它置于真实的开发者视角下,以了解其在代码重构、复杂逻辑规划等方面的真实表现。
首先来一个相对简单的任务:虾仁模拟器,看看我们能否在自己的电脑上扮演这位历经无数世界的穿越者。首先,构建一个简单的提示词:
我想构建一个虾仁模拟器小游戏,核心主题是:你是虾仁,你又穿越了。游戏内容是主角虾仁穿越到不同的朝代或者世界(比如丧尸世界、修仙世界、赛博世界),游戏后台使用 AI: MiniMax-M2.1。请先规划这个项目,让我选择游戏方式和技术栈等,并将任务规划放入 task.md 文件。
在 Claude Code 配置好 MiniMax M2.1 之后,直接输入提示词开始构建!

4 倍速视频(以下视频都是 4 倍速)
整个过程耗时不到 6 分钟。给这个小游戏配置好 API,来初步试试效果:

命令行的界面玩起来总归是不方便,也不美丽,接下来我们继续推进,让 MiniMax M2.1 开发一个直观好看的 UI。
给这个游戏开发一个漂亮的网页 UI,整体使用像素风格,使用莫兰迪色系配色。使用 JavaScript。支持深色和浅色模式切换。界面上加一个随机穿越的按钮。
这下,效果好多了。MiniMax M2.1 的审美着实在线!

你甚至能一句话就创建出一个炫酷的个人主页:

MiniMax M2.1 为漫威超级英雄黑寡妇创建的个人主页
接下来,我们大幅提升任务难题,来考验一下 MiniMax M2.1 的多语言编程能力。我们构想一个较为复杂的任务,并在 AI 的辅助下撰写了一个提示词:

然后我们将其放入任务文件夹的「任务.md」文件中,直接给出执行指令:
读取文件夹中的任务.md 文件并实现这个项目。
这个任务的难度较大,MiniMax M2.1 并没有一蹴而就,但整个过程非常接近真实的开发体验。在与其进行多轮互动后,它最终交出了一份令人满意的答卷。
值得一提的是,在这个过程中我们遇到了多次报错,例如 crates.io 镜像源问题导致无法下载组件、Go 语言中 % 运算符不能用于 float64 而需改用 math.Mod () 函数等。
令人惊喜的是,这些问题并没有成为阻碍。我们只需将报错信息直接反馈给 MiniMax M2.1,它就能迅速理解上下文,自动完成修复工作,并编写了各个模块的单元测试。
最后,我们继续让 MiniMax M2.1 将这三个使用不同语言编写的模块连接了起来。

最终,我们得到了这样一个系统:

左侧为 React 前端,右上为 Go 语言写的网关,右下为 Rust 写的核心程序
我们还进行了其它一些实测,包括将多年前的 C++ 游戏库重构为 Python 版本、修改了一个 Obsidian 插件、一个辅助发推文的小工具以及一个「技能吃豆人」小游戏。

技能吃豆人增加了技能豆,吃下后可以获得技能,比如这里的穿墙能力
这些实测证明,MiniMax M2.1 不仅能写代码,更能像一个成熟的工程师一样解决问题。
技术与商业的互文
当我们把视线从 IDE 编辑器的代码窗口移开,重新审视那份数百页的招股书时,会发现 M2.1 的发布其实是解读 MiniMax 商业逻辑的一把关键钥匙。
在外界看来,或许招股书是财务数字的游戏,而模型发布是技术圈的狂欢。但在 MiniMax 这里,两者构成了紧密的互文关系。
研发杠杆率:打破「烧钱换增长」的魔咒
招股书中有一个容易被忽视但极具含金量的数据对比:2025 年前九个月,MiniMax 的营收同比增长了 174.7%,但同期研发费用仅增长了约 30%。

这个显著的「剪刀差」修正了外界对于大模型公司「研发无底洞」的刻板印象。它揭示了一个关键事实:MiniMax 已经跑通了高效的研发模式。
这意味着,公司不再需要线性地堆砌人力和算力资源来换取模型能力的提升。M2.1 的诞生就是最好的佐证:在研发投入增速远低于营收增速的前提下,MiniMax 依然保持了极高的迭代频率,在短时间内填补了代码和逻辑推理的短板。对于二级市场投资者而言,这种不随营收规模同比例膨胀的研发成本结构,是验证其商业模式可扩展性(Scalability)的最强证据。
从聊天机器人到智能体:MiniMax 的生产力雄心
MiniMax 在招股书中强调了其在 C 端应用(如星野、海螺 AI)上的统治力。然而,要撑起千亿级的市场想象空间,仅靠聊天是不够的。M2.1 补齐逻辑和代码短板,真正的雄心在于对 B 端生产力场景的渗透。
行业内对于 Agent 能力的评估标准,正在从简单的对话测试转向更为严苛的基准,例如 Toolathon。这是一个包含 32 个专业软件(如 Kubernetes、BigQuery)、600 多个工具的第三方高难度评测,要求模型在平均 20 轮的交互中完成复杂的长程任务。
M2.1 对代码解释器和工具调用能力的强化,正是为了应对这种真实世界复杂度。当一个模型能够熟练操作 Docker 容器、管理日历并自动处理电商订单时,它就从一个 C 端的玩具进化成了 B 端的员工。这种能力的跃升,将直接拓宽 MiniMax 开放平台的客户半径,使其能够承接企业级工作流的自动化需求。
商业闭环的最后一公里
至此,MiniMax 的商业逻辑形成了闭环:
C 端产品(星野、海螺)作为数据飞轮和现金牛,提供高用户粘性和直接收入;底层模型(M2.1)通过 MoE 架构控制推理成本,通过技术补全提升智商上限;开放平台基于 M2.1 的 Agent 和多模态能力,切入高价值的企业级市场。
现在的 MiniMax 已左手是资本市场的入场券(招股书),右手是技术战场的冲锋号(M2.1)。
对该公司而言,IPO 是通过技术转化为生产力的新起点。M2.1 的发布证明了,这家公司在叩响港交所大门的同时,依然保持着对技术边界的极致探索。这种「左手账本,右手模型」的双轮驱动,或许正是它能在短短四年内跑通商业闭环的秘密所在。
文中视频链接:
https://mp.weixin.qq.com/s/0FUw5WYa-pffvWdM6vrafA
相关攻略
从零到一:用AI生成一份专业的媒体影响力报告 但凡在内容或运营团队待过的人,大概都对制作《媒体影响力报告》这类活儿记忆犹新。那过程,堪称一场跨部门接力赛:运营同事得先从各个平台后台手动扒拉数据,计算阅读量、粉丝增长和互动率;拿到一堆冰冷数字后,还得拉着账号负责人反复琢磨定位和文案;最后,抱着半成品火
封面新闻记者 邹阿江 图由航空工业成飞提供 2026年“五一”国际劳动节前夕,航空工业成飞的技术专家聂海平,荣获了一枚全国五一劳动奖章。 消息传来,身边同事都说,“大师”拿奖是实至名归。可聂海平自己呢,还是那副老样子——摆摆手,说自己不过是个普通人,幸运地站在一个好平台上,干着点自己感兴趣的事儿罢了
编辑 | 王凤枝 “AI时代,每天干3个小时就足够了。” 这句话出自前亚马逊资深工程师、技术大牛史蒂夫·雅吉(Steve Yegge)之口,算得上是对当前AI狂热的一剂清醒剂。 当整个行业都在为“10倍提效”而欢呼雀跃时,雅吉却点出了一个被普遍忽视的代价:在AI的高强度辅助下,程序员的产出固然爆炸式
一、概述 每天重复相同的操作,是不是感觉有点枯燥?比如,你每天都要煮饭,得经历洗米、加水、按下煮饭键这三步。如果每次都要从头到尾念叨一遍这个过程,那可就太费劲了。 别担心,函数就是来拯救你的。在Python的世界里,函数就像一个“一键煮饭”的智能按钮。你只需要把那些重复的步骤打包成一个固定的“命令”
吃透Pandas两大“数据汇总神器”:透视表与交叉表实战指南 在数据处理的工具箱里,如果说基础的清洗、筛选是基本功,那么多维度、交叉式的数据汇总,往往就是区分新手与熟手的分水岭。面对诸如“按地区加品类统计销售额”、“分析不同省份的商品订单分布”这类需求,如果还停留在手动分组、多层循环的老路上,不仅代
热门专题
热门推荐
在麒麟操作系统上配置SSH公钥登录,不仅能免去每次输入密码的繁琐,更能显著增强远程连接的安全性。整个过程并不复杂,核心步骤围绕密钥生成、公钥部署和服务端配置展开。本文将详细介绍几种主流方法,涵盖从自动化部署到手动配置,助你轻松完成麒麟系统SSH密钥登录设置。 一、使用ssh-keygen与ssh-c
登录循环闪退应先删 Xauthority和 ICEauthority文件、修复 tmp权限为1777、重置ukui mate dconf配置、清理磁盘空间、重装lightdm并重新配置。 在银河麒麟操作系统中输入密码后,屏幕一闪又回到登录界面,这种“登录循环”问题确实令人困扰。这通常并非硬件故障,而
GUSD是一种与美元1:1锚定的合规稳定币,由Gemini交易所发行并受纽约州金融服务部监管。其核心价值在于为加密世界提供透明、受监管的美元等价物,主要应用于交易、支付和价值存储。投资者需关注其中心化托管风险、监管政策变化及智能合约潜在漏洞,理解其作为传统金融与加密市场桥梁的定位与局限。
在Windows 11系统中,确保系统音频稳定输出到指定设备(如已连接的耳机或已配对的蓝牙音箱),核心在于正确配置默认音频输出设备。您可以通过任务栏快速设置、系统设置应用、控制面板声音对话框、音量混合器下拉菜单或Win+Ctrl+V快捷键这五种主流方案,实现即时切换或永久性配置,彻底解决声音输出错乱
宏胜集团近期发生重要人事与业务调整。总裁办主任叶雅琼、销售总经理吴汀燕、法务部部长周卓盈及生产管理科科长吴潘潘等多位高管已离职,该消息已获接近集团人士证实。与此同时,集团启动了部分非生产业务的外包运作,显示出其正在优化内部结构与运营模式。这一系列变动可能意味着公司正处于战略调整期,旨在聚焦核心业务并





