首页 游戏 软件 资讯 排行榜 专题
首页
AI
实测MiniMax M2.1:从招股书透视其技术底气

实测MiniMax M2.1:从招股书透视其技术底气

热心网友
59
转载
2025-12-24



编辑|Panda

这两天,中国 AI 行业关注的核心无疑是 MiniMax。

12 月 21 日,MiniMax(稀宇科技)正式向港交所递交招股书,披露的一连串数字瞬间引爆了舆论场:账上坐拥超10 亿美元的现金储备,2025 年前九个月营收同比激增174.7%,而在保持高强度研发的同时,经调整净亏损控制在1.86 亿美元。

资本市场的喧嚣还没结束,23 日,MiniMax 又反手甩出了一张技术牌:正式上线MiniMax M2.1模型。



这并非一次常规的版本迭代。根据最新披露的信息,M2.1 在 SWE-bench Multilingual 多语言评测中以 72.5% 的成绩拿下了 SOTA,超越了 Gemini 3 Pro 和 Claude Sonnet 4.5。



更重要的是,它不再局限于 Python 或前端代码的生成,而是向Rust、Java、C++ 等更广泛的后端语言发起了进攻,试图解决过往模型「写得像但跑不通」、「缺乏工程感」的痛点。

同时,M2.1 大幅强化了原生 Android 和 iOS 的开发能力,打出了「Not only vibe WebDev, but also vibe AppDev」的口号。

不仅如此,为了给这种「从零到一」的全栈能力提供硬核支撑,MiniMax 还构建并开源了全新基准VIBE(Visual & Interactive Benchmark for Execution in Application Development)。不同于传统基准,VIBE 涵盖了 Web、仿真、Android、iOS 及后端五大核心子集,并引入创新的Agent-as-a-Verifier (AaaV)范式,能够自动评估生成的 Application 在真实运行环境中的交互逻辑与视觉美感。在这场「全栈构建」的终极测试中,M2.1 以平均 88.6 分的成绩展现了卓越实力,不仅在几乎所有子集上显著优于 Claude Sonnet 4.5,更逼近了 Claude Opus 4.5 的水准。



同时,凭借强大的交错思维与指令跟随能力,MiniMax M2.1 还能集成「复合指令约束」,从而可以更轻松地完成办公自动化任务。

更令开发者惊喜的是其落地的速度与广度:M2.1 第一时间就可无缝集成至 Claude Code、Cursor 等主流 AI 编程工具中。

配合更快的响应速度、更简洁的思维链以及大幅降低的 token 消耗,它显然是有备而来,意在直接切入开发者的核心工作流。

这种「今天秀肌肉,明天亮技术」的节奏显然不是巧合。在外界还在争论一家成立刚四年的公司为何能跑出如此惊人的 IPO 速度时,MiniMax M2.1 的发布则是一种有力的回应:它试图用模型的迭代速度,来诠释招股书里高效研发的数字指标,以及为何这家公司值得众多明星投资人的信任与多轮投资。



作为一家长期关注 AI 技术的媒体,在这一波喧嚣过后的 48 小时里,我们拿到 M2.1 的接口,把它扔进了开发环境中,用真实的任务对其进行了考验。

毕竟,招股书是给投资人看的面子,而模型能力才是开发者真金白银投票的里子。这份体验报告或可成为洞见这家公司真实技术底蕴的切口。

实测:从偏科到全能

在过去很长一段时间里,MiniMax 给开发者的印象往往带着鲜明的标签:它的语音合成极其逼真,视频生成的表现力备受赞誉(海螺),角色扮演能力也在 C 端应用(如星野)中大放异彩。如果说大模型班级里有特长生,那么 MiniMax 以前更像是一个极具天赋的文科生或艺术生。

然而,要支撑起招股书中描绘的 AGI 蓝图,光有情商可不够。在企业级应用和复杂的生产力场景中,推理能力和模型使用工具的能力才是检验模型智商的硬通货。此前,必须承认的是,作为开源模型,M2 与 Claude Sonnet 4.5 或 GPT-5 (thinking) 等国际顶尖模型相比,在部分任务上确实还差点意思。

这也正是 M2.1 发布的战略意义所在:一次针对性的进化。

为了验证 M2.1 是否真的补齐了编程这块短板,我们决定跳过那些基础的「写首藏头诗」或「画个贪吃蛇」,直接将它置于真实的开发者视角下,以了解其在代码重构、复杂逻辑规划等方面的真实表现。

首先来一个相对简单的任务:虾仁模拟器,看看我们能否在自己的电脑上扮演这位历经无数世界的穿越者。首先,构建一个简单的提示词:

我想构建一个虾仁模拟器小游戏,核心主题是:你是虾仁,你又穿越了。游戏内容是主角虾仁穿越到不同的朝代或者世界(比如丧尸世界、修仙世界、赛博世界),游戏后台使用 AI: MiniMax-M2.1。请先规划这个项目,让我选择游戏方式和技术栈等,并将任务规划放入 task.md 文件。

在 Claude Code 配置好 MiniMax M2.1 之后,直接输入提示词开始构建!



4 倍速视频(以下视频都是 4 倍速)

整个过程耗时不到 6 分钟。给这个小游戏配置好 API,来初步试试效果:



命令行的界面玩起来总归是不方便,也不美丽,接下来我们继续推进,让 MiniMax M2.1 开发一个直观好看的 UI。

给这个游戏开发一个漂亮的网页 UI,整体使用像素风格,使用莫兰迪色系配色。使用 JavaScript。支持深色和浅色模式切换。界面上加一个随机穿越的按钮。

这下,效果好多了。MiniMax M2.1 的审美着实在线!



你甚至能一句话就创建出一个炫酷的个人主页:



MiniMax M2.1 为漫威超级英雄黑寡妇创建的个人主页

接下来,我们大幅提升任务难题,来考验一下 MiniMax M2.1 的多语言编程能力。我们构想一个较为复杂的任务,并在 AI 的辅助下撰写了一个提示词:



然后我们将其放入任务文件夹的「任务.md」文件中,直接给出执行指令:

读取文件夹中的任务.md 文件并实现这个项目。

这个任务的难度较大,MiniMax M2.1 并没有一蹴而就,但整个过程非常接近真实的开发体验。在与其进行多轮互动后,它最终交出了一份令人满意的答卷。

值得一提的是,在这个过程中我们遇到了多次报错,例如 crates.io 镜像源问题导致无法下载组件、Go 语言中 % 运算符不能用于 float64 而需改用 math.Mod () 函数等。

令人惊喜的是,这些问题并没有成为阻碍。我们只需将报错信息直接反馈给 MiniMax M2.1,它就能迅速理解上下文,自动完成修复工作,并编写了各个模块的单元测试。

最后,我们继续让 MiniMax M2.1 将这三个使用不同语言编写的模块连接了起来。



最终,我们得到了这样一个系统:



左侧为 React 前端,右上为 Go 语言写的网关,右下为 Rust 写的核心程序

我们还进行了其它一些实测,包括将多年前的 C++ 游戏库重构为 Python 版本、修改了一个 Obsidian 插件、一个辅助发推文的小工具以及一个「技能吃豆人」小游戏。



技能吃豆人增加了技能豆,吃下后可以获得技能,比如这里的穿墙能力

这些实测证明,MiniMax M2.1 不仅能写代码,更能像一个成熟的工程师一样解决问题。

技术与商业的互文

当我们把视线从 IDE 编辑器的代码窗口移开,重新审视那份数百页的招股书时,会发现 M2.1 的发布其实是解读 MiniMax 商业逻辑的一把关键钥匙。

在外界看来,或许招股书是财务数字的游戏,而模型发布是技术圈的狂欢。但在 MiniMax 这里,两者构成了紧密的互文关系。

研发杠杆率:打破「烧钱换增长」的魔咒

招股书中有一个容易被忽视但极具含金量的数据对比:2025 年前九个月,MiniMax 的营收同比增长了 174.7%,但同期研发费用仅增长了约 30%。



这个显著的「剪刀差」修正了外界对于大模型公司「研发无底洞」的刻板印象。它揭示了一个关键事实:MiniMax 已经跑通了高效的研发模式。

这意味着,公司不再需要线性地堆砌人力和算力资源来换取模型能力的提升。M2.1 的诞生就是最好的佐证:在研发投入增速远低于营收增速的前提下,MiniMax 依然保持了极高的迭代频率,在短时间内填补了代码和逻辑推理的短板。对于二级市场投资者而言,这种不随营收规模同比例膨胀的研发成本结构,是验证其商业模式可扩展性(Scalability)的最强证据。

从聊天机器人到智能体:MiniMax 的生产力雄心

MiniMax 在招股书中强调了其在 C 端应用(如星野、海螺 AI)上的统治力。然而,要撑起千亿级的市场想象空间,仅靠聊天是不够的。M2.1 补齐逻辑和代码短板,真正的雄心在于对 B 端生产力场景的渗透。

行业内对于 Agent 能力的评估标准,正在从简单的对话测试转向更为严苛的基准,例如 Toolathon。这是一个包含 32 个专业软件(如 Kubernetes、BigQuery)、600 多个工具的第三方高难度评测,要求模型在平均 20 轮的交互中完成复杂的长程任务。

M2.1 对代码解释器和工具调用能力的强化,正是为了应对这种真实世界复杂度。当一个模型能够熟练操作 Docker 容器、管理日历并自动处理电商订单时,它就从一个 C 端的玩具进化成了 B 端的员工。这种能力的跃升,将直接拓宽 MiniMax 开放平台的客户半径,使其能够承接企业级工作流的自动化需求。

商业闭环的最后一公里

至此,MiniMax 的商业逻辑形成了闭环:

C 端产品(星野、海螺)作为数据飞轮和现金牛,提供高用户粘性和直接收入;底层模型(M2.1)通过 MoE 架构控制推理成本,通过技术补全提升智商上限;开放平台基于 M2.1 的 Agent 和多模态能力,切入高价值的企业级市场。

现在的 MiniMax 已左手是资本市场的入场券(招股书),右手是技术战场的冲锋号(M2.1)。

对该公司而言,IPO 是通过技术转化为生产力的新起点。M2.1 的发布证明了,这家公司在叩响港交所大门的同时,依然保持着对技术边界的极致探索。这种「左手账本,右手模型」的双轮驱动,或许正是它能在短短四年内跑通商业闭环的秘密所在。

文中视频链接:
https://mp.weixin.qq.com/s/0FUw5WYa-pffvWdM6vrafA

来源:https://www.163.com/dy/article/KHI9UBPS0511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

雷科技到底是谁?!!!悟空给出的答案,太抓人了!
科技数码
雷科技到底是谁?!!!悟空给出的答案,太抓人了!

从零到一:用AI生成一份专业的媒体影响力报告 但凡在内容或运营团队待过的人,大概都对制作《媒体影响力报告》这类活儿记忆犹新。那过程,堪称一场跨部门接力赛:运营同事得先从各个平台后台手动扒拉数据,计算阅读量、粉丝增长和互动率;拿到一堆冰冷数字后,还得拉着账号负责人反复琢磨定位和文案;最后,抱着半成品火

热心网友
05.01
全国五一劳动奖章获得者聂海平:突破国外技术壁垒 用代码“敲”出属于中国的铺丝机
科技数码
全国五一劳动奖章获得者聂海平:突破国外技术壁垒 用代码“敲”出属于中国的铺丝机

封面新闻记者 邹阿江 图由航空工业成飞提供 2026年“五一”国际劳动节前夕,航空工业成飞的技术专家聂海平,荣获了一枚全国五一劳动奖章。 消息传来,身边同事都说,“大师”拿奖是实至名归。可聂海平自己呢,还是那副老样子——摆摆手,说自己不过是个普通人,幸运地站在一个好平台上,干着点自己感兴趣的事儿罢了

热心网友
05.01
每天3小时就够了,技术大牛:在AI时代坚持8小时工作制,你不是在努力,是在自杀
业界动态
每天3小时就够了,技术大牛:在AI时代坚持8小时工作制,你不是在努力,是在自杀

编辑 | 王凤枝 “AI时代,每天干3个小时就足够了。” 这句话出自前亚马逊资深工程师、技术大牛史蒂夫·雅吉(Steve Yegge)之口,算得上是对当前AI狂热的一剂清醒剂。 当整个行业都在为“10倍提效”而欢呼雀跃时,雅吉却点出了一个被普遍忽视的代价:在AI的高强度辅助下,程序员的产出固然爆炸式

热心网友
04.22
你的代码为什么又长又乱?可能是函数没用好
业界动态
你的代码为什么又长又乱?可能是函数没用好

一、概述 每天重复相同的操作,是不是感觉有点枯燥?比如,你每天都要煮饭,得经历洗米、加水、按下煮饭键这三步。如果每次都要从头到尾念叨一遍这个过程,那可就太费劲了。 别担心,函数就是来拯救你的。在Python的世界里,函数就像一个“一键煮饭”的智能按钮。你只需要把那些重复的步骤打包成一个固定的“命令”

热心网友
04.22
Pandas 精通十:透视表/交叉表实战,复杂数据汇总一键搞定
业界动态
Pandas 精通十:透视表/交叉表实战,复杂数据汇总一键搞定

吃透Pandas两大“数据汇总神器”:透视表与交叉表实战指南 在数据处理的工具箱里,如果说基础的清洗、筛选是基本功,那么多维度、交叉式的数据汇总,往往就是区分新手与熟手的分水岭。面对诸如“按地区加品类统计销售额”、“分析不同省份的商品订单分布”这类需求,如果还停留在手动分组、多层循环的老路上,不仅代

热心网友
04.22

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

银河麒麟系统SSH公钥登录配置与安全远程连接指南
系统平台
银河麒麟系统SSH公钥登录配置与安全远程连接指南

在麒麟操作系统上配置SSH公钥登录,不仅能免去每次输入密码的繁琐,更能显著增强远程连接的安全性。整个过程并不复杂,核心步骤围绕密钥生成、公钥部署和服务端配置展开。本文将详细介绍几种主流方法,涵盖从自动化部署到手动配置,助你轻松完成麒麟系统SSH密钥登录设置。 一、使用ssh-keygen与ssh-c

热心网友
05.15
银河麒麟系统登录循环故障解决方法与桌面修复指南
系统平台
银河麒麟系统登录循环故障解决方法与桌面修复指南

登录循环闪退应先删 Xauthority和 ICEauthority文件、修复 tmp权限为1777、重置ukui mate dconf配置、清理磁盘空间、重装lightdm并重新配置。 在银河麒麟操作系统中输入密码后,屏幕一闪又回到登录界面,这种“登录循环”问题确实令人困扰。这通常并非硬件故障,而

热心网友
05.15
GUSD稳定币详解:项目背景、核心用途与投资风险全解析
web3.0
GUSD稳定币详解:项目背景、核心用途与投资风险全解析

GUSD是一种与美元1:1锚定的合规稳定币,由Gemini交易所发行并受纽约州金融服务部监管。其核心价值在于为加密世界提供透明、受监管的美元等价物,主要应用于交易、支付和价值存储。投资者需关注其中心化托管风险、监管政策变化及智能合约潜在漏洞,理解其作为传统金融与加密市场桥梁的定位与局限。

热心网友
05.15
Win11如何设置默认音频输出设备与调整音量
系统平台
Win11如何设置默认音频输出设备与调整音量

在Windows 11系统中,确保系统音频稳定输出到指定设备(如已连接的耳机或已配对的蓝牙音箱),核心在于正确配置默认音频输出设备。您可以通过任务栏快速设置、系统设置应用、控制面板声音对话框、音量混合器下拉菜单或Win+Ctrl+V快捷键这五种主流方案,实现即时切换或永久性配置,彻底解决声音输出错乱

热心网友
05.15
宏胜集团高管变动与业务外包调整深度解析
AI
宏胜集团高管变动与业务外包调整深度解析

宏胜集团近期发生重要人事与业务调整。总裁办主任叶雅琼、销售总经理吴汀燕、法务部部长周卓盈及生产管理科科长吴潘潘等多位高管已离职,该消息已获接近集团人士证实。与此同时,集团启动了部分非生产业务的外包运作,显示出其正在优化内部结构与运营模式。这一系列变动可能意味着公司正处于战略调整期,旨在聚焦核心业务并

热心网友
05.15