MiniMax M3 模型刚发布那会儿,Vercel CEO 就在社交媒体上发过一条帖子,说 M3 在 Next.js 的 AI Coding Agent 评测中仅次于 Opus 和 GPT5,但价格便宜了整整 10 倍。当时就想好好测一把,结果出差、加班、一堆破事儿堆过来,这篇文章就这么拖到了现在。
直接用开源项目 WeSight 里的 Claude Code 快速接入了 M3,刚好最近 WeSight 积累了不少 issue,不如先让 M3 试试能不能自主修复 bug。
先说背景。WeSight 目前有 954 个工程文件,16 万多行代码,是个真实的工程化项目,绝对不是那种 demo 级别的玩具仓库。配置好 M3 后,直接把 issue 链接丢给它,开启 plan 模式,让它先分析项目代码,再想办法修复。
M3 花了一些时间获取项目上下文,然后开始自行调用技能去拉 GitHub issue 信息。这里有个细节值得单独拎出来说。M3 拿到 Issue 后没有上来就蛮干,而是先做了任务分解,判断当前有哪些工具可用,然后定了一套降级策略——gh CLI 优先,失败就走浏览器抓取,都不行再向用户要内容。这其实就是 Agent 领域里经典的 Plan-then-Execute 范式,先规划再执行,遇到阻塞还能自己绕路。
这种能力在简单任务里看不出差距,但任务链一旦拉长,模型会不会主动规划、能不能自己做容错,直接决定了最终产出能不能一次跑通。而且 M3 最终选择的是浏览器抓取,而不是 gh CLI——因为 issue 里包含附件,gh issue view 对附件和 Markdown 渲染的支持不如网页直观,M3 自己判断出来并切换了方案。
耗时 9.5 分钟后,bug 修复完成,修改了 12 个文件及 2 个核心文件。修改完代码 diff 后,449 个测试用例全部通过验证。
接着让 Codex 的 GPT 5.5 做了下 Code Review,指出了一两个小问题,又让 M3 来修复。经过 1 轮 Code Review 和修改,重新打包,发现 bug 已经修复了。最后让 M3 自己推送代码到 GitHub,自动回复并关闭 issue。
发现用 M3 写代码,再用 Claude Opus 和 GPT 5.5 做对抗式 Code Review,效果相当不错,而且还省 token,性价比直接拉满——后面那俩玩意儿太贵了。
聊完 Coding Agent,再换个赛道。听说 M3 的 3D 效果挺猛,顺手把它和 DeepSeek-V4-Pro 都接进了 Hermes,丢同一个 Prompt,让它们用 Three.js 各自渲染一版 3D 城市街道。
Prompt 是这样:生成一个单文件 HTML 页面,使用 Three.js(通过 CDN 引入),渲染一个 3D 可交互的城市街道场景。要求包含一条可行驶车辆的沥青马路(有车道线、斑马线),马路两侧有多层建筑(窗户有纹理和灯光效果),人行道上有路灯、树木、长椅等街道设施,有环境光和定向阳光并开启阴影,支持鼠标拖拽旋转视角和滚轮缩放,所有几何体和纹理必须程序化生成,不能使用外部图片资源,画面要有科技感且支持夜晚/白天模式切换。
先来看 MiniMax M3 的效果。不瞒你说,M3 第一眼给人的感觉就是——交互做得到位。昼夜联动、小车速度交互、时间、车速、雾气、昼夜四个控制按钮一个不落,左下角还贴心地放了实时 FPS、建筑数量、光源数量的状态面板。更细的地方还在后面:车头灯用了 SpotLight + target 做真实投射光,尾灯是 emissive 红色,建筑天线点缀着红色闪烁灯,路灯做了点光源加微闪烁,模拟那种真实路灯的不稳定感,树冠用三层球体堆叠,加了随机偏移防对称。不过建筑细节和阴影比较粗糙,天空和夜晚效果一般,算是个小遗憾。
再来看 DeepSeek-V4-Pro 的效果。这版完成度也能打,道路、建筑、灯光、树木、长椅、霓虹牌和昼夜切换全都搭起来了,视觉氛围拉满,程序化纹理让细节加分不少。它更偏视觉呈现,交互上相对克制,能调的参数有限,白天光照有点过曝——翻了翻代码,部分函数参数没真正用起来。
很多人都说 M3 的原生多模态表现不错,于是测试了一个 Sketch-to-UI 的场景。随手画了一张电商商品详情页的草图,塞了商品图轮播、价格区、规格选择、加购按钮、详情 Tab 这些常见模块。然后给两个模型发了同样的 Prompt:根据草图生成可运行的单文件 HTML 页面,要求识别所有组件和布局,使用 TailwindCSS 美化,尽量还原草图结构,商品图支持轮播切换,规格选择有选中状态反馈,加购按钮有交互反馈,页面响应式,所有资源内联。
MiniMax M3 的输出相当在状态。商品图轮播、价格标题、规格选择、加购按钮、详情 Tab、底部推荐,全都识别到位。轮播切换、规格高亮、加购提示条这些交互也顺手补齐了。最让人意外的是,它把画得很潦草的背包直接还原成了实际效果。这种「看懂线条 + 补全行业默认交互」的能力,做前端原型真的很省心。
最后一个案例,来压一压极限——超长上下文加 Agent 长任务。直接搬来一份 ZF 工作报告,让两个模型跑同一个多步骤的政策分析任务。Prompt 要求从政策对比分析入手,识别新增、删减、表述变化和政策升级方向,找出真正的边际变化,然后从投资视角推演政策影响路径,分析受益赛道和公司,最后以图表和 HTML 方式呈现结论。
MiniMax M3 在这个任务上的表现相当出色,细节处理到位。拿 2026 年和 2025 年两版报告做了逐条对比,识别出 13 个维度的边际变化,推演了完整的投资传导路径,还附带 9 张可视化图表和四层受益标的矩阵,30 多个标的一一拆解。从核心判断到 13 个细分维度的边际变化,5 个市场容易忽略的隐性信号,再到 12 个赛道的政策红利强度评分,最后落到风险提示和操作建议——一份能直接给投研团队参考的报告,一次就跑出来了。
再看 DeepSeek-V4-Pro。它也拆得不错,速度还更快,政策边际变化对比表、产业链传导路径图、细分赛道受益热力图该有的都有。只是维度上没 M3 铺得开,一些细分赛道的深度拆解也相对浅一些。金融长文档加 Agent 长任务这种场景,M3 在输出结构和引用规范上更稳,几百页文档多步骤提取一次跑通的概率更高。DeepSeek-V4-Pro 的优势在速度,响应更跟手。金融场景天然就是长文档、多步推理、高频跑量,模型需要做「边际变化识别→产业链传导→细分赛道映射」,M3 的细节表现会更好一些。对于需要高频处理研报、招股书、政策文件的金融场景来说,M3 更为适合,性价比更高。
几个案例跑下来,整体感受是 M3 和 DeepSeek-V4-Pro 各有侧重,但 M3 在多模态理解、Agent 长任务稳定性和交互细节上,确实有自己的东西。瞅一眼官方的 OSWorld,M3 在 Computer Use、多模态这几个评测里,成绩还真不赖。而且 M3 还是开源的。
价格这块也值得提一嘴。从 M2 到 M3,MiniMax 在定价上一直很克制,同等能力水平下基本是全球旗舰模型里最实惠的那个。对开发者来说,这意味着可以放心地把它塞进生产环境跑量,不用一边调 API 一边心疼账单。一边是大洋彼岸的闭源模型死贵还各种限制,一边是国内团队在卷能力卷开源,想办法让更多人用上好模型。讲真的,AI 不应该是少数人的特权,它应该是所有人的工具。国产开源模型,是真在卷出花来了。
你跑过 M3 没?效果咋样,评论区唠唠。
