游乐游手机版
首页/AI教程/文章详情

低预期上手MiniMax M3竟有意外惊喜

时间:2026-06-04 17:26
MiniMaxM3实测支持1M上下文、多模态及AgenticCoding,多模态可将讲座视频转为图文笔记,长文本处理能准确生成播客大纲与博客,还可分析代码库并复刻Agent工作台。TokenPlan运营调整已提供老用户补偿。M3技术实力过关,但需平衡商业与用户体验。

前段时间一直在处理其他事务,直到今天才真正抽出时间深度体验 MiniMax M3。说实话,最初并没有太高的期待——毕竟网络上众说纷纭,评价不一。作为老用户,我此前一直使用 M2.7 完成各类任务,整体体验还算顺手。

但实际上手之后,反而有了一些意外惊喜。M3 主打的三大核心亮点——1M 超长上下文、多模态融合能力以及 Agentic Coding 智能编程——在实机测试中都展现出了不错的效果。

\

关于口碑问题,更多集中在 Token Plan 商业策略调整方面。好在官方在前不久推出了老用户补偿方案,算是及时的补救措施。就当前的定位而言,继续使用 M2.7 处理日常任务,同时借助 M3 探索更多新玩法,不失为一个灵活的组合策略。先来看看实际测试表现,Token Plan 的问题后续再细聊。

M3 实际体验究竟如何?

让我们从几个真实的应用场景切入。

场景一:利用多模态能力,将讲座视频转化为图文笔记

过去使用 MiniMax M2.7 最大的缺憾便是缺乏多模态支持,导致部分工作流无法顺畅执行,必须额外配置一个多模态模型来补齐。M3 填补了这一短板后,整体适用性得到了显著提升。

在 MiniMax Code 中实际操作了一次:直接将一份 MP4 格式的讲座视频完整传入,指令要求从中截取关键的 PPT 画面并自动标注时间戳。

M3 会先调用其「视频理解」与「图片描述」模块,通览全部内容,再调用本地 ffmpeg 工具完成截图操作。截图完成后还会自动检查图片质量与表达效果,必要时自行校准修正。

\

一次执行通过,最终结果如下:

\

最终输出的图文笔记效果展示:

\

场景二:高效处理超长播客文本

近年来长视频播客越来越受欢迎。中文播客还好,通勤时戴上耳机就能听完;英文播客则没有那么轻松,尤其是 Lex Fridman 的节目,很多超过 4 个小时。好在他每次都会附带完整的 Transcript 文本。

不妨拿最近他与 VLC 作者、FFmpeg 维护者 JBK 的访谈来试试手。

\

先将 Lex 自带的视频章节信息移除,只保留时间戳和对话内容,然后向 M3 发出指令:「请帮我整理出主要讨论的话题,并生成带时间戳的目录大纲。再根据播客内容,转写一篇 4000 字左右的科技博客文章。」

\

对比 Lex 官方提供的原始时间戳大纲,M3 的章节拆分准确率相当高,在多个关键时间节点上几乎完全匹配,而且给出了更细粒度的子章节划分:

\

在没有刻意优化提示词的情况下,M3 生成的博客文章内容也相当直白实用。通读一遍即可快速抓住播客的核心要点,作为独立阅读材料完全够用。

\

如果计划在社交媒体上发布,还可以根据个人风格进一步调整提示词,或者搭配多模态功能生成一些配图。

场景三:调研并深入理解大型代码库

MiniMax M3 的另一大亮点是 1M 超长上下文窗口。不过仍建议将实际上下文控制在 200K~500K 以内,并在接近上下文窗口上限时主动切换对话。

在日常工作中真正需要跑满 1M 上下文的场景并不多见。最近发现一个很有价值的项目「Understand Anything」,可以在 Token Plan 配额比较充裕的时候,挑选一些感兴趣的代码仓库交给 Agent 进行自动化分析。

例如,将 PewDiePie 前两天开源的 Odysseus 完整交给 M3 来分析。首次分析确实耗时较长,跑了将近两个多小时。但分析完成后,会生成一个可交互的前端页面,帮助快速理解项目架构与核心逻辑。

\

在此基础上,如果还有疑问,可以继续在 Claude Code 中针对代码库提出具体问题。

\

这种深度理解分析会消耗较多 Token,比较适合在 Token Plan 空闲时段运行。

场景四:根据一张截图复刻一个 Agent 工作台

最后聊一个编程场景。目前我桌面上常驻着多种不同的 Agent:Claude Code、Codex、OpenClaw、Hermes,以及 Pi、OpenCode 等。一方面是尝鲜体验留下的代码资产,另一方面不同 Agent 确实各有所长。将不同 Agent 固化为特定的角色与分工,按需挑选合适的数字员工,甚至让它们协同合作,是一个颇具潜力的方向。

我一直希望将这些工具整合到一个类似斯坦福小镇风格的工作台中,但始终未能正式开工。

前阵子出现的 Marvis 有类似理念的雏形,不过它是一款商业化产品,并不能灵活接入和管理各类 Agent Gateway。

后来在 Claude Code 中将一张 Marvis 截图发给 M3,要求它复刻出一个可自定义接入的本地项目。首先在 Plan 模式下澄清若干需求:

\

随后 M3 全程自主完成 Coding 与搭建,期间未收到任何额外修改指令。

\

耗时 20 多分钟后,最终成果如下:

\

逐一点击测试,完成度相当高,所有按钮和菜单均可正常交互。配置好 API key 后,大模型也能顺利对话。

\

整体来看,除了 SVG 前端绘制得有些抽象之外,M3 在这个项目上的表现令人满意。后续可以使用不同的 gateway 或 API_SERVER 将其他 Agent 接入进来,配置角色与分工。说到底,UI 只是一个前端呈现——不管叫马厩、虾笼,还是套个三国武将的外壳,底层都是 Agent 通信与协作。如果有类似的开源项目也欢迎推荐。


从实测结果来看,M3 本次宣传的核心能力基本都得到了验证。综合来看,Agent 智能体、超长上下文、原生多模态能力三者组合,使得 M3 找到了自己的生态位。背后的技术细节已有不少文章详细讲解,这里不再赘述。

小结

最后聊聊 Token Plan。

对于习惯了 MiniMax 量大管饱风格的老用户而言,M3 的性价比确实不如之前的 M2.7。但商业运营终究需要算账,不可能一直补贴下去。虽然给老用户的迁移方案来得稍晚一些,但总归有了着落。

类似的问题,每个模型公司都会经历,这是迈向成熟的必经之路。MiniMax M3 的这次发布,既有技术上的高光时刻,也有运营上的失误与补救。这也说明,一个好的 AI 模型想要真正赢得用户认可,必须将技术、产品和商业三者都理顺,缺一不可。

M3 的技术实力是过关的。它通过新的 MSA 架构解决了长文本处理的效率与成本问题,同时在代码和多模态理解方面也表现不俗。虽然经历了一些风波,但最终给出了一个具有竞争力的定价与补偿方案。你可以根据实际需求测试 M3 的表现,也可以继续用 M2.7 养虾,都是不错的选择。

无论如何,MiniMax 依然坚持开源路线,为开发者提供了除少数几家闭源巨头之外,更具性价比的高性能选择。M3 的答卷已经交出,剩下的就看市场与开发者的反馈了。

来源:https://cloud.tencent.com.cn/developer/article/2682279
上一篇多模态预训练分子表示在药物发现中的应用研究 下一篇多GPU加速Python智能体随机变分推断层次贝叶斯价格弹性估计
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
手把手教你免费获取小米MiMo百万亿Token及Claude Code配置全流程
AI教程 · 2026-06-04

手把手教你免费获取小米MiMo百万亿Token及Claude Code配置全流程

前言:百万亿Token免费额度领取指南 近期,小米MiMo大模型推出了重磅福利——百万亿Token的免费额度,申请流程极为简便,额度也十分充足,并且支持直接接入Claude Code等主流工具。本文将完整演示从注册申请、获取API密钥,到最终在Claude Code中完成配置的全流程,跟着操作即可轻

Sentinel-3B OLCI L3全球降分辨率叶绿素数据2022.0版
AI教程 · 2026-06-04

Sentinel-3B OLCI L3全球降分辨率叶绿素数据2022.0版

Sentinel-3B OLCI Level-3 Global Mapped Earth-observation Reduced Resolution (ERR) Chlorophyll (CHL) Data, version 2022 0 叶绿素a浓度全球网格化数据集简介 叶绿素a浓度是衡量海洋浮

我每月省千元组建一支全天候云端AI团队
AI教程 · 2026-06-04

我每月省千元组建一支全天候云端AI团队

先说个有意思的现象。 前两天,我的视频生成团队“入职腾讯”了。在WorkBuddy专家团里,不少伙伴已经开始用这个工具做短视频。本来以为这事儿就这么定了,结果这两天,反而开始疯狂返工——我发现它只能生成文字驱动的视频,还不能像真正的视频团队那样,把配图的活儿也给干了。 于是,继续优化。 先给你看个好

如何编写合格的AI工作流指令:提升编辑技能
AI教程 · 2026-06-04

如何编写合格的AI工作流指令:提升编辑技能

如何编写一个合格的 Skill:AI 工作流核心指令集指南 在 AI 工作流的实际应用中,Skill(技能指令)常常被误解。许多人将其与普通提示词(Prompt)混淆,导致写出的指令过于宽泛或模糊,AI 难以精准执行。实际上,Skill 的本质是一套结构化的行为指令集,它引导 AI 助手在特定场景下

TRAE AI编程入门第三讲:Rules、Memory、MCP与Skills突破边界
AI教程 · 2026-06-04

TRAE AI编程入门第三讲:Rules、Memory、MCP与Skills突破边界

最近几天我会逐步公开自己策划的系统化 AI 编程入门课程大纲,欢迎各位提出宝贵建议。 这套课程暂定 4+1 节:4 节主课以 TRAE 为载体,带领大家零基础入门 AI 编程;外加 1 节扩展课,专门为非技术背景的学员补充软件工程基础知识。具体安排如下: 第一节:TRAE AI 编程入门——Vibe