开源模型本地Agent执行效率比Codex快4倍

时间：2026-06-09 16:23

阶跃开源Step3 7Flash模型，198B参数，激活11B，支持多模态与256K长上下文，生成速度达400Tokens s。在Codex中输出速度约比GPT-5 5快4倍。视觉理解与代码能力出色，可解构视频、排查物理缺陷、结合检索定位地点，并高效处理系统问题与教学任务。

最近明显感觉到，Agent在执行任务时越来越稳定可靠。但效率——也就是处理速度——始终是提升的关键瓶颈。如何才能让这些Agent跑得更快？这已成为当前最实际的核心问题。

阶跃近期开源了一款名为Step 3.7 Flash的模型。官方宣称其Agent能力强劲，同时支持多模态输入，作为Flash系列模型，它的推理速度极快。

github.com/stepfun-ai/…

初步体验后，将Step 3.7 Flash接入Codex，它的输出速度确实轻松碾压了GPT-5.5的最快形态，大约快了4倍。

Codex+GPT-5.5最快速的模式：

*注：专门将两者生成的文字复制到飞书文档进行对比，字数均在2500-2600字左右，Step 3.7 Flash生成2500多字，GPT-5.5生成2600多字。

Step 3.7 Flash是一个198B参数的开源多模态大模型，视觉编码器大小为1.8B，激活参数11B。原生支持图像理解，在工具链配合下可处理视频素材，拥有256K的长上下文，最高生成速度可达400 Tokens/s。

为了提升本地Agent在特定场景下的执行效率，我尝试将Step 3.7 Flash接入本地的Claude Code。官方已提供现成的接入指南。

*原本想接入Codex，但为了适配Codex还需要安装一个叫Codex++的中间件，过程繁琐，适配也不够流畅，折腾不少时间后放弃了。

这几天的体验下来，发现Step 3.7 Flash在以下几个场景中表现相当出色。

1. 视频提示词逆向推导，用纯提示词复刻视频

整个体验过程中，Step 3.7 Flash的视觉能力令人印象深刻，特别适合执行需要视觉理解的任务。

例如，让它逆向推导一些精彩视频的提示词，再用纯提示词复刻视频。工作流很简单：把一段短视频交给它分析，让它逆向还原出该视频的提示词，然后将提示词输入新的视频生成AI重新生成，效果出乎意料地好。

以后你看到任意一条效果出色的短视频，都可以快速“解构”它、复刻它、再创作它。对于短视频从业者、品牌方、内容创作者而言，这可能是一个真正节省时间的工具组合。而且它是开源的，API调用成本极低。

过程是这样的：将Step 3.7的Step Plan接入到Claude Code，直接调用Step的API，在工具链支持下，将视频素材交给Step 3.7 Flash分析，让它输出一份用于复刻原视频的分镜文档。

得益于Step 3.7的高速度，分析过程非常迅速，生成了近两百行的分镜文档，从每个镜头的prompt到音乐节奏的考量，再到各个AI工具使用的注意事项，全部涵盖。

然后，将整个逆向推导出的提示词文档直接丢给Seedance2.0，结果一次性就成功了。

这个流程完全可以做成工作流，批量复刻有趣的短视频。Step 3.7 Flash能在整个流程中节省大量时间和token成本。

2. 视频理解：找出违反物理规律的地方

这是DeepSeek V4 Pro一次性生成的小球运动，人眼可以轻易看出存在Bug，有违反物理学的缺陷。

让Step 3.7进行视频理解分析，看看能否准确找出问题，并给出精确的时间点。

结果它确实找出来了，时间点定位相当准确。

做AI视频生成的团队应该会喜欢这个功能。以前每条视频可能需要人工一帧帧检查物理缺陷，现在交给它先过一遍，可以省去不少麻烦。

3. 视觉分析 + 图片联网推理定位地点

不仅能识别视频，还能将视觉线索与联网检索结合起来，这一点也非常实用。

比如这张朋友圈的风景照，你能一眼看出是哪里吗？

看到姑娘的服饰，如果不告知，只能猜测是少数民族地区（可能是新疆）。试着考考Step 3.7 Flash。

Step 3.7首先进行了一轮思考，发现了后面有CCTV字样——这也是我自己乍一看没留意到的地方。然后又发现了露出来的半个招牌，“公羊”二字。接着结合其他辅助信息进行搜索，再思考一轮，直接确定位置精确到新疆伊犁哈萨克自治州伊宁市六星街的黑公羊餐厅店铺。

有点惊人。原本以为能知道大概哪个市就不错了，没想到精确到了具体店铺。

4. 解决Win11经典Bug：系统服务的内存泄漏

最近把系统更新到了Win11，一早起来发现内存爆红。打开任务管理器一看，发现一个进程有点奇怪，占用了将近2.4GB却不使用CPU。

把这张截图发给接入了Step 3.7 Flash的Claude Code询问。发现原来这是一个系统服务的内存泄漏，是Windows 10/11持续了近10年的“经典级”已知Bug，微软多次修复但从未彻底根除。

出于系统安全考虑，Claude Code没有授予最高系统权限。可以看到Step 3.7 Flash积极采用多种方式：重启服务、杀进程、修改注册表等，尝试解决问题，但因为权限不足，未能成功。它很快意识到这一点，转而向我寻求帮助，写了代码一步步指导我去执行。

按照步骤执行完毕后，让它检查，自己又查看了任务管理器——确实已经解决了，清除了内存泄漏，将这项用不到的服务关闭。以后再也不用担心内存泄漏了，又省下2GB内存，可以多开好几个Claude Code了。

所以，Step 3.7 Flash的干活能力确实不错。

5. GeoGebra专业动画教学视频：导入理解后用HTML复刻

GeoGebra是数学教育专业硕士专门开设的一门课程，需要专门学习如何制作动画演示。过程比较复杂，有朋友常常为此苦恼，上课听不懂，需要去B站看教学视频一点点学习，然后一步步跟着做，时间一长又忘记了，要重新学习一遍。

下载了这个B站教学视频，导入给Step 3.7 Flash，看看能否直接复刻一个。这是GeoGebra软件的教学视频，长达一分钟。能理解一分钟视频的国产大模型不多，也不太确定Step 3.7能不能做到。

1分钟的视频内容很丰富，担心它可能会理解出错。但最后发现低估了它——它完全成功理解，并且能按要求写出每一个函数的动画过程。

同意了这个计划，它就开始猛写代码了。一边写，一边自动在浏览器上打开自己写的HTML，逐个按钮进行测试交互检查。

这里有一个小插曲：Step 3.7 Flash太快了，来不及录屏它就搞定了。所以只好让它再操作一遍，说要录屏。

于是它就真的再操作一遍，再检查一遍，逐个按钮点击切换，播放动画。如下面录屏所示，左边是它操作交互的过程，右边是它的思考过程，一边思考一边操作。

我完全没有点击任何按钮，浏览器也不是我打开的，是它自己一边写代码一边操作的。

没想到它直接做出来了，而且是四个函数一起，一口气完成的。虽然和视频里没有100%一样，但已经一口气搞定了几乎90%，确实有点东西。

关于价格

好多次评论区都会问到相关模型、工具的价格，这次一并介绍。

Step 3.7 Flash有个Step Plan，价格上不算特别便宜，但真的好耐用。

按照每5小时的次数来限制，和Codex的订阅制有点像。按一定时间限制次数这种用起来最爽，完全不用管token消耗了多少。真的耐用。一开始还怕便宜一点的套餐不够用，直接上了Pro……结果陆续跑了几天，连零头都没用到。

这很适合用在Claude Code、Codex里，给Agent们当眼睛，关键是识别和输出都挺快的。如果用量不大，可以直接用API额度：

最后

整体用下来，Step 3.7 Flash不算是那种特别强的视觉模型，毕竟参数量摆在那。但视觉理解能力强，代码能力也不错，推理能力在线，速度非常快，也非常的耐用。

在合适的场景下，它算是性价比挺高的一款模型。当然，让它处理一些非常复杂的任务，肯定还是比不上Codex+GPT-5.5。但在很多不那么复杂的场景里其实是够用的，关键是速度快，让一个用惯了Codex“老爷车”的人，一下子还有点不习惯。

前两天参加腾讯云的AI峰会，被采访时问到一个问题：“你觉得今年的Agent跟去年的Agent有什么不一样？”

简单思考后回答：“今年的Agent干活越来越稳了，跑任务所需的时间也更长了。”

在Agent干活质量越来越稳定之后，效率一定是Agent下个阶段所要追求的重要指标。时间 > 金钱，用钱能买来时间，一定是划算的。目前看来，更好的方式是：强大的模型负责难题思考，快模型负责干活。这可能才是Agent的正确打开方式。

来源：https://juejin.cn/post/7648903840466288650

开源模型

上一篇幼儿PPT教学AI辅助工具提升学习兴趣与教学质量 下一篇AI生成PPT工具如何满足市场需求提升效率

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。