阶跃开源Step 3.7 Flash落地企业生产级Agent

时间：2026-05-29 19:28

要让Agent真正从演示阶段跨越到企业级的生产环境，中间究竟还差哪几步？答案其实很清晰：基础模型不能仅仅停留在“能回答问题”的水平，它需要能理解更复杂的输入、主动搜索信息、稳定地调用工具，还要能在长达数轮的任务执行中始终保持一致性、不掉链子。简单来说，模型能力的评价标准正在发生关键转变——不再单纯追

正是在这一背景下，阶跃星辰于5月29日开源了其新一代Flash模型——Step 3.7 Flash。从命名就能看出，这是一款专为生产级Agent打造的模型。目标很直接：在速度、成本、执行可靠性以及复杂任务处理能力之间，找到一个更务实的平衡点。

架构与性能：为高频调用而设计

先看技术基础。Step 3.7 Flash采用稀疏MoE架构，总参数量达到196B，并配备1.8B的ViT（视觉Transformer）。值得关注的是，它每次推理时激活的参数仅约11B，最高生成速度可达每秒400个token，上下文窗口支持256k。此外，它还提供低、中、高三档推理级别，让开发者能根据实际场景，在响应速度、token消耗和模型能力之间按需取舍。较低的激活参数配合较高的生成速度，意味着它非常适合高频、多轮的Agent调用场景——这正是生产环境中最常见的需求。

能力优化：从理解到执行

在具体能力上，Step 3.7 Flash围绕生产级Agent的核心痛点做了多项针对性优化。它支持原生多模态理解，可以直接处理UI界面、图表、文档、图片以及各类应用界面，将复杂的视觉信息转化为结构化的结果和可执行的任务。更关键的是，当信息不确定时，模型会主动发起联网与视觉搜索，进行交叉验证——这不再是单纯的“问答机器”，而是具备了一定自主判断力的执行体。

对于Agent而言，工具调用的可靠性是生死线。Step 3.7 Flash在这方面做了专门优化，能够在长程多轮的工作流中稳定调用API、浏览器、终端、Office工具等，大幅降低“跑偏”或执行失败的风险。最新的基准测试数据也印证了这一点：在SimpleVQA（with Tool）和V*（with Python）等复杂视觉任务上，它的表现已经接近规模更大的旗舰模型；在考察多工具协同的Toolathlon上得分49.5%，在衡量真实环境下日常自主任务执行的ClawEval-1.1上达到67.1%，在横跨44种职业的GDPval上拿到45.8%，而在τ²-bench Telecom的低、中、高三档推理难度下，通过率均超过了98%。

除了模型本身，阶跃在生态兼容方面也没有忽视。Step 3.7 Flash可以稳定接入Claude Code、OpenClaw、Hermes Agent、KiloCode、RooCode、OpenCode等主流Coding与Agent工具，同时支持MCP、Skills等协议，无论是云端部署还是本地部署都能适用。这套组合拳的目的很明确：降低开发者的接入和工作流编排成本，让大家能把更多精力放在业务逻辑上，而不是折腾模型适配。

从实测到市场：Flash系列的延续

我们也亲自上手试了试。输入一句“做一份美伊局势的分析PPT”，系统几乎是同时生成了四个不同风格、不同配色的版本，每个版本都是六到八页的完整成稿。单个版本的生成耗时在数十秒量级，这种批量、连续出活的速度，在需要快速迭代的场景下，效果是非常直观的。

这实际上是阶跃在Flash系列上的延续。今年2月开源的上一代Step 3.5 Flash，将预训练权重、中训练权重连同配套的Steptron训练框架全链路都开源了。上线一个月，就在OpenRouter平台的OpenClaw（开发者昵称“小龙虾”）调用量月榜上登顶全球第一，HuggingFace上的下载量也超过了30万。

开源的差异化路线

面向Agent的高效模型正成为各大厂商竞争的新焦点。本月19日的Google I/O上，谷歌发布了Gemini 3.5 Flash，宣称其在编程和Agent基准上已超越上一代旗舰Gemini 3.1 Pro，输出速度是同级前沿模型的四倍。不过，与谷歌、Anthropic Claude Haiku等走闭源API路线的同类模型不同，阶跃选择了将Step 3.7 Flash连同模型权重一并开源。这意味着开发者可以自行部署和调整，拥有更高的掌控力。

业内人士普遍认为，Flash类模型的角色正在转变——它不再是轻量级的“替代品”，而逐步成为支撑生产级Agent规模化落地的关键基础设施。阶跃自己也表示，后续将围绕Step 3.7 Flash推出生态共建计划和限时体验活动，与开发者一起探索Agent效率的评估方式、工程实践和生产化路径。

从公司层面来看，阶跃星辰成立于2024年，CEO是姜大昕，董事长则是旷视科技联合创始人印奇。印奇加入后，公司把战略锚定在“AI+终端”上，收入采取端侧按License收费、云侧按消耗计费的模式。目前，其模型已作为系统级能力预装进OPPO、荣耀等手机厂商的设备，总装机量超过4200万台，公司也正在推进港股上市。

来源：https://www.163.com/dy/article/KU482CSF051481US.html

Step