5月29日,基础大模型创业公司阶跃星辰正式发布并开源了 Step 3.7 Flash 模型。这款专为生产级 Agent 打造的 Flash 模型,据称在速度、成本、可靠执行以及复杂任务处理能力之间实现了更优平衡。
Agent 正从演示阶段快速迈向真实的企业生产环境,这给基础模型带来了全新挑战。不再仅仅比拼峰值智能——而是要在应用场景中追求规模化的高效智能。换句话说,模型不仅要能回答问题,更要理解复杂输入、主动搜索信息、稳定调用工具,并在多轮长程任务中保持执行的一致性。
那么,Step 3.7 Flash 具体采用了什么配置?它基于稀疏 MoE 架构,总参数达到 196B+1.8B(ViT),激活参数仅为 11B,最高生成速度可达 400 Tokens/s。这种配置特别适合高频、多轮的 Agent 应用场景,能够显著提升任务完成效率。从能力来看,模型针对生产级 Agent 场景的需求,重点优化了四个方面:原生多模态理解与执行、联网与视觉搜索增强、高可靠工具调用与编排,以及 Agent 生态兼容性。
具体来说,Step 3.7 Flash 可以直接处理 UI 界面、图表、文档、图片以及各类应用界面,把复杂的视觉信息转化为结构化的结果和可执行的任务。遇到信息不确定的情况,它还会主动发起搜索进行交叉验证。而在生产级 Agent 最核心的环节——工具调用的可靠性上,该模型做了专门的优化,能在长程多轮工作流中稳定调用 API、浏览器、终端、Office 工具等,显著降低跑偏和执行失败的风险。

图为Step 3.7 基准测试结果
从基准测试数据来看,Step 3.7 Flash 在 SimpleVQA (Search)、V* (Python) 这类复杂视觉任务的 Benchmark 上,展现出足以媲美更大规模旗舰模型的能力。在考察多工具协同的 Toolathlon 测试中,它取得了 49.5% 的成绩;在衡量真实环境下日常自主任务执行的 ClawEval-1.1 上,得分为 67.1%;在横跨 44 种职业的 GDPval 上达到了 45.8%。更令人印象深刻的是,在 τ²-bench Telecom 的低、中、高三个推理难度下,通过率均超过 98%。这意味着在真实的多轮 Agent 工作流中,模型能稳定调用 API、浏览器、终端、Office 和外部系统,保持任务轨迹一致,跑偏和执行失败的风险显著降低。
阶跃星辰还对主流 Agent 框架和工具调用协议做了兼容性优化。Step 3.7 Flash 可以稳定接入 Claude Code、OpenClaw、Hermes Agent 等主流的 Coding 与 Agent 工具,并同时支持云端和本地部署,有效降低了开发者的接入门槛和工作流编排成本。
在行业观察者看来,随着各行各业加速推进 Agent 落地,Step 3.7 Flash 的设计理念也传递出一个重要信号:Flash 类模型的角色正在发生转变——从单纯的轻量替代品,逐步演变为支撑生产级 Agent 规模化落地的基础设施。今年 2 月,阶跃开源了该系列的上一个版本 Step 3.5 Flash,同样主打极速、高效地完成 Agent 场景任务,上线仅一个月就登顶 OpenRouter 平台 OpenClaw 调用量月榜全球第一。
阶跃方面透露,后续将围绕 Step 3.7 Flash 推出生态共建计划和生态伙伴限时体验活动,与开发者一起探索 Agent 效率的评估方式、工程实践以及落地场景。
