要让Agent真正从演示阶段跨越到企业级的生产环境,中间究竟还差哪几步?答案其实很清晰:基础模型不能仅仅停留在“能回答问题”的水平,它需要能理解更复杂的输入、主动搜索信息、稳定地调用工具,还要能在长达数轮的任务执行中始终保持一致性、不掉链子。简单来说,模型能力的评价标准正在发生关键转变——不再单纯追求“谁更聪明”,而是更看重效率、可靠性以及能否实现大规模部署。
正是在这一背景下,阶跃星辰于5月29日开源了其新一代Flash模型——Step 3.7 Flash。从命名就能看出,这是一款专为生产级Agent打造的模型。目标很直接:在速度、成本、执行可靠性以及复杂任务处理能力之间,找到一个更务实的平衡点。
架构与性能:为高频调用而设计
先看技术基础。Step 3.7 Flash采用稀疏MoE架构,总参数量达到196B,并配备1.8B的ViT(视觉Transformer)。值得关注的是,它每次推理时激活的参数仅约11B,最高生成速度可达每秒400个token,上下文窗口支持256k。此外,它还提供低、中、高三档推理级别,让开发者能根据实际场景,在响应速度、token消耗和模型能力之间按需取舍。较低的激活参数配合较高的生成速度,意味着它非常适合高频、多轮的Agent调用场景——这正是生产环境中最常见的需求。
能力优化:从理解到执行
在具体能力上,Step 3.7 Flash围绕生产级Agent的核心痛点做了多项针对性优化。它支持原生多模态理解,可以直接处理UI界面、图表、文档、图片以及各类应用界面,将复杂的视觉信息转化为结构化的结果和可执行的任务。更关键的是,当信息不确定时,模型会主动发起联网与视觉搜索,进行交叉验证——这不再是单纯的“问答机器”,而是具备了一定自主判断力的执行体。
对于Agent而言,工具调用的可靠性是生死线。Step 3.7 Flash在这方面做了专门优化,能够在长程多轮的工作流中稳定调用API、浏览器、终端、Office工具等,大幅降低“跑偏”或执行失败的风险。最新的基准测试数据也印证了这一点:在SimpleVQA(with Tool)和V*(with Python)等复杂视觉任务上,它的表现已经接近规模更大的旗舰模型;在考察多工具协同的Toolathlon上得分49.5%,在衡量真实环境下日常自主任务执行的ClawEval-1.1上达到67.1%,在横跨44种职业的GDPval上拿到45.8%,而在τ²-bench Telecom的低、中、高三档推理难度下,通过率均超过了98%。

除了模型本身,阶跃在生态兼容方面也没有忽视。Step 3.7 Flash可以稳定接入Claude Code、OpenClaw、Hermes Agent、KiloCode、RooCode、OpenCode等主流Coding与Agent工具,同时支持MCP、Skills等协议,无论是云端部署还是本地部署都能适用。这套组合拳的目的很明确:降低开发者的接入和工作流编排成本,让大家能把更多精力放在业务逻辑上,而不是折腾模型适配。
从实测到市场:Flash系列的延续
我们也亲自上手试了试。输入一句“做一份美伊局势的分析PPT”,系统几乎是同时生成了四个不同风格、不同配色的版本,每个版本都是六到八页的完整成稿。单个版本的生成耗时在数十秒量级,这种批量、连续出活的速度,在需要快速迭代的场景下,效果是非常直观的。

这实际上是阶跃在Flash系列上的延续。今年2月开源的上一代Step 3.5 Flash,将预训练权重、中训练权重连同配套的Steptron训练框架全链路都开源了。上线一个月,就在OpenRouter平台的OpenClaw(开发者昵称“小龙虾”)调用量月榜上登顶全球第一,HuggingFace上的下载量也超过了30万。
开源的差异化路线
面向Agent的高效模型正成为各大厂商竞争的新焦点。本月19日的Google I/O上,谷歌发布了Gemini 3.5 Flash,宣称其在编程和Agent基准上已超越上一代旗舰Gemini 3.1 Pro,输出速度是同级前沿模型的四倍。不过,与谷歌、Anthropic Claude Haiku等走闭源API路线的同类模型不同,阶跃选择了将Step 3.7 Flash连同模型权重一并开源。这意味着开发者可以自行部署和调整,拥有更高的掌控力。
业内人士普遍认为,Flash类模型的角色正在转变——它不再是轻量级的“替代品”,而逐步成为支撑生产级Agent规模化落地的关键基础设施。阶跃自己也表示,后续将围绕Step 3.7 Flash推出生态共建计划和限时体验活动,与开发者一起探索Agent效率的评估方式、工程实践和生产化路径。
从公司层面来看,阶跃星辰成立于2024年,CEO是姜大昕,董事长则是旷视科技联合创始人印奇。印奇加入后,公司把战略锚定在“AI+终端”上,收入采取端侧按License收费、云侧按消耗计费的模式。目前,其模型已作为系统级能力预装进OPPO、荣耀等手机厂商的设备,总装机量超过4200万台,公司也正在推进港股上市。
