阶跃发布Step3.7Flash面向生产的高效Agent模型

时间：2026-05-30 11:34

5月29日，基础大模型创业公司阶跃星辰正式发布并开源了 Step 3 7 Flash 模型。这款专为生产级 Agent 打造的 Flash 模型，据称在速度、成本、可靠执行以及复杂任务处理能力之间实现了更优平衡。 Agent 正从演示阶段快速迈向真实的企业生产环境，这给基础模型带来了全新挑战。不再仅

5月29日，基础大模型创业公司阶跃星辰正式发布并开源了 Step 3.7 Flash 模型。这款专为生产级 Agent 打造的 Flash 模型，据称在速度、成本、可靠执行以及复杂任务处理能力之间实现了更优平衡。

Agent 正从演示阶段快速迈向真实的企业生产环境，这给基础模型带来了全新挑战。不再仅仅比拼峰值智能——而是要在应用场景中追求规模化的高效智能。换句话说，模型不仅要能回答问题，更要理解复杂输入、主动搜索信息、稳定调用工具，并在多轮长程任务中保持执行的一致性。

那么，Step 3.7 Flash 具体采用了什么配置？它基于稀疏 MoE 架构，总参数达到 196B+1.8B（ViT），激活参数仅为 11B，最高生成速度可达 400 Tokens/s。这种配置特别适合高频、多轮的 Agent 应用场景，能够显著提升任务完成效率。从能力来看，模型针对生产级 Agent 场景的需求，重点优化了四个方面：原生多模态理解与执行、联网与视觉搜索增强、高可靠工具调用与编排，以及 Agent 生态兼容性。

具体来说，Step 3.7 Flash 可以直接处理 UI 界面、图表、文档、图片以及各类应用界面，把复杂的视觉信息转化为结构化的结果和可执行的任务。遇到信息不确定的情况，它还会主动发起搜索进行交叉验证。而在生产级 Agent 最核心的环节——工具调用的可靠性上，该模型做了专门的优化，能在长程多轮工作流中稳定调用 API、浏览器、终端、Office 工具等，显著降低跑偏和执行失败的风险。

阶跃发布 Step 3.7 Flash：为生产级场景打造高效率 Agent 模型

图为Step 3.7 基准测试结果

从基准测试数据来看，Step 3.7 Flash 在 SimpleVQA (Search)、V* (Python) 这类复杂视觉任务的 Benchmark 上，展现出足以媲美更大规模旗舰模型的能力。在考察多工具协同的 Toolathlon 测试中，它取得了 49.5% 的成绩；在衡量真实环境下日常自主任务执行的 ClawEval-1.1 上，得分为 67.1%；在横跨 44 种职业的 GDPval 上达到了 45.8%。更令人印象深刻的是，在 τ²-bench Telecom 的低、中、高三个推理难度下，通过率均超过 98%。这意味着在真实的多轮 Agent 工作流中，模型能稳定调用 API、浏览器、终端、Office 和外部系统，保持任务轨迹一致，跑偏和执行失败的风险显著降低。

阶跃星辰还对主流 Agent 框架和工具调用协议做了兼容性优化。Step 3.7 Flash 可以稳定接入 Claude Code、OpenClaw、Hermes Agent 等主流的 Coding 与 Agent 工具，并同时支持云端和本地部署，有效降低了开发者的接入门槛和工作流编排成本。

在行业观察者看来，随着各行各业加速推进 Agent 落地，Step 3.7 Flash 的设计理念也传递出一个重要信号：Flash 类模型的角色正在发生转变——从单纯的轻量替代品，逐步演变为支撑生产级 Agent 规模化落地的基础设施。今年 2 月，阶跃开源了该系列的上一个版本 Step 3.5 Flash，同样主打极速、高效地完成 Agent 场景任务，上线仅一个月就登顶 OpenRouter 平台 OpenClaw 调用量月榜全球第一。

阶跃方面透露，后续将围绕 Step 3.7 Flash 推出生态共建计划和生态伙伴限时体验活动，与开发者一起探索 Agent 效率的评估方式、工程实践以及落地场景。

来源：https://www.leiphone.com/category/industrynews/ZLYbJRAV6CIDAqcL.html

Step

上一篇美团即时零售AI方案发布，一条指令管理百家门店 下一篇戴尔单季营收438亿美元创纪录 AI服务器收入暴涨757%

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略，采用“1+N+X”布局，联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm，体重69kg，移动速度0 8m s，具备40个自由度，续航超2小时。预计明年一季度发布首款车载组件机器人，已在广州车展展示。

业界动态 · 2026-06-29

中国信科刷新光通信世界纪录每秒可下载1.4万部4K电影

3月25日，光通信领域迎来又一个里程碑：中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司，成功实现了2 5Pb s 24芯光纤超大容量实时光传输，再次刷新了世界纪录。这一研究成果不仅入选国际顶级光通信会议OFC（2026）并荣获“高分论文”称号，还受国际权威SCI

业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查，焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿，不意味着立即召回，但可能引发后续监管措施。

业界动态 · 2026-06-29

doc个人图书馆停服创始人称无偿转让失败

运营长达20年，累计服务8000万用户的360doc个人图书馆，最终还是迎来了谢幕时刻。2026年5月1日，这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失，而是始终未能寻得一位能够安全接管的合适人选。创始人蔡智在告别信中坦言，近两个月来，他一直在尝试将360doc无偿转

业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月，艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证，紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后，折射出一个清晰的市场趋势：移动办公、户外出行、宿舍上网等场景的需求正在快速增长，随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿