游乐游手机版
首页/业界动态/文章详情

阶跃发布Step3.7Flash面向生产的高效Agent模型

时间:2026-05-30 11:34
5月29日,基础大模型创业公司阶跃星辰正式发布并开源了 Step 3 7 Flash 模型。这款专为生产级 Agent 打造的 Flash 模型,据称在速度、成本、可靠执行以及复杂任务处理能力之间实现了更优平衡。 Agent 正从演示阶段快速迈向真实的企业生产环境,这给基础模型带来了全新挑战。不再仅

5月29日,基础大模型创业公司阶跃星辰正式发布并开源了 Step 3.7 Flash 模型。这款专为生产级 Agent 打造的 Flash 模型,据称在速度、成本、可靠执行以及复杂任务处理能力之间实现了更优平衡。

Agent 正从演示阶段快速迈向真实的企业生产环境,这给基础模型带来了全新挑战。不再仅仅比拼峰值智能——而是要在应用场景中追求规模化的高效智能。换句话说,模型不仅要能回答问题,更要理解复杂输入、主动搜索信息、稳定调用工具,并在多轮长程任务中保持执行的一致性。

那么,Step 3.7 Flash 具体采用了什么配置?它基于稀疏 MoE 架构,总参数达到 196B+1.8B(ViT),激活参数仅为 11B,最高生成速度可达 400 Tokens/s。这种配置特别适合高频、多轮的 Agent 应用场景,能够显著提升任务完成效率。从能力来看,模型针对生产级 Agent 场景的需求,重点优化了四个方面:原生多模态理解与执行、联网与视觉搜索增强、高可靠工具调用与编排,以及 Agent 生态兼容性。

具体来说,Step 3.7 Flash 可以直接处理 UI 界面、图表、文档、图片以及各类应用界面,把复杂的视觉信息转化为结构化的结果和可执行的任务。遇到信息不确定的情况,它还会主动发起搜索进行交叉验证。而在生产级 Agent 最核心的环节——工具调用的可靠性上,该模型做了专门的优化,能在长程多轮工作流中稳定调用 API、浏览器、终端、Office 工具等,显著降低跑偏和执行失败的风险。

阶跃发布 Step 3.7 Flash:为生产级场景打造高效率 Agent 模型

图为Step 3.7 基准测试结果

从基准测试数据来看,Step 3.7 Flash 在 SimpleVQA (Search)、V* (Python) 这类复杂视觉任务的 Benchmark 上,展现出足以媲美更大规模旗舰模型的能力。在考察多工具协同的 Toolathlon 测试中,它取得了 49.5% 的成绩;在衡量真实环境下日常自主任务执行的 ClawEval-1.1 上,得分为 67.1%;在横跨 44 种职业的 GDPval 上达到了 45.8%。更令人印象深刻的是,在 τ²-bench Telecom 的低、中、高三个推理难度下,通过率均超过 98%。这意味着在真实的多轮 Agent 工作流中,模型能稳定调用 API、浏览器、终端、Office 和外部系统,保持任务轨迹一致,跑偏和执行失败的风险显著降低。

阶跃星辰还对主流 Agent 框架和工具调用协议做了兼容性优化。Step 3.7 Flash 可以稳定接入 Claude Code、OpenClaw、Hermes Agent 等主流的 Coding 与 Agent 工具,并同时支持云端和本地部署,有效降低了开发者的接入门槛和工作流编排成本。

在行业观察者看来,随着各行各业加速推进 Agent 落地,Step 3.7 Flash 的设计理念也传递出一个重要信号:Flash 类模型的角色正在发生转变——从单纯的轻量替代品,逐步演变为支撑生产级 Agent 规模化落地的基础设施。今年 2 月,阶跃开源了该系列的上一个版本 Step 3.5 Flash,同样主打极速、高效地完成 Agent 场景任务,上线仅一个月就登顶 OpenRouter 平台 OpenClaw 调用量月榜全球第一。

阶跃方面透露,后续将围绕 Step 3.7 Flash 推出生态共建计划和生态伙伴限时体验活动,与开发者一起探索 Agent 效率的评估方式、工程实践以及落地场景。

来源:https://www.leiphone.com/category/industrynews/ZLYbJRAV6CIDAqcL.html
上一篇美团即时零售AI方案发布,一条指令管理百家门店 下一篇戴尔单季营收438亿美元创纪录 AI服务器收入暴涨757%
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
长安汽车明年一季度发布首款车载人形机器人小安
业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略,采用“1+N+X”布局,联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm,体重69kg,移动速度0 8m s,具备40个自由度,续航超2小时。预计明年一季度发布首款车载组件机器人,已在广州车展展示。

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影
业界动态 · 2026-06-29

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影

3月25日,光通信领域迎来又一个里程碑:中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司,成功实现了2 5Pb s 24芯光纤超大容量实时光传输,再次刷新了世界纪录。 这一研究成果不仅入选国际顶级光通信会议OFC(2026)并荣获“高分论文”称号,还受国际权威SCI

美国调查18万辆特斯拉Model3车门应急释放装置易找性
业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查,焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿,不意味着立即召回,但可能引发后续监管措施。

doc个人图书馆停服 创始人称无偿转让失败
业界动态 · 2026-06-29

doc个人图书馆停服 创始人称无偿转让失败

运营长达20年,累计服务8000万用户的360doc个人图书馆,最终还是迎来了谢幕时刻。2026年5月1日,这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失,而是始终未能寻得一位能够安全接管的合适人选。 创始人蔡智在告别信中坦言,近两个月来,他一直在尝试将360doc无偿转

年Q1随身WiFi实测安全靠谱高性价比机型推荐
业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月,艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证,紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后,折射出一个清晰的市场趋势:移动办公、户外出行、宿舍上网等场景的需求正在快速增长,随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿