游乐游手机版
首页/科技数码/文章详情

阶跃开源Step 3.7 Flash落地企业生产级Agent

时间:2026-05-29 19:28
要让Agent真正从演示阶段跨越到企业级的生产环境,中间究竟还差哪几步?答案其实很清晰:基础模型不能仅仅停留在“能回答问题”的水平,它需要能理解更复杂的输入、主动搜索信息、稳定地调用工具,还要能在长达数轮的任务执行中始终保持一致性、不掉链子。简单来说,模型能力的评价标准正在发生关键转变——不再单纯追

要让Agent真正从演示阶段跨越到企业级的生产环境,中间究竟还差哪几步?答案其实很清晰:基础模型不能仅仅停留在“能回答问题”的水平,它需要能理解更复杂的输入、主动搜索信息、稳定地调用工具,还要能在长达数轮的任务执行中始终保持一致性、不掉链子。简单来说,模型能力的评价标准正在发生关键转变——不再单纯追求“谁更聪明”,而是更看重效率、可靠性以及能否实现大规模部署。

正是在这一背景下,阶跃星辰于5月29日开源了其新一代Flash模型——Step 3.7 Flash。从命名就能看出,这是一款专为生产级Agent打造的模型。目标很直接:在速度、成本、执行可靠性以及复杂任务处理能力之间,找到一个更务实的平衡点。

架构与性能:为高频调用而设计

先看技术基础。Step 3.7 Flash采用稀疏MoE架构,总参数量达到196B,并配备1.8B的ViT(视觉Transformer)。值得关注的是,它每次推理时激活的参数仅约11B,最高生成速度可达每秒400个token,上下文窗口支持256k。此外,它还提供低、中、高三档推理级别,让开发者能根据实际场景,在响应速度、token消耗和模型能力之间按需取舍。较低的激活参数配合较高的生成速度,意味着它非常适合高频、多轮的Agent调用场景——这正是生产环境中最常见的需求。

能力优化:从理解到执行

在具体能力上,Step 3.7 Flash围绕生产级Agent的核心痛点做了多项针对性优化。它支持原生多模态理解,可以直接处理UI界面、图表、文档、图片以及各类应用界面,将复杂的视觉信息转化为结构化的结果和可执行的任务。更关键的是,当信息不确定时,模型会主动发起联网与视觉搜索,进行交叉验证——这不再是单纯的“问答机器”,而是具备了一定自主判断力的执行体。

对于Agent而言,工具调用的可靠性是生死线。Step 3.7 Flash在这方面做了专门优化,能够在长程多轮的工作流中稳定调用API、浏览器、终端、Office工具等,大幅降低“跑偏”或执行失败的风险。最新的基准测试数据也印证了这一点:在SimpleVQA(with Tool)和V*(with Python)等复杂视觉任务上,它的表现已经接近规模更大的旗舰模型;在考察多工具协同的Toolathlon上得分49.5%,在衡量真实环境下日常自主任务执行的ClawEval-1.1上达到67.1%,在横跨44种职业的GDPval上拿到45.8%,而在τ²-bench Telecom的低、中、高三档推理难度下,通过率均超过了98%。

除了模型本身,阶跃在生态兼容方面也没有忽视。Step 3.7 Flash可以稳定接入Claude Code、OpenClaw、Hermes Agent、KiloCode、RooCode、OpenCode等主流Coding与Agent工具,同时支持MCP、Skills等协议,无论是云端部署还是本地部署都能适用。这套组合拳的目的很明确:降低开发者的接入和工作流编排成本,让大家能把更多精力放在业务逻辑上,而不是折腾模型适配。

从实测到市场:Flash系列的延续

我们也亲自上手试了试。输入一句“做一份美伊局势的分析PPT”,系统几乎是同时生成了四个不同风格、不同配色的版本,每个版本都是六到八页的完整成稿。单个版本的生成耗时在数十秒量级,这种批量、连续出活的速度,在需要快速迭代的场景下,效果是非常直观的。

这实际上是阶跃在Flash系列上的延续。今年2月开源的上一代Step 3.5 Flash,将预训练权重、中训练权重连同配套的Steptron训练框架全链路都开源了。上线一个月,就在OpenRouter平台的OpenClaw(开发者昵称“小龙虾”)调用量月榜上登顶全球第一,HuggingFace上的下载量也超过了30万。

开源的差异化路线

面向Agent的高效模型正成为各大厂商竞争的新焦点。本月19日的Google I/O上,谷歌发布了Gemini 3.5 Flash,宣称其在编程和Agent基准上已超越上一代旗舰Gemini 3.1 Pro,输出速度是同级前沿模型的四倍。不过,与谷歌、Anthropic Claude Haiku等走闭源API路线的同类模型不同,阶跃选择了将Step 3.7 Flash连同模型权重一并开源。这意味着开发者可以自行部署和调整,拥有更高的掌控力。

业内人士普遍认为,Flash类模型的角色正在转变——它不再是轻量级的“替代品”,而逐步成为支撑生产级Agent规模化落地的关键基础设施。阶跃自己也表示,后续将围绕Step 3.7 Flash推出生态共建计划和限时体验活动,与开发者一起探索Agent效率的评估方式、工程实践和生产化路径。

从公司层面来看,阶跃星辰成立于2024年,CEO是姜大昕,董事长则是旷视科技联合创始人印奇。印奇加入后,公司把战略锚定在“AI+终端”上,收入采取端侧按License收费、云侧按消耗计费的模式。目前,其模型已作为系统级能力预装进OPPO、荣耀等手机厂商的设备,总装机量超过4200万台,公司也正在推进港股上市。

来源:https://www.163.com/dy/article/KU482CSF051481US.html
上一篇傲意科技微创脑科学合作共研介入式脑机接口 下一篇蓝色起源火箭爆炸致美国登月计划受阻 马斯克表不幸
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
宫本茂亲签3DS XL拍卖价破两万美元
科技数码 · 2026-05-29

宫本茂亲签3DS XL拍卖价破两万美元

今天来说一件挺有意思的事:2015年任天堂世界锦标赛冠军约翰·戈德堡,近日将他当年夺冠时赢得的宫本茂亲笔签名版3DS XL掌机放上了拍卖平台。截至2026年5月29日,这台签名掌机的竞拍价已突破两万美元,并且价格还在持续攀升。戈德堡在社交媒体上发布声明表示,经过相当长时间的慎重考虑,他决定将这台对自

七彩虹隐星P16 Pro游戏本新配置仅售7799元
科技数码 · 2026-05-29

七彩虹隐星P16 Pro游戏本新配置仅售7799元

七彩虹近期推出隐星P16Pro游戏本新配置,售价7799元。其搭载酷睿i9-13900HX处理器与RTX5060显卡,配备16英寸2 5K高刷电竞屏及高效散热系统。存储组合为16GB内存与1TB固态硬盘,支持后续扩展。该配置主打高性能性价比,适合预算有限但追求强劲性能的游戏玩家与轻度创作者。

苹果iPhone Hikawa握把支架448元重新上架
科技数码 · 2026-05-29

苹果iPhone Hikawa握把支架448元重新上架

苹果公司重新上架了与艺术家贝利·桧川及PopSockets合作设计的iPhone专用握把支架。该配件采用磁吸设计,兼具握持与支架功能,旨在通过人性化设计降低握持负担,并提供三种配色可选,售价448元。

苹果体育应用扩展至170市场 为2026世界杯引入对阵图
科技数码 · 2026-05-29

苹果体育应用扩展至170市场 为2026世界杯引入对阵图

苹果体育应用新增覆盖90多个国家和地区,全球可用市场总数超过170个。为迎接2026年世界杯,应用加入了完整的赛程对阵图和可视化阵型卡片,方便用户追踪赛事与战术。同时,应用支持实时活动功能,可将比分固定在锁屏或表盘,并新增一键跳转至新闻的入口。目前该应用仍仅限iPhone用户使用。

小米史上最强国产巅峰芯片玄戒O3 6月台积电3nm投产
科技数码 · 2026-05-29

小米史上最强国产巅峰芯片玄戒O3 6月台积电3nm投产

据博主爆料,小米下一代自研玄戒芯片计划于今年6月正式进入量产阶段,此次将采用台积电3nm工艺。初代玄戒O1累计出货量已突破100万颗,量产验证十分扎实。新一代芯片的产能将显著提升,这意味着供货问题基本得到解决。 根据现有曝光信息,这颗迭代芯片极有可能命名为玄戒O3,首发搭载机型预计为小米MIX Fo