游乐游手机版
首页/科技数码/文章详情

深度拆解Step-DeepResearch:阶跃星辰首个单智能体架构详解

时间:2026-01-26 20:58
转载自:阶跃星辰比肩 gemini、成本直降 90%!向大家介绍我们最新端到端深度研究智能体模型:step-deepresearch。它能做什么?会思考:懂规划、会反思、还能自主验证信息的真伪,不只

转载自:阶跃星辰

比肩 gemini、成本直降 90%!

向大家介绍我们最新端到端深度研究智能体模型:step-deepresearch。


它能做什么?

会思考:懂规划、会反思、还能自主验证信息的真伪,不只是数据爬虫。

更专业:结合高质量搜索 api,内置 2000 万+ 高质量文档库和 600+ 权威站点索引,过滤低信源信息干扰。

更聪明:独特的原子能力训练法,让模型把“专家思维”内化在骨子里。

在针对真实复杂场景的 adr-bench 评测中,step-deepresearch 表现出极强竞争力,在多个维度上全面超越海内外一线 deepresearch 产品和模型,包括基于千亿级甚至万亿级参数 moe 架构的 gemini deepresearch、openai deepresearch 等模型。

而 step-deepresearch 仅基于单智能体架构实现。


在我们的技术报告全面公开后,立刻引发海内外社区热烈讨论,并入选 huggingface daily papers。



现在,我们开启 api 内测,欢迎大家踊跃体验!

论文地址:https://arxiv.org/pdf/2512.20491

github:https://github.com/stepfun-ai/stepdeepresearch

api 内测:https://wvixbzgc0u7.feishu.cn/share/base/form/shrcn8cp78pjgkjvvih2c3ef3cc

最新主页:https://www.stepfun.com/deep-research-invitation

step-deepresearch 在多项权威基准测试中都达到全球顶尖水平。

在 research rubrics 上,step-deepresearch 得分 61.42%,仅次于 gemini deepresearch(约 63.69分),且超越了 openai deepresearch。


在“引用质量”和“沟通质量”两个维度上达到了行业最高水平。


在针对真实研究场景的 adr-bench 评测中,step-deepresearch 的人类 elo 评分在多个维度处于第一梯队。

特别是在与 gemini deepresearch等顶尖模型的直接博弈中,其“胜+平”率高达67.1%,证明了其生成的报告质量已达到当前最先进水平。


step-deepresearch 引用最新行业动态(step-gui、豆包手机等),来自上百条条高质量信源,内容覆盖底层技术、应用、挑战与争议,客观全面分析议题,达到标准调深度研报告水平。


▲上下滑动查看详细内容

step-deepresearch 的主要创新可归纳为3方面:

基于原子能力的数据合成策略

渐进式智能体训练范式

自建 adr-bench 评估体系

我们将深度研究能力拆分为四个原子能力,并针对性地合成数据进行强化。

规划与任务拆解:能将模糊、宏大的用户需求拆解为可执行的子任务,并根据环境反馈动态调整路径。

深度信息搜索:具备多跳推理能力,能在信息不完整时进行“主动拓扑行走”,挖掘隐藏实体。

反思与验证:拥有“自纠错”和“事实核查”能力,能识别自身错误并区分网络信息的真伪,通过跨源验证确保逻辑严密。

报告生成:通过中期训练(mid-training)学习专家写作风格,并利用 sft 确保报告严格遵循规划结构和引用规范。

我们的智能体训练范式主要包含三个阶段:

agentic mid-training:在预训练和微调之间加入 mid-training,通过 32k 和 128k 两个阶段的上下文调度,注入原子能力,使模型内化“下一步行动”的决策逻辑,而非简单的“预测下一个 token”。

sft:侧重于长程决策轨迹的合成与领域适配,强化意图理解、规划执行及严格引用格式的遵循,解决模型在长时间研究任务中容易“分心”或“迷路”的问题。

rl:引入 checklist-style judger 奖励设计,将复杂的报告质量评估转化为细粒度的信号,进一步优化长程决策的鲁棒性。

在系统架构上,我们采用单智能体 react 架构,避免复杂多智能体系统协作带来的系统冗余。


此外,为了填补中文深度研究评估的空白,我们还构建了 adr-bench,涵盖商业调研、政策分析、软件工程等 9 大领域,包含通用和专业(法律、金融)两个维度。该基准测试不仅关注搜索结果是否正确,更加关注研究过程中的逻辑严密性、意图识别深度以及长程决策的鲁棒性。

欢迎转发,但请注明出处“上海经信委”

上观号作者:上海经信委

来源:https://www.163.com/dy/article/KK7MEQ18055040N3.html
上一篇春节快递不打烊:多家公司宣布节日期间价格调整 下一篇欧盟正式调查马斯克X平台:指控制造Grok生成深度伪造图片
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
2026年实测排行 全能4K Live影像旗舰 国补各价位机型选购指南
科技数码 · 2026-06-07

2026年实测排行 全能4K Live影像旗舰 国补各价位机型选购指南

国补政策一落地,身边不少朋友都开始在盘算换新机。学生党、年轻姑娘、还有那些天天拍短视频的创作者,成了这波购机主力。大家普遍头疼的是:手里预算就那么多,想要颜值、拍照、续航都兼顾,实在不容易。这次我们把vivo几款热门机型真机摸了个遍,结合实验室实测数据,从影像、做工、续航到补贴后到手价,一步步拆解。

SHEIN污染问题与环保管理框架全面解读
科技数码 · 2026-06-07

SHEIN污染问题与环保管理框架全面解读

SHEIN希音环保表现,关键要看这个框架 关注SHEIN希音的环保问题,其实是在探讨一个非常现实的话题:作为一家全球性的时尚零售商,它究竟如何应对服装行业长期面临的环境挑战——资源消耗、库存积压、碳排放、包装与纺织废弃物?如果能够把这些议题梳理清楚,那么对SHEIN希音的整体环保表现,心里也就大致有

苹果美国上架官翻Apple Watch Series 11 2025款 便宜约15%
科技数码 · 2026-06-07

苹果美国上架官翻Apple Watch Series 11 2025款 便宜约15%

苹果官方翻新商店再次迎来新品上架。6月5日,据MacRumors报道,美国官网的官方翻新专区悄然上线了三款2025年9月发布的智能手表——Apple Watch Series 11、Apple Watch Ultra 3以及Apple Watch SE 3。这是该系列机型首次通过翻新渠道销售,折扣幅

飞牛fnOS上线OPPO一加相册互联功能
科技数码 · 2026-06-07

飞牛fnOS上线OPPO一加相册互联功能

近日,飞牛 fnOS 发布重要更新:ARM 设备上的飞牛相册迎来大幅升级,其中最受关注的亮点是正式支持 OPPO 和一加设备互联。值得一提的是,此前 X86 平台已实现该功能,此次更新为 ARM 用户补齐了这项实用功能。 具体来说,OPPO 与飞牛之间的互联打通了四个关键场景,每项体验都非常实在:

小米米家植萃系列智能香氛机首发229元支持澎湃智联
科技数码 · 2026-06-07

小米米家植萃系列智能香氛机首发229元支持澎湃智联

米家智能香氛机植萃系列现已正式开售。大家最关心的价格方面,官方建议零售价为299元,而首发优惠价直接降至229元,性价比十足。 这款香氛机的核心亮点在于选用了奇华顿Orpur高端精油,天然植物萃取,气味清新自然,不刺鼻也不显廉价。它提供三种香型:风铃草、红茶、薰衣草,分别对应清甜、醇厚、舒缓的不同风