深度拆解Step-DeepResearch：阶跃星辰首个单智能体架构详解

首页/科技数码/文章详情

深度拆解Step-DeepResearch：阶跃星辰首个单智能体架构详解

时间：2026-01-26 20:58

转载自：阶跃星辰比肩 gemini、成本直降 90%！向大家介绍我们最新端到端深度研究智能体模型：step-deepresearch。它能做什么？会思考：懂规划、会反思、还能自主验证信息的真伪，不只

转载自：阶跃星辰

比肩 gemini、成本直降 90%！

向大家介绍我们最新端到端深度研究智能体模型：step-deepresearch。

它能做什么？

会思考：懂规划、会反思、还能自主验证信息的真伪，不只是数据爬虫。

更专业：结合高质量搜索 api，内置 2000 万+ 高质量文档库和 600+ 权威站点索引，过滤低信源信息干扰。

更聪明：独特的原子能力训练法，让模型把“专家思维”内化在骨子里。

在针对真实复杂场景的 adr-bench 评测中，step-deepresearch 表现出极强竞争力，在多个维度上全面超越海内外一线 deepresearch 产品和模型，包括基于千亿级甚至万亿级参数 moe 架构的 gemini deepresearch、openai deepresearch 等模型。

而 step-deepresearch 仅基于单智能体架构实现。

在我们的技术报告全面公开后，立刻引发海内外社区热烈讨论，并入选 huggingface daily papers。

现在，我们开启 api 内测，欢迎大家踊跃体验！

论文地址：https://arxiv.org/pdf/2512.20491

github：https://github.com/stepfun-ai/stepdeepresearch

api 内测：https://wvixbzgc0u7.feishu.cn/share/base/form/shrcn8cp78pjgkjvvih2c3ef3cc

最新主页：https://www.stepfun.com/deep-research-invitation

step-deepresearch 在多项权威基准测试中都达到全球顶尖水平。

在 research rubrics 上，step-deepresearch 得分 61.42%，仅次于 gemini deepresearch（约 63.69分），且超越了 openai deepresearch。

在“引用质量”和“沟通质量”两个维度上达到了行业最高水平。

在针对真实研究场景的 adr-bench 评测中，step-deepresearch 的人类 elo 评分在多个维度处于第一梯队。

特别是在与 gemini deepresearch等顶尖模型的直接博弈中，其“胜+平”率高达67.1%，证明了其生成的报告质量已达到当前最先进水平。

step-deepresearch 引用最新行业动态（step-gui、豆包手机等），来自上百条条高质量信源，内容覆盖底层技术、应用、挑战与争议，客观全面分析议题，达到标准调深度研报告水平。

▲上下滑动查看详细内容

step-deepresearch 的主要创新可归纳为3方面：

基于原子能力的数据合成策略

渐进式智能体训练范式

自建 adr-bench 评估体系

我们将深度研究能力拆分为四个原子能力，并针对性地合成数据进行强化。

规划与任务拆解：能将模糊、宏大的用户需求拆解为可执行的子任务，并根据环境反馈动态调整路径。

深度信息搜索：具备多跳推理能力，能在信息不完整时进行“主动拓扑行走”，挖掘隐藏实体。

反思与验证：拥有“自纠错”和“事实核查”能力，能识别自身错误并区分网络信息的真伪，通过跨源验证确保逻辑严密。

报告生成：通过中期训练（mid-training）学习专家写作风格，并利用 sft 确保报告严格遵循规划结构和引用规范。

我们的智能体训练范式主要包含三个阶段：

agentic mid-training：在预训练和微调之间加入 mid-training，通过 32k 和 128k 两个阶段的上下文调度，注入原子能力，使模型内化“下一步行动”的决策逻辑，而非简单的“预测下一个 token”。

sft：侧重于长程决策轨迹的合成与领域适配，强化意图理解、规划执行及严格引用格式的遵循，解决模型在长时间研究任务中容易“分心”或“迷路”的问题。

rl：引入 checklist-style judger 奖励设计，将复杂的报告质量评估转化为细粒度的信号，进一步优化长程决策的鲁棒性。

在系统架构上，我们采用单智能体 react 架构，避免复杂多智能体系统协作带来的系统冗余。

此外，为了填补中文深度研究评估的空白，我们还构建了 adr-bench，涵盖商业调研、政策分析、软件工程等 9 大领域，包含通用和专业（法律、金融）两个维度。该基准测试不仅关注搜索结果是否正确，更加关注研究过程中的逻辑严密性、意图识别深度以及长程决策的鲁棒性。

欢迎转发，但请注明出处“上海经信委”

上观号作者：上海经信委

来源：https://www.163.com/dy/article/KK7MEQ18055040N3.html

维度拓扑智能体上海市大模型 step 阶跃星辰 deepresearch

上一篇春节快递不打烊：多家公司宣布节日期间价格调整 下一篇欧盟正式调查马斯克X平台：指控制造Grok生成深度伪造图片

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-10

地下室发现尘封12年AMD前CEO旧PC苏姿丰签名推土机硬件

一位技工在客户家地下室发现一台属于AMD前CEORoryRead的旧PC，机箱上留有苏姿丰等高管签名，配置为推土机时代硬件且从未开机。这台电脑封存了AMD从推土机失败到Zen架构崛起的关键转折历史。

科技数码 · 2026-07-10

Laravel 12生态成熟助力全栈开发效率提升

Laravel12延续开发体验优势，在项目结构、查询构建、API开发、调试及性能上持续优化。其生态日趋成熟，形成Reverb、Pulse等完整工具链，覆盖API、SaaS、企业后台及AI应用开发。与Next js的组合逐渐流行，Laravel已演变为现代Web开发平台，保持社区活力。

科技数码 · 2026-07-10

Linux内核持续演进：Rust语言与零拷贝网络成新焦点

LinuxKernel6 15重大更新：Rust驱动正式入主线，NOVADRM成为首个实践案例；io_uring新增零拷贝网络接收，降低CPU开销与延迟；Btrfs增强实时zstd压缩、DirectIO及稳定性。内核同步推进安全化与高性能网络化。

科技数码 · 2026-07-10

谷歌Gemini进入Agent时代打造全天候AI助理

Google推出GeminiSpark、Omni等新功能。Spark可全天候在后台运行，主动处理邮件、日历等任务；Omni侧重视频理解与环境推理，布局世界模型。AI正从被动回答转向主动观察、规划与执行，标志着竞赛进入新阶段。

科技数码 · 2026-07-10

CPU-Z 2.20.2正式版发布支持Intel三大平台及AMD锐龙AI Max

CPU-Z2 20 2正式版发布，新增支持IntelPantherLake、WildcatLake、BartlettLake三大架构及AMD锐龙AIMax、Pro系列，加入锐炫G3识别库，修复缓存错误和锐龙77700X3D检测问题，免费下载。