首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
深度拆解Step-DeepResearch:阶跃星辰首个单智能体架构详解

深度拆解Step-DeepResearch:阶跃星辰首个单智能体架构详解

热心网友
18
转载
2026-01-26

转载自:阶跃星辰

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

比肩 gemini、成本直降 90%!

向大家介绍我们最新端到端深度研究智能体模型:step-deepresearch。


它能做什么?

会思考:懂规划、会反思、还能自主验证信息的真伪,不只是数据爬虫。

更专业:结合高质量搜索 api,内置 2000 万+ 高质量文档库和 600+ 权威站点索引,过滤低信源信息干扰。

更聪明:独特的原子能力训练法,让模型把“专家思维”内化在骨子里。

在针对真实复杂场景的 adr-bench 评测中,step-deepresearch 表现出极强竞争力,在多个维度上全面超越海内外一线 deepresearch 产品和模型,包括基于千亿级甚至万亿级参数 moe 架构的 gemini deepresearch、openai deepresearch 等模型。

而 step-deepresearch 仅基于单智能体架构实现。


在我们的技术报告全面公开后,立刻引发海内外社区热烈讨论,并入选 huggingface daily papers。



现在,我们开启 api 内测,欢迎大家踊跃体验!

论文地址:https://arxiv.org/pdf/2512.20491

github:https://github.com/stepfun-ai/stepdeepresearch

api 内测:https://wvixbzgc0u7.feishu.cn/share/base/form/shrcn8cp78pjgkjvvih2c3ef3cc

最新主页:https://www.stepfun.com/deep-research-invitation

step-deepresearch 在多项权威基准测试中都达到全球顶尖水平。

在 research rubrics 上,step-deepresearch 得分 61.42%,仅次于 gemini deepresearch(约 63.69分),且超越了 openai deepresearch。


在“引用质量”和“沟通质量”两个维度上达到了行业最高水平。


在针对真实研究场景的 adr-bench 评测中,step-deepresearch 的人类 elo 评分在多个维度处于第一梯队。

特别是在与 gemini deepresearch等顶尖模型的直接博弈中,其“胜+平”率高达67.1%,证明了其生成的报告质量已达到当前最先进水平。


step-deepresearch 引用最新行业动态(step-gui、豆包手机等),来自上百条条高质量信源,内容覆盖底层技术、应用、挑战与争议,客观全面分析议题,达到标准调深度研报告水平。


▲上下滑动查看详细内容

step-deepresearch 的主要创新可归纳为3方面:

基于原子能力的数据合成策略

渐进式智能体训练范式

自建 adr-bench 评估体系

我们将深度研究能力拆分为四个原子能力,并针对性地合成数据进行强化。

规划与任务拆解:能将模糊、宏大的用户需求拆解为可执行的子任务,并根据环境反馈动态调整路径。

深度信息搜索:具备多跳推理能力,能在信息不完整时进行“主动拓扑行走”,挖掘隐藏实体。

反思与验证:拥有“自纠错”和“事实核查”能力,能识别自身错误并区分网络信息的真伪,通过跨源验证确保逻辑严密。

报告生成:通过中期训练(mid-training)学习专家写作风格,并利用 sft 确保报告严格遵循规划结构和引用规范。

我们的智能体训练范式主要包含三个阶段:

agentic mid-training:在预训练和微调之间加入 mid-training,通过 32k 和 128k 两个阶段的上下文调度,注入原子能力,使模型内化“下一步行动”的决策逻辑,而非简单的“预测下一个 token”。

sft:侧重于长程决策轨迹的合成与领域适配,强化意图理解、规划执行及严格引用格式的遵循,解决模型在长时间研究任务中容易“分心”或“迷路”的问题。

rl:引入 checklist-style judger 奖励设计,将复杂的报告质量评估转化为细粒度的信号,进一步优化长程决策的鲁棒性。

在系统架构上,我们采用单智能体 react 架构,避免复杂多智能体系统协作带来的系统冗余。


此外,为了填补中文深度研究评估的空白,我们还构建了 adr-bench,涵盖商业调研、政策分析、软件工程等 9 大领域,包含通用和专业(法律、金融)两个维度。该基准测试不仅关注搜索结果是否正确,更加关注研究过程中的逻辑严密性、意图识别深度以及长程决策的鲁棒性。

欢迎转发,但请注明出处“上海经信委”

上观号作者:上海经信委

来源:https://www.163.com/dy/article/KK7MEQ18055040N3.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

AI预测市场崛起:黑马模型胜率如何超越人类
AI
AI预测市场崛起:黑马模型胜率如何超越人类

新智元报道编辑:Aeneas【新智元导读】大模型能否预测未来?UniPat AI构建了一套完整的预测智能基础设施,Echo,包含动态评测引擎、面向未来事件的训练范式和预测专用模型EchoZ-1 0。

热心网友
03.30
阿里、百度、字节与智谱AI大模型评测首度公开对比
科技数码
阿里、百度、字节与智谱AI大模型评测首度公开对比

3月27日,据国家工业信息安全发展研究中心消息,2026年初,以OpenClaw为代表的开源智能体框架迅速引爆市场,智谱(02513 HK)AI、百度(BIDU US)、月之暗面、MiniMax等科

热心网友
03.27
2026年可信AI智能体评估体系启动,中国信通院详解核心进展
科技数码
2026年可信AI智能体评估体系启动,中国信通院详解核心进展

3月16日,据中国信通院消息,中国信通院现正式启动2026年“可信AI-智能体”系列评估,从基础技术与应用能力两个维度考察智能体的能力水平,智能体基础技术评估涵盖平台工具、技术能力、运营服务、工程能

热心网友
03.16
揭秘金山团队AI评价系统:为何系统性忽视“黑天鹅”风险?
科技数码
揭秘金山团队AI评价系统:为何系统性忽视“黑天鹅”风险?

这项由旧金山多家研究机构合作完成的开创性研究发表于2026年1月,论文编号为arXiv:2601 21235v1。研究团队开发了一个名为SHARP(Social Harm Analysis via

热心网友
03.13
上海交大与蚂蚁集团突破:新AI模型实现单眼视觉细节识别
科技数码
上海交大与蚂蚁集团突破:新AI模型实现单眼视觉细节识别

想看清楚手机屏幕上的小字,你会自然而然地把手机拿近一些,或者用手指放大画面。这个简单的动作背后,其实蕴含着人类视觉系统的一个重要特征——当我们需要观察细节时,会主动调整视角,把注意力聚焦到关键区域。

热心网友
03.11

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

山寨币与主流币的五大核心区别及投资策略
web3.0
山寨币与主流币的五大核心区别及投资策略

主流币与山寨币在市值、技术、共识和风险上差异显著。主流币市值巨大、流动性强,技术经过长期验证,拥有全球共识和明确应用场景,适合长期配置。山寨币则市值小、流动性差,技术基础薄弱且缺乏审计,共识脆弱且多依赖炒作,价格波动剧烈且归零风险高,属于高风险投机标的。

热心网友
05.12
Bitget身份认证攻略:提升证件清晰度与缩短审核时间,快速通过验证
web3.0
Bitget身份认证攻略:提升证件清晰度与缩短审核时间,快速通过验证

进行Bitget身份认证时,除了正确上传照片,证件本身的清晰度至关重要。模糊、反光或信息不全的图片会直接导致审核失败。此外,认证申请提交后的等待时间受平台审核队列、资料完整度及网络状况等多重因素影响,高峰期可能延长。建议用户确保在光线均匀环境下拍摄高清证件照,并耐心等待系统处理,以提升一次性通过率。

热心网友
05.12
Bitget交易所下载全攻略:安卓、iOS与网页端详细安装教程
web3.0
Bitget交易所下载全攻略:安卓、iOS与网页端详细安装教程

本文详细介绍了Bitget交易所在不同设备上的下载与访问方法。安卓用户可通过官方应用商店或APK文件安装,需注意权限设置。iPhone用户需切换至非中国大陆AppStore账户下载官方App。网页端则提供最直接的访问方式,无需安装,但务必核对网址安全性。文章还补充了常见问题与安全建议,帮助用户顺利完成平台使用前的准备工作。

热心网友
05.12
Bitget新手教程:从注册到首笔交易完整指南
web3.0
Bitget新手教程:从注册到首笔交易完整指南

对于初次接触Bitget的新用户,从注册到完成第一笔交易,平台提供了一条清晰的操作路径。关键在于完成账户注册与安全设置,包括身份验证和资金密码。随后,通过法币入金通道为账户注入启动资金,并熟悉现货交易界面的基本操作。最后,在模拟交易中实践后,即可尝试小额真实交易,完成从入门到实操的完整闭环。

热心网友
05.12
Bitget新手入门指南:掌握6个核心页面位置轻松上手交易
web3.0
Bitget新手入门指南:掌握6个核心页面位置轻松上手交易

对于初次接触Bitget这类专业交易平台的新用户来说,感到无从下手是普遍现象。关键在于熟悉核心功能区的布局,特别是资产总览、现货交易、合约交易、资金划转、订单管理和个人设置这六个关键页面。掌握它们的位置和基本逻辑,就能快速理清平台操作脉络,大幅提升使用效率,避免在基础操作上耗费过多时间。

热心网友
05.12