DeepSeek研究员用AI撰写论文六天完成45页研究

首页

AI资讯

热心网友

转载

2026-05-28

昨晚，AI研究圈被一篇特别的论文刷屏了。DeepSeek资深研究员陈德里（Deli Chen）发布了他与智能体“合著”的45页综述，而其中99%的内容，都由他搭建的自主研究智能体“DeliAutoResearch”完成。

这篇题为《从Copilots到同事：自主科研智能体综述》的论文，作者栏赫然写着：陈德里、DeepSeek-V4-Pro、GPT-Image2。这或许标志着，AI在科研协作中的角色，正从“副驾驶”迈向“同事”。

陈德里特意附上了一份“免责声明”：这篇论文并非严谨的学术论文，也不代表任何公司或组织的官方观点，纯粹是出于个人兴趣，并顺便测试一下他搭建的这套自动化研究系统。

整个创作过程堪称高效。论文共迭代了6个版本，从启动到完成仅耗时6天，而生成初稿更是只用了76分钟。期间，智能体累计运行了约108轮，消耗了64.8万个Token，生成了2234行LaTeX代码，最终产出了一份45页、包含7个图表和4个表格的PDF文件，大小538KB。陈德里本人也不禁感慨，同样的工作量在过去至少需要一个月，而这次他亲自投入的“CPU运转时长”还不到2小时。

作为DeepSeek-V1到V4系列模型以及DeepSeek-R1、DeepSeek-Coder、DeepSeek-MoE等架构的核心贡献者，陈德里的这次“实验”无疑具有风向标意义。这篇论文系统梳理了机器学习、软件工程、科学发现三大领域的105篇文献，旨在为自主研究智能体建立一个统一的分析框架，并得出了四项核心成果。

01.当前系统多为能独立产出论文的L4级，已有系统展现出L5级特征

论文首先为“自主研究智能体”下了定义：这是一类能够在接收到高层研究目标后，独立执行“假设生成-实验设计-执行-分析-迭代优化”这一完整科学探究闭环的软件系统，整个过程仅需极少甚至无需人工干预。

为了清晰界定不同系统的能力，研究提出了一套五级自主能力分级体系（L1-L5）。这个体系主要基于两个维度来衡量：一是智能体能够独立决策的内容范围，二是它在无需人工审核的情况下能够持续自主运行的时间长度。

L1级：代码补全助手。 这一层的典型代表是GitHub Copilot等工具。智能体只能预测单个token或单行文本的后续内容，研究的方向、结构和正确性完全由人类主导。数据显示，这类工具能在受控编码任务中将效率提升30%-55%，但无法独立完成多步骤目标。

L2级：对话式AI助手。 以支持插件和工具调用的ChatGPT、Claude为代表。智能体能够将定义清晰的任务拆解为多个步骤并执行，但每一步都需要人工进行显式或隐式的审批。其能力包括网页搜索、代码执行和信息整合，但全程离不开人类的引导和中间结果的验证。

L3级：代码智能体。 到了这一层，智能体已经可以自主执行10到100个连续动作，只在预设的检查点或遇到不确定情况时才请求人工审核。它能自主查看代码仓库、编辑文件，不再需要人类对每个步骤点头。L3与L2的核心区别在于决策权的转移：智能体可以自主决定编辑哪个文件、如何修复测试失败，人类角色退居为“监督者”。

L4级：自主研究系统。 AI Scientist、Devin、SWE-Agent等系统是这一层级的代表。它们能够自主生成研究思路、撰写论文、运行实验、产出完整成果，甚至模拟自动化同行评审，全程无需人工干预。接收到一个研究目标后，它们可以独立运行数小时至数天，具备从故障中恢复、迭代优化策略的能力。人类只需要评估最终输出，无需监督执行过程。

L5级：完全自主的“科学家”。 这是自主能力的最高等级。智能体不仅能执行研究任务，还能自主选择有价值的研究问题、在多个项目间智能分配资源，并基于过往成果进行持续的知识迭代和突破。研究指出，目前尚无系统完全达到L5，但像能够自主生成难度递增学习课程的Voyager，以及能基于成功程序迭代发现新数学构造的FunSearch，已经展现出了L5的某些特征。

02.四大主流架构可适配不同层级系统

那么，不同层级的系统是如何构建的呢？论文归纳了四大主流架构模式：单智能体循环、多智能体协作、分层编排以及工具增强执行。

单智能体循环（ReAct/Reflexion）： 这是最简单、应用最广泛的基础架构。单个语言模型循环执行“观察→思考→行动→反馈”的闭环。别看它设计简单，却是绝大多数L3-L4级系统的核心骨架，并且在推理策略上有极大的优化和适配空间。

多智能体协作（MetaGPT/AutoGen）： 当任务变得复杂时，单打独斗就显得力不从心了。多智能体系统将任务责任拆分给多个专业化的智能体，通过它们之间的通信与协作来共同完成目标。

分层编排（Supervisor-Worker）： 任务复杂度进一步提升，扁平化的多智能体通信可能陷入混乱。分层架构引入了明确的管控关系：一个高层“监督者”智能体负责拆解总任务，并将子任务分配给专业的“执行者”智能体，同时监控进度并在必要时介入调整。

工具增强执行（CodeAct）： 这可以说是自主研究智能体的“灵魂”。它将语言模型从一个被动的文本生成器，转变为能够与代码、实验设备、网络环境交互的主动参与者。正是这种与外部工具和环境的深度集成，极大地拓展了智能体的能力上限。

总的来说，不同层级的系统对架构有天然的选择倾向。L2级系统用简单的单智能体循环就能高效运行；L3级系统采用具备反思机制的Reflexion架构，能天然嵌入检查点，收益最大；L4级系统通常需要分层编排架构，搭配自主迭代优化，才能在长时间运行中保持稳定输出；而理论上未来的L5级系统，很可能需要具备动态自重组能力的图结构架构才能实现。

03.三大结论：开闭源差距收窄，专用智能体超越通用，代码智能体最成熟

基于一套六维特征矩阵（自主等级、核心领域、架构模式、工具集成、评测方法、开源属性），论文对17款主流系统进行了深入分析，得出了几个关键结论。

结论一：代码智能体赛道最为成熟。 在所有被分析的系统维度中，代码智能体的综合表现最优。这得益于其拥有自动化的评测体系、成熟的工具环境（如编译器、测试框架）以及大规模、标准化的基准测试（如HumanEval、SWE-bench）支撑。

结论二：专用智能体全面超越通用智能体。 研究发现，通过收索应用范围，SWE-Agent、Coscientist、FunSearch等L4级系统实现了稳定输出。相反，像AutoGPT、BabyAGI这样旨在处理多样化任务的通用智能体，始终难以实现稳定的L4级运行。这似乎表明，在现阶段，“专才”比“通才”更可靠。

结论三：开源与闭源的性能差距正在迅速缩小。 分析显示，开源系统如OpenHands的表现已经非常接近Devin等知名的闭源系统，这意味着开源社区正在快速追赶。

关于如何评估这些智能体，论文指出了三个核心方向：采用多维度指标，联合评估创新性、正确性、效率和安全性，避免单一优化；开展长周期评测，追踪智能体在持续数周或数月的科研项目中的表现，而非孤立的单次任务；推动社群化评估，将领域专家的反馈循环嵌入评测流程，逐步建立行业共识标准。

最后，论文梳理出智能体系统面临的六大核心挑战：认知死循环、上下文窗口限制、创新价值评估、结果可复现性、安全风险与使用成本。