DeepSeek研究员用AI撰写论文六天完成四十五页研究_AI热点日报

DeepSeek研究员用AI撰写论文六天完成四十五页研究

类型：热点整理2026-05-27

昨晚，AI研究圈里发生了一件挺有意思的事。DeepSeek资深研究员陈德里（Deli Chen）发布了一篇他与智能体“合著”的论文。这篇长达45页的综述，据他透露，其中99%的内容都是由他搭建的“CodeAgent”自主完成的。论文的题目是《从Copilots到同事：自主科研智能体综述》，作者栏赫

昨晚，AI研究圈里发生了一件挺有意思的事。DeepSeek资深研究员陈德里（Deli Chen）发布了一篇他与智能体“合著”的论文。这篇长达45页的综述，据他透露，其中99%的内容都是由他搭建的“CodeAgent”自主完成的。

论文的题目是《从Copilots到同事：自主科研智能体综述》，作者栏赫然写着陈德里、DeepSeek-V4-Pro和GPT-Image2。这更像是一次大胆的“人机协作”实验。

陈德里本人也特意做了说明：这篇论文并非严谨的学术发表，不代表任何公司或组织，纯粹是出于个人兴趣，并顺便测试一下他开发的“DeliAutoResearch”系统。

整个创作过程颇具效率。论文共迭代了6个版本，从启动到完成耗时6天，而智能体生成初稿仅用了76分钟。在这期间，智能体累计运行了约108轮，消耗了64.8万个Token，生成了2234行LaTeX代码。最终产出的45页PDF中包含了7个图表和4个表格。陈德里感叹，同样的工作量在过去至少需要一个月，而这次他本人的深度参与和思考时间，加起来不到2小时。

作为DeepSeek多代核心模型架构的贡献者，陈德里的这次“玩票”实验，其产出却相当扎实。论文系统梳理了机器学习、软件工程和科学发现三大领域的105篇相关文献，旨在为自主科研智能体建立一个统一的分析框架。其核心成果可以概括为四点：

首先，提出了一套清晰的五级自主能力分级体系，从L1到L5，将能力范围从代码补全一直延伸到完全自主规划研究，为界定和比较不同系统提供了标准。

其次，剖析了四大主流架构模式，并搭建了评估框架，对比它们在可扩展性、成本等方面的优劣。

第三，基于六维特征矩阵，对17款主流系统进行了分析。结论显示，当前最先进的系统普遍处于L4级别，而L5级别仍是一个理论构想。

最后，指出了该领域面临的六大核心挑战，并为每个挑战指明了具体的研究方向。

研究分析发现，实现最高级L5自主能力的核心瓶颈，其实不在于模型的基础性能，而在于三个更深的层面：长效知识的沉淀、可靠的自我评估能力，以及具备理论支撑的、可规模化的智能体架构方案。

一、当前系统多为能独立产出论文的L4级，已有系统展现出L5级特征

那么，如何定义“自主研究智能体”？论文给出的概念是：一种在接收到高层研究目标后，能够独立执行“假设-实验-分析-优化”这一科学探究闭环的软件系统，整个过程仅需极少或完全无需人工干预。

其提出的五级体系，主要依据两个维度：一是智能体能独立决策的内容范围，二是其无需人工审核能持续运行的时间长度。

L1级别的典型代表是GitHub Copilot这类代码补全工具。它们的能力是预测下一个token或下一行代码，但研究的方向、结构和正确性完全由人类主导。

L2级别则涵盖了带插件的ChatGPT等对话式助手。它们能将清晰定义的任务拆解为多个步骤执行，但每一步都需要人类的显性或隐性批准。

L3级别是代码智能体。它们能自主执行10-100个连续动作，只在预设检查点或遇到不确定情况时才请求人工审核。与L2的核心区别在于，它们能自主做出诸如“编辑哪个文件”、“如何修复测试”等决策。

L4级别的代表包括AI Scientist、Devin等系统。它们能从研究目标出发，完全独立地生成思路、运行实验、撰写论文，甚至模拟同行评审，全过程无需干预，可持续运行数小时至数天。

L5是理论上的最高级别。智能体不仅能执行任务，还能自主选择研究问题、在多个项目间分配资源，并基于历史成果持续进化。目前尚无系统完全达到此级别，但像Voyager、FunSearch这样的系统已展现出部分L5特征。

二、四大主流架构可适配不同层级系统

为了支撑不同层级的自主能力，业界演化出了几种主流架构模式：单智能体循环、多智能体协作、分层编排以及工具增强执行。

单智能体循环是基础且应用最广的架构，它让单个语言模型循环执行“观察-推理-行动-反馈”的过程。别看它简单，这恰恰是大多数L3-L4级系统的核心骨架，灵活性很强。

多智能体协作模式则将任务责任分配给多个专业化智能体，通过协作达成目标。

当任务复杂到一定程度，扁平化的多智能体通信会变得低效，这时就需要分层编排架构。它引入了一个监督者角色，负责任务分解、分配和进度监控。

最后，工具增强执行是自主研究智能体的标志性能力。它让语言模型从文本生成器转变为能与代码、实验设备、网络环境交互的“参与者”，极大地扩展了能力上限。

总体来看，架构的选择与自主级别紧密相关。L2系统用简单的单智能体循环即可；L3系统采用带反思机制的架构收益最大；L4系统通常需要分层编排来维持长时间运行的稳定性；而理论上实现L5，可能需要具备自重组能力的图结构架构。

三、三大结论：开闭源差距收窄，专用智能体超越通用，代码智能体最成熟

论文基于六维特征矩阵（自主等级、应用领域、架构模式等）对17个主流系统进行了深入分析，得出了几个值得关注的结论。

首先，代码智能体是目前最成熟的赛道。得益于成熟的工具链、自动化评测体系和大规模基准测试，它们在所有维度中都表现最优。

其次，“专才”胜于“通才”。像SWE-Agent、Coscientist这类聚焦特定领域的L4系统，通过收窄应用范围实现了稳定输出。而AutoGPT等旨在解决通用任务的智能体，反而难以在多样化任务中达到稳定的L4级表现。

最后，开源与闭源的性能差距正在显著缩小。例如，开源系统OpenHands的表现已经非常接近Devin等知名闭源系统。

关于如何评估这些智能体，论文指出了三个关键方向：采用多维度指标（联合评估创新性、正确性等）、开展长周期评测（追踪其在真实科研项目中的表现）、以及建立社群化评估流程（嵌入专家反馈循环）。

论文最后梳理了六大待解难题：认知死循环、上下文窗口限制、创新价值评估、结果可复现性、安全风险与使用成本。其中，认知死循环、原创性评估和安全问题尤为关键。智能体尚无法识别自己陷入了无效策略的循环；也缺乏可靠的自动化指标来评估科研成果的原创性；同时，随着能力提升，其潜在的安全与伦理风险也日益凸显。

结语：双AI协作产出完整论文，智能体真变身科研同事了

回过头看，陈德里的这次实验颇具象征意义。它不仅仅是一次技术演示，更是一次关于未来科研范式的预演。通过双AI协作，仅投入极少的人类“CPU时间”，就完成了一篇逻辑清晰、内容完整的综述论文。这证明，AI正在从一个被动的工具，向能够承担长周期、复杂流程工作的“科研同事”角色演进。

这次尝试的成功，关键在于智能体展现出了三项核心能力：超长文本的连贯处理、长流程任务的持续执行，以及贯穿始终的逻辑一致性。在科研智能体这个前沿领域，陈德里既通过实践验证了可行性，又通过系统的理论分析指出了现状与挑战。这种“实践+洞察”的结合，无疑为后续的研究提供了一个新颖而坚实的参考起点。

来源：https://www.zhidx.com/p/560832.html

DeepSeek

延伸阅读

补充最近整理过的热点入口。