DeepSeek研究员用AI撰写论文 六天完成四十五页研究
昨晚,AI研究圈里发生了一件挺有意思的事。DeepSeek资深研究员陈德里(Deli Chen)发布了一篇他与智能体“合著”的论文。这篇长达45页的综述,据他透露,其中99%的内容都是由他搭建的“CodeAgent”自主完成的。
论文的题目是《从Copilots到同事:自主科研智能体综述》,作者栏赫然写着陈德里、DeepSeek-V4-Pro和GPT-Image2。这更像是一次大胆的“人机协作”实验。

陈德里本人也特意做了说明:这篇论文并非严谨的学术发表,不代表任何公司或组织,纯粹是出于个人兴趣,并顺便测试一下他开发的“DeliAutoResearch”系统。

整个创作过程颇具效率。论文共迭代了6个版本,从启动到完成耗时6天,而智能体生成初稿仅用了76分钟。在这期间,智能体累计运行了约108轮,消耗了64.8万个Token,生成了2234行LaTeX代码。最终产出的45页PDF中包含了7个图表和4个表格。陈德里感叹,同样的工作量在过去至少需要一个月,而这次他本人的深度参与和思考时间,加起来不到2小时。
作为DeepSeek多代核心模型架构的贡献者,陈德里的这次“玩票”实验,其产出却相当扎实。论文系统梳理了机器学习、软件工程和科学发现三大领域的105篇相关文献,旨在为自主科研智能体建立一个统一的分析框架。其核心成果可以概括为四点:
首先,提出了一套清晰的五级自主能力分级体系,从L1到L5,将能力范围从代码补全一直延伸到完全自主规划研究,为界定和比较不同系统提供了标准。
其次,剖析了四大主流架构模式,并搭建了评估框架,对比它们在可扩展性、成本等方面的优劣。
第三,基于六维特征矩阵,对17款主流系统进行了分析。结论显示,当前最先进的系统普遍处于L4级别,而L5级别仍是一个理论构想。
最后,指出了该领域面临的六大核心挑战,并为每个挑战指明了具体的研究方向。
研究分析发现,实现最高级L5自主能力的核心瓶颈,其实不在于模型的基础性能,而在于三个更深的层面:长效知识的沉淀、可靠的自我评估能力,以及具备理论支撑的、可规模化的智能体架构方案。
一、当前系统多为能独立产出论文的L4级,已有系统展现出L5级特征
那么,如何定义“自主研究智能体”?论文给出的概念是:一种在接收到高层研究目标后,能够独立执行“假设-实验-分析-优化”这一科学探究闭环的软件系统,整个过程仅需极少或完全无需人工干预。
其提出的五级体系,主要依据两个维度:一是智能体能独立决策的内容范围,二是其无需人工审核能持续运行的时间长度。

L1级别的典型代表是GitHub Copilot这类代码补全工具。它们的能力是预测下一个token或下一行代码,但研究的方向、结构和正确性完全由人类主导。
L2级别则涵盖了带插件的ChatGPT等对话式助手。它们能将清晰定义的任务拆解为多个步骤执行,但每一步都需要人类的显性或隐性批准。
L3级别是代码智能体。它们能自主执行10-100个连续动作,只在预设检查点或遇到不确定情况时才请求人工审核。与L2的核心区别在于,它们能自主做出诸如“编辑哪个文件”、“如何修复测试”等决策。
L4级别的代表包括AI Scientist、Devin等系统。它们能从研究目标出发,完全独立地生成思路、运行实验、撰写论文,甚至模拟同行评审,全过程无需干预,可持续运行数小时至数天。
L5是理论上的最高级别。智能体不仅能执行任务,还能自主选择研究问题、在多个项目间分配资源,并基于历史成果持续进化。目前尚无系统完全达到此级别,但像Voyager、FunSearch这样的系统已展现出部分L5特征。

二、四大主流架构可适配不同层级系统
为了支撑不同层级的自主能力,业界演化出了几种主流架构模式:单智能体循环、多智能体协作、分层编排以及工具增强执行。

单智能体循环是基础且应用最广的架构,它让单个语言模型循环执行“观察-推理-行动-反馈”的过程。别看它简单,这恰恰是大多数L3-L4级系统的核心骨架,灵活性很强。
多智能体协作模式则将任务责任分配给多个专业化智能体,通过协作达成目标。
当任务复杂到一定程度,扁平化的多智能体通信会变得低效,这时就需要分层编排架构。它引入了一个监督者角色,负责任务分解、分配和进度监控。
最后,工具增强执行是自主研究智能体的标志性能力。它让语言模型从文本生成器转变为能与代码、实验设备、网络环境交互的“参与者”,极大地扩展了能力上限。
总体来看,架构的选择与自主级别紧密相关。L2系统用简单的单智能体循环即可;L3系统采用带反思机制的架构收益最大;L4系统通常需要分层编排来维持长时间运行的稳定性;而理论上实现L5,可能需要具备自重组能力的图结构架构。
三、三大结论:开闭源差距收窄,专用智能体超越通用,代码智能体最成熟
论文基于六维特征矩阵(自主等级、应用领域、架构模式等)对17个主流系统进行了深入分析,得出了几个值得关注的结论。

首先,代码智能体是目前最成熟的赛道。得益于成熟的工具链、自动化评测体系和大规模基准测试,它们在所有维度中都表现最优。
其次,“专才”胜于“通才”。像SWE-Agent、Coscientist这类聚焦特定领域的L4系统,通过收窄应用范围实现了稳定输出。而AutoGPT等旨在解决通用任务的智能体,反而难以在多样化任务中达到稳定的L4级表现。
最后,开源与闭源的性能差距正在显著缩小。例如,开源系统OpenHands的表现已经非常接近Devin等知名闭源系统。
关于如何评估这些智能体,论文指出了三个关键方向:采用多维度指标(联合评估创新性、正确性等)、开展长周期评测(追踪其在真实科研项目中的表现)、以及建立社群化评估流程(嵌入专家反馈循环)。
论文最后梳理了六大待解难题:认知死循环、上下文窗口限制、创新价值评估、结果可复现性、安全风险与使用成本。其中,认知死循环、原创性评估和安全问题尤为关键。智能体尚无法识别自己陷入了无效策略的循环;也缺乏可靠的自动化指标来评估科研成果的原创性;同时,随着能力提升,其潜在的安全与伦理风险也日益凸显。

结语:双AI协作产出完整论文,智能体真变身科研同事了
回过头看,陈德里的这次实验颇具象征意义。它不仅仅是一次技术演示,更是一次关于未来科研范式的预演。通过双AI协作,仅投入极少的人类“CPU时间”,就完成了一篇逻辑清晰、内容完整的综述论文。这证明,AI正在从一个被动的工具,向能够承担长周期、复杂流程工作的“科研同事”角色演进。
这次尝试的成功,关键在于智能体展现出了三项核心能力:超长文本的连贯处理、长流程任务的持续执行,以及贯穿始终的逻辑一致性。在科研智能体这个前沿领域,陈德里既通过实践验证了可行性,又通过系统的理论分析指出了现状与挑战。这种“实践+洞察”的结合,无疑为后续的研究提供了一个新颖而坚实的参考起点。
相关攻略
最近,DeepSeek的研究员陈德里在个人博客上分享了一篇关于自主研究智能体的综述论文。这篇论文的诞生过程本身,就堪称一个绝佳的案例。 他坦言,这篇论文“1%是我写的,99%是Agent写的”。整个过程,他动用了自己开发的技能“DeliAutoResearch”,由DeepSeek-V4-Pro负责
极客网·人工智能3月7日 从一夜爆火到一码难求,市场开始出现不同的声音。支持者认为,Manus是智能体的“DeepSeek时刻”;反对者认为,Manus是一场精心策划的“炒作”。Manus成色究竟如何,不妨来听听作为对标对象的DeepSeek的回答。 Manus的技术突破与定位 Manus被定位为“
字节跳动旗下悟空浏览器接入DeepSeekR1模型,旨在提升年轻用户浏览与交互体验。此举是字节在人工智能领域的关键布局,通过强化智能对话与文本生成能力,探索更个性化服务。未来该技术或有望扩展至抖音等核心产品,推动整体服务智能化升级。
DeepSeekV4-Pro在终端编程与智能体任务中表现流畅,但未公布多项基准的量化分数。通义千问Qwen3 6系列则在Terminal-Bench、SWE-bench、SkillsBench、SciCode等基准测试中均有明确得分且持续提升。综合来看,Qwen3 6-Max-Preview展现了最强的综合编程能力,尤其在科学代码生成和智能体技能方面进步显著
在信息过载时代,DeepSeek与NotionAI协同构建智能知识库。DeepSeek负责智能问答、内容创作与数据分析,NotionAI专注信息整理与任务管理。通过注册分类、自动归集、协同优化三步搭建,结合模板复用与数据看板,可实现知识库的持续进化与高效管理。
热门专题
热门推荐
掌握核心技巧可显著提升PPT专业度。使用模板奠定视觉基调,插入相关多媒体元素吸引注意力,运用动画效果引导视线强调重点。合理排版需确保信息密度适中、清晰易读。最后,反复练习演讲以熟练内容、把控节奏,让演示更具魅力。
该公司经营范围显示其专注于高端制造与智能科技。核心业务包括智能出行与高端装备、机器人与智能制造、人工智能与数字技术,并具备技术贸易与全球市场视野。整体构建了以人工智能为核心,涵盖研发、制造、销售及服务的综合性高科技产业生态。
一、如何利用AI写PPT生成器免费提升你的演示效果 在信息爆炸的时代,演示文稿的质量直接决定了沟通的成败。免费的AI写PPT生成器,正成为职场人士、教育工作者提升效率、优化演示效果的智能伙伴。你可能尚未察觉,这类工具已深度融入各行各业的工作流中。 AI写PPT生成器免费的应用领域 那么,这些免费的A
Hyperliquid平台USDC供应量突破65亿美元,反映大量资本正涌入该生态,体现用户对其需求与信任。资金规模与生态活跃度、DeFi应用丰富度及基础设施成熟度紧密相关。供应增长为平台在公链竞争中增添筹码,关键在将资金转化为生态护城河,吸引核心应用形成正向循环。
Kraftful产品介绍:AI驱动的用户反馈分析平台 在当今竞争激烈的产品开发领域,如何从海量的用户反馈中高效提取有价值的洞察,是产品经理和开发团队面临的核心挑战。近期,一款名为Kraftful的智能分析平台备受瞩目,它不仅精准解决了这一痛点,更因其被行业领先的产品分析平台Amplitude收购,而





