DeepSeek研究员用AI撰写论文 六天完成45页研究
昨晚,AI研究圈被一篇特别的论文刷屏了。DeepSeek资深研究员陈德里(Deli Chen)发布了他与智能体“合著”的45页综述,而其中99%的内容,都由他搭建的自主研究智能体“DeliAutoResearch”完成。
这篇题为《从Copilots到同事:自主科研智能体综述》的论文,作者栏赫然写着:陈德里、DeepSeek-V4-Pro、GPT-Image2。这或许标志着,AI在科研协作中的角色,正从“副驾驶”迈向“同事”。

陈德里特意附上了一份“免责声明”:这篇论文并非严谨的学术论文,也不代表任何公司或组织的官方观点,纯粹是出于个人兴趣,并顺便测试一下他搭建的这套自动化研究系统。

整个创作过程堪称高效。论文共迭代了6个版本,从启动到完成仅耗时6天,而生成初稿更是只用了76分钟。期间,智能体累计运行了约108轮,消耗了64.8万个Token,生成了2234行LaTeX代码,最终产出了一份45页、包含7个图表和4个表格的PDF文件,大小538KB。陈德里本人也不禁感慨,同样的工作量在过去至少需要一个月,而这次他亲自投入的“CPU运转时长”还不到2小时。
作为DeepSeek-V1到V4系列模型以及DeepSeek-R1、DeepSeek-Coder、DeepSeek-MoE等架构的核心贡献者,陈德里的这次“实验”无疑具有风向标意义。这篇论文系统梳理了机器学习、软件工程、科学发现三大领域的105篇文献,旨在为自主研究智能体建立一个统一的分析框架,并得出了四项核心成果。

01.当前系统多为能独立产出论文的L4级,已有系统展现出L5级特征
论文首先为“自主研究智能体”下了定义:这是一类能够在接收到高层研究目标后,独立执行“假设生成-实验设计-执行-分析-迭代优化”这一完整科学探究闭环的软件系统,整个过程仅需极少甚至无需人工干预。
为了清晰界定不同系统的能力,研究提出了一套五级自主能力分级体系(L1-L5)。这个体系主要基于两个维度来衡量:一是智能体能够独立决策的内容范围,二是它在无需人工审核的情况下能够持续自主运行的时间长度。

L1级:代码补全助手。 这一层的典型代表是GitHub Copilot等工具。智能体只能预测单个token或单行文本的后续内容,研究的方向、结构和正确性完全由人类主导。数据显示,这类工具能在受控编码任务中将效率提升30%-55%,但无法独立完成多步骤目标。
L2级:对话式AI助手。 以支持插件和工具调用的ChatGPT、Claude为代表。智能体能够将定义清晰的任务拆解为多个步骤并执行,但每一步都需要人工进行显式或隐式的审批。其能力包括网页搜索、代码执行和信息整合,但全程离不开人类的引导和中间结果的验证。
L3级:代码智能体。 到了这一层,智能体已经可以自主执行10到100个连续动作,只在预设的检查点或遇到不确定情况时才请求人工审核。它能自主查看代码仓库、编辑文件,不再需要人类对每个步骤点头。L3与L2的核心区别在于决策权的转移:智能体可以自主决定编辑哪个文件、如何修复测试失败,人类角色退居为“监督者”。
L4级:自主研究系统。 AI Scientist、Devin、SWE-Agent等系统是这一层级的代表。它们能够自主生成研究思路、撰写论文、运行实验、产出完整成果,甚至模拟自动化同行评审,全程无需人工干预。接收到一个研究目标后,它们可以独立运行数小时至数天,具备从故障中恢复、迭代优化策略的能力。人类只需要评估最终输出,无需监督执行过程。
L5级:完全自主的“科学家”。 这是自主能力的最高等级。智能体不仅能执行研究任务,还能自主选择有价值的研究问题、在多个项目间智能分配资源,并基于过往成果进行持续的知识迭代和突破。研究指出,目前尚无系统完全达到L5,但像能够自主生成难度递增学习课程的Voyager,以及能基于成功程序迭代发现新数学构造的FunSearch,已经展现出了L5的某些特征。

02.四大主流架构可适配不同层级系统
那么,不同层级的系统是如何构建的呢?论文归纳了四大主流架构模式:单智能体循环、多智能体协作、分层编排以及工具增强执行。

单智能体循环(ReAct/Reflexion): 这是最简单、应用最广泛的基础架构。单个语言模型循环执行“观察→思考→行动→反馈”的闭环。别看它设计简单,却是绝大多数L3-L4级系统的核心骨架,并且在推理策略上有极大的优化和适配空间。
多智能体协作(MetaGPT/AutoGen): 当任务变得复杂时,单打独斗就显得力不从心了。多智能体系统将任务责任拆分给多个专业化的智能体,通过它们之间的通信与协作来共同完成目标。
分层编排(Supervisor-Worker): 任务复杂度进一步提升,扁平化的多智能体通信可能陷入混乱。分层架构引入了明确的管控关系:一个高层“监督者”智能体负责拆解总任务,并将子任务分配给专业的“执行者”智能体,同时监控进度并在必要时介入调整。
工具增强执行(CodeAct): 这可以说是自主研究智能体的“灵魂”。它将语言模型从一个被动的文本生成器,转变为能够与代码、实验设备、网络环境交互的主动参与者。正是这种与外部工具和环境的深度集成,极大地拓展了智能体的能力上限。

总的来说,不同层级的系统对架构有天然的选择倾向。L2级系统用简单的单智能体循环就能高效运行;L3级系统采用具备反思机制的Reflexion架构,能天然嵌入检查点,收益最大;L4级系统通常需要分层编排架构,搭配自主迭代优化,才能在长时间运行中保持稳定输出;而理论上未来的L5级系统,很可能需要具备动态自重组能力的图结构架构才能实现。
03.三大结论:开闭源差距收窄,专用智能体超越通用,代码智能体最成熟
基于一套六维特征矩阵(自主等级、核心领域、架构模式、工具集成、评测方法、开源属性),论文对17款主流系统进行了深入分析,得出了几个关键结论。

结论一:代码智能体赛道最为成熟。 在所有被分析的系统维度中,代码智能体的综合表现最优。这得益于其拥有自动化的评测体系、成熟的工具环境(如编译器、测试框架)以及大规模、标准化的基准测试(如HumanEval、SWE-bench)支撑。
结论二:专用智能体全面超越通用智能体。 研究发现,通过收索应用范围,SWE-Agent、Coscientist、FunSearch等L4级系统实现了稳定输出。相反,像AutoGPT、BabyAGI这样旨在处理多样化任务的通用智能体,始终难以实现稳定的L4级运行。这似乎表明,在现阶段,“专才”比“通才”更可靠。
结论三:开源与闭源的性能差距正在迅速缩小。 分析显示,开源系统如OpenHands的表现已经非常接近Devin等知名的闭源系统,这意味着开源社区正在快速追赶。
关于如何评估这些智能体,论文指出了三个核心方向:采用多维度指标,联合评估创新性、正确性、效率和安全性,避免单一优化;开展长周期评测,追踪智能体在持续数周或数月的科研项目中的表现,而非孤立的单次任务;推动社群化评估,将领域专家的反馈循环嵌入评测流程,逐步建立行业共识标准。
最后,论文梳理出智能体系统面临的六大核心挑战:认知死循环、上下文窗口限制、创新价值评估、结果可复现性、安全风险与使用成本。

其中,认知死循环、原创性评测和安全问题尤为关键。认知死循环导致智能体无法识别自己已陷入困境,只会固执地重复失败策略;缺乏可靠的自动化指标来衡量科研成果的质量与原创性,使得智能体难以在闭环中实现自我改进;而随着能力提升,智能体的行动边界和潜在的伦理风险也日益凸显。
04.结语:双AI协作产出完整论文,智能体真变身科研同事了
陈德里的这次实验,不仅仅是一次技术演示。它让智能体实现了从研究想法到完整论文的“端到端”自主产出。仅投入2小时的人类高阶思考时间,通过双AI模型的协作,就能产出一篇结构完整的领域综述,这有力地证明了AI从“工具”进化为“科研同事”的可行性已不再是理论。
这次任务是一次长周期、多流程的复杂工程,而最终生成的论文逻辑清晰、没有偏离主题,这恰恰展现了当前先进智能体系统所具备的三项核心能力:超长文本的连贯处理、长流程任务的持续执行,以及贯穿始终的逻辑一致性。
在自主科研智能体这个前沿领域,陈德里不仅用一个有趣的实验展示了技术的潜力,更通过一篇详实的论文剖析了领域的现状与痛点。这种“知行合一”的尝试,或许为后续智能体如何更深入、更可靠地融入科研工作流,提供了一个新颖而有力的参考方向。
相关攻略
DeepSeek已组建Harness团队,主攻代码智能体产品,明确对标ClaudeCode。团队致力于开发DeepSeekCodeHarness,专注于将模型能力转化为桌面端智能体产品,并构建完整的模型驾驭体系。相关招聘已启动。
DeepSeek AI 新手必看:从注册到高效提问的保姆级教程(附避坑指南) 初次接触 DeepSeek AI 时,许多人的状态往往是既兴奋又茫然——眼前工具功能强大,但不知从何处下手才能真正驾驭。回想那些为了撰写一份技术文档而反复修改提问的日子,效率瓶颈清晰可见。直到摸清几个核心门道,工作效率才实
最近DeepSeek-R1的论文引发了广泛关注,许多人好奇它强大的推理能力究竟是如何锻造出来的。经过仔细研读,我发现其训练流程远比表面看起来精巧,并非一次性的简单微调,而是像层层递进的升级之路,经历了四个紧密相连的阶段。 简单来说,这四步遵循的是“先规范,再强化,后扩展,终对齐”的路线,其中包含两个
AI应用DeepSeek上线仅20天,日活跃用户突破2000万,登顶美区AppStore免费榜首位,成为全球瞩目的现象级产品。然而用户激增导致服务器算力紧张,用户排队时间极长,严重影响体验,技术团队正紧急扩容以应对挑战,当前已引发业界对算力瓶颈的广泛关注。
DeepSeek凭借语言能力对标ChatGPT-4、全球技术开源及打破OpenAI神话而迅速走红。其成功源于创始人的前瞻布局、以热爱为标准的人才战略,以及极度扁平无KPI的组织文化,这些独特优势为AI领域注入了新的活力与竞争格局。
热门专题
热门推荐
来看一组让人揪心的数字:截至5月28日,超过半数的委内瑞拉民众,选择支持经济“美元化”——他们想要用美元来对抗全球数一数二的恶性通胀。根据AtlasIntel的调研,31%的受访者明确支持美元化,另有26%的人表示强烈支持,加起来支持率高达57%;而明确反对或强烈反对的,合计只有30%。换句话说,在
游戏开局,玩家第一眼看到的主角是谁?没错,就是零。不过这里有个挺常见的误会——很多人会下意识觉得零是女主角,那是不是还有个男主角?其实不然。进入游戏之后,外观是可以自由选择的,性别、形象都由你定,男女主角本质上都是同一个人。两种造型唯一的区别就是视觉风格,至于基础属性、成长路线、技能体系,完全一致。
或许有人觉得,AI音乐生成工具不过是图个新鲜感,与专业音乐制作相距甚远。但5月28日,ElevenLabs推出的Music v2,很可能改变这一印象。这次升级版音乐生成模型,已不再停留在去年那个“新手友好”的初级阶段,而是在工作流、版权合规和落地场景上都做了充分布局。 一、核心进化:创作从“一次性生
iPhone20周年纪念款将采用四曲面屏与圆润边框设计,边框仅1 1毫米,但边缘亮度存在失真问题,苹果正与三星、LG合作解决。若无法攻克,可能沿用平面边框。该款预计2027年亮相,属于Pro系列,含双版本,并计划采用屏下前摄与FaceID。
对于技术从业者而言,面试备考始终是一个老生常谈却又不断变化的话题。时间碎片化、知识点庞杂、实战表达欠缺,每一项都可能成为关键时刻的瓶颈。有没有一种方法,能让我们把通勤、运动等零散时间充分利用起来,高效地“打磨技能”呢?今天要介绍的「播面」,或许就是一个值得关注的解题新思路。 播面是什么 简单来说,「





