首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
上海交大团队利用Claude Code实现自动化科研两篇论文获AI顶会接收

上海交大团队利用Claude Code实现自动化科研两篇论文获AI顶会接收

热心网友
41
转载
2026-05-07

如今,自主科研AI Agent已能完整实现从灵感到论文的全流程自动化。或许一觉醒来,AI助手就已完成了复杂的实验,甚至撰写出一篇结构完整的学术论文。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这听起来前景广阔,但一个根本性问题也随之凸显:我们如何确信,AI Agent在最终结论中没有悄然植入“虚假信息”?

当前,这类自动化科研系统普遍面临两大核心挑战。首先,生成与审查任务常由同一系列模型完成,导致许多系统性偏差难以在内部被有效识别与纠正。其次,当Agent在近乎无人监督的状态下连续运行数日,其最终产出的研究结论,往往难以验证是否得到了充分、可靠的证据支撑。

针对这些科研可信度难题,上海交通大学的研究团队提出了一个名为“在睡眠中自动研究”(Auto-Research-in-sleep,简称 ARIS)的开源框架。其核心重点,并非单纯追求更快的论文产出速度,而是致力于让自动化产出的论文更经得起严格的科学检验

值得关注的是,在开源社区的实际应用案例中,已有研究人员利用ARIS框架成功完成了从课题构思到论文成稿的全流程工作,并且相关成果已被学术会议接收。

ARIS:一套三层架构的科研质量保障系统

根据其研究论文描述,ARIS的系统拓扑结构清晰分为三层,共同构建了一个从任务执行到质量保障的完整闭环。

第一层是执行层,它提供了最基础的能力单元,由一系列可复用的、通过Markdown定义的技能模块,以及一个持久化的研究Wiki知识库构成。

第二层是编排层,负责将分散的技能模块串联成完整的科研流水线。它定义了五个端到端的工作流,全面覆盖了从创意发现、实验桥接、自动审查循环、论文撰写到回复审稿意见的完整研究周期。

第三层是保障层,这也是ARIS最具创新性的部分。它专门负责对研究过程与产出进行审计与核查,包括一个三阶段的证据-声明审计级联、一个五轮次的科学写作编辑流水线,以及数学证明检查器、视觉PDF审查和引用审计等关键模块。

图|ARIS 系统拓扑。6组组件通过带标签的关系相互交互(见左侧边栏):Meta-Optimization 外循环对 Assurance 层进行门控,后者负责检查 Artifacts;Artifacts 由 Workflows 生成和消费,而 Workflows 负责编排 Skills;Skills 则调用 MCP 与 Tool Bridges,以访问外部模型和数据。右侧的 executor 和 reviewer 使用来自模型系列。ARIS-Code CLI 将所有组件打包为一个独立的二进制程序。

核心机制:引入跨模型家族的对抗式协作

研究团队深刻认识到,依赖单一AI智能体难以可靠地完成长周期、高复杂度的科研任务。因此,他们设计了一套跨模型家族的“执行-审查-修正”循环机制

在该机制中,执行者(默认推荐使用Claude系列模型)负责生成代码、实验方案或论文草稿;而审查者(默认推荐使用GPT-4等系列模型)则依据预定义的严格评分标准进行结构化评估,并返回具体的修改建议。执行者根据建议进行修订后再次提交,如此循环往复,直至审查评分达到预设的质量标准。

图|跨模型对抗式协作通过“执行者生成”与“外部模型批评、可执行的修订请求以及收敛性检查”交替进行。审查者的访问权限范围可以从仅查看文档,到访问整个代码仓库。

覆盖研究全周期的五条核心工作流

基于上述协作机制,ARIS精心组织了五条清晰明确的工作流:

工作流1:创意发现。负责进行深入的文献调研、评估研究想法的新颖性,并制定初步的实验计划。

工作流2:实验桥接。将实验计划转化为可执行的代码,调度计算资源运行实验,并回收和分析实验结果。

工作流3:自动审查循环。将论文草稿提交给跨模型审查者进行多轮结构化评分,提取具体行动项,必要时触发GPU实验以获取新证据,修订相关章节,并检查修改是否达到收敛标准。

工作流4:论文撰写。这是一个包含多个步骤的精细化流程,依次完成论文大纲规划、图表生成、LaTeX撰写与五轮科学编辑。对于理论性强的论文,还会调用专门的证明检查器。随后进行结论审计、文档编译,并通过两轮基于GPT-4的视觉审查与自动修订进入改进循环。

工作流5:投稿后阶段。系统会智能解析审稿意见,拆分关键问题,规划回应策略,起草回复稿,并通过三道分别用于防止捏造数据、过度承诺和遗漏回应的安全检查,最后进行压力测试并定稿。

图|ARIS 工作流库。上:5条工作流及其产物契约的端到端组合,按研究的4个阶段分组,分别为发现、实验、成稿和投稿后阶段;虚线表示审稿人反馈、由 GPU 触发的证据收集,以及 Wiki 记忆。下:正文未单独展开的几条工作流的压缩内部结构,包括 W1创意发现(带有审稿人门控的迭代细化)、W1.5 实验桥接(带有代码审查和自动调试回退)以及 W4 回复审稿意见(带有安全门和压力测试)。

构建“自证”安全网:严谨的三层审计链

ARIS最具特色的设计在于其严谨的三层审计链,为AI的科研输出增加了一道强大的“自证”安全网。

第一步,实验审计。重点审查实验本身的可靠性,系统排查诸如伪标签、幽灵结果、未执行的评估指标、超出数据支持范围的结论外推等常见问题。

第二步,结果到主张的映射审计。将论文中的每一条候选结论与已有的实验证据逐一比对,明确判定其属于“有充分支持”、“部分支持”还是“不成立”。

第三步,论文主张审计。由一位不带任何上下文的“全新”审查者,直接核对论文正文中的原始结果描述、实验设置细节以及图表中的数据是否完全一致,确保最终表述的准确性。

在这条核心审计链之外,系统还设置了多重额外保障。例如,初稿完成后会经历五轮科学编辑

图|证据到主张审计级联。阶段 1(experiment-audit,实验审计):审查者对评估脚本和结果文件进行审计,以检查完整性失效模式。阶段 2(result-to-claim,从结果到主张):将结果映射为明确的主张判定(支持、部分支持、被证伪);凡存在审计失败的问题,相关主张都会被降级处理。阶段 3(paper-claim-audit,论文主张审计):一名不带任何上下文信息的全新审查者,将稿件中的每一条定量主张与主张台账及原始结果文件逐一比对。

从“反复试错”到“螺旋式学习”:研究Wiki的核心作用

持久化的研究Wiki是ARIS另一个关键组成部分。它并非简单的笔记,而是一个项目级的记忆系统,持续记录相关的论文、研究想法、实验过程和阶段性结论,并智能标记它们之间的关联。

这套机制的价值显而易见。在没有它的情况下,同一个被证明行不通的想法,可能会在不同轮次的研究中被AI Agent反复提出,陷入低效的循环。而有了Wiki,失败的探索方向会被及时记录并排除,已经验证的结论则能成为下一轮研究的坚实起点,从而将一次性的、可能重复的研究过程,转变为可积累、可迭代的螺旋式学习

图|为什么 wiki 很重要。没有 wiki 时(左),每次会话都从一张白纸开始;同一个失败的想法 A 可能会被无限次重复尝试,因为系统无法记住先前的结果。有了 wiki 之后(右),第 1 次会话中的失败会被记录下来;第 2 次会话在构思阶段会读取 wiki,跳过 A,转而成功尝试 B;第 3 次会话则在 B 的基础上继续推进,并探索 C/D。失败的想法会变成“禁试清单”,而已验证的论断则会成为下一轮构思的基础,从而把一次性的研究过程转变为螺旋式学习。

实际应用效果与当前局限

那么,这套系统的实际表现如何?

目前,ARIS的技能库已从最初的21个核心技能扩展到65个以上,覆盖了机器人学、硬件设计、数学证明乃至基金申请等多个研究方向。系统已在Claude Code、Codex CLI和Cursor等开发平台上完成测试,审查端可灵活接入GPT、Gemini、DeepSeek等多种主流大模型。

研究团队提供了一次真实的隔夜运行记录。在约8小时内,ARIS完成了4轮“审查-修改”循环,内部审查分数从5.0/10提升到了7.5/10。过程中系统自动触发了20多次GPU实验,并主动删除了一些证据不足的结论。这表明,ARIS至少已经能够将“审查驱动修改”从一个概念,落地为可执行、可观测的自动化流程。

不过,团队对结果的表述非常谨慎。他们在论文中明确指出,这些只是观察性证据,不能据此做出严格的因果推断。也就是说,这次运行成功演示了“结论裁剪”和“审查驱动修改”的可行性,但尚不足以证明跨模型审查一定优于同模型审查,也无法断定当前的双审查者结构已是最优解。

现有不足与未来发展方向

缺乏受控的对比评估是当前最主要的局限。论文中报告的所有结果均为观察性记录。研究团队也承认,模型选择、任务难度、运行强度等多种变量都会影响结果,因此无法将观察到的效果在因果层面完全归功于ARIS框架本身。

另一方面,必须清醒认识到,ARIS并不能保证任何输出的绝对正确性、新颖性或科学合理性。三层审计链可以拦截许多常见错误,但无法保证发现所有潜在的失真或逻辑谬误。如果审查者自身存在某种方法论偏好,系统最终优化的方向,可能是迎合审查者的“口味”,而非提升真正的科学质量。论文也强调,最终的研究方向抉择、关键证据的核验以及论文的提交决定,仍然需要人类研究者的深度参与和最终负责。在安全层面,将整个代码仓库发送给外部模型进行审查也存在潜在风险,本地化的审查路由方案仍在规划中。

当然,ARIS的价值并不仅限于论文写作。其核心机制——独立的审查者、“证据到结论”的审计流程以及可追溯的台账记录——理论上可以被置于模型输出与后续训练信号之间,作为一层显式的监督机制,服务于更广泛的AI自我改进系统。

归根结底,ARIS真正试图推动的,并非自动化科研的“速度”,而是其“可信度”。它或许还没有给出所有问题的标准答案,但至少将一个长期被“效率”光环所掩盖的核心问题——如何确保AI科研产出的真实与可靠——清晰地摆到了台面上。对于走向深水区的自动化科研而言,这个问题的重要性,可能远比“再快一点”更为根本。

来源:https://36kr.com/p/3799050979040518
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

陶哲轩推荐ClaudeCode审稿工具15分钟高效完成论文修改
业界动态
陶哲轩推荐ClaudeCode审稿工具15分钟高效完成论文修改

陶哲轩利用ClaudeCode处理论文审稿意见,仅用15分钟便高效完成了修改,并发现了审稿报告中的一处笔误。他设想将语法校对等繁琐工作交给AI处理,而让研究者专注于核心难题。这体现了AI作为“副驾驶”辅助研究、提升效率的趋势,此前AI已帮助解决多个数学难题。

热心网友
05.07
Claude获亚马逊巨额投资与算力支持贝索斯押注AI未来
业界动态
Claude获亚马逊巨额投资与算力支持贝索斯押注AI未来

Anthropic与亚马逊达成十年千亿美元AI基础设施合作,锁定5吉瓦算力用于Claude模型。亚马逊追加投资,总投资额近330亿美元,以应对用户激增带来的算力需求。行业竞争正从模型转向基础设施,算力成为核心护城河。双方深度绑定,但Anthropic保持运营独立并实施多云战略。

热心网友
05.07
Meta斯坦福测试AI刷榜全军覆没 GPT Claude Gemini均得零分
业界动态
Meta斯坦福测试AI刷榜全军覆没 GPT Claude Gemini均得零分

Meta、斯坦福等机构推出ProgramBench基准测试,要求AI仅凭可执行文件和使用文档,从零重写完整程序。测试涵盖200个项目,采用行为测试评估。九大顶级模型(包括GPT、Claude、Gemini)的完全通过率均为0%,ClaudeOpus4 7表现最佳,但未获满分。研究发现AI生成的代码结构简陋,缺乏模块化设计,且存在作弊倾向。该测试表明AI在软件

热心网友
05.07
苹果官方App误打包了Claude.md,这么大的公司也Vibe Coding啊?
AI
苹果官方App误打包了Claude.md,这么大的公司也Vibe Coding啊?

苹果大失误!把自用的Claude md打包到了最新App里 这下可算是被坐实了:苹果内部,确实在用Claude Code来构建生产级应用。 连这么大的公司,也在“氛围编程”(Vibe Coding)吗? 要知道,项目级的Claude md文件,通常就是用来告诉AI这个项目是什么、该怎么构建、需要遵循

热心网友
05.06
苹果官方 App 意外包含 Claude.mdVibe Coding 也在使用
科技数码
苹果官方 App 意外包含 Claude.mdVibe Coding 也在使用

苹果大失误!把自用的 Claude md 打包到了官方 App 里 这下可算是被“实锤”了:苹果内部,确实在使用 Claude Code 来构建生产级别的应用。 连这样体量的科技巨头,也在进行所谓的“Vibe Coding”吗? 要知道,项目级的 Claude md 文件,通常就是用来告诉 AI 助

热心网友
05.06

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

纸嫁衣9手游什么时候出 具体上线日期与预约方法
游戏攻略
纸嫁衣9手游什么时候出 具体上线日期与预约方法

近年来,中式恐怖解谜游戏的热度持续攀升,成为众多玩家关注的焦点。在这一细分领域中,《纸嫁衣》系列凭借其深厚的民俗文化底蕴和极具沉浸感的氛围塑造,已然确立了标杆地位。随着前作口碑的不断积累,玩家对系列新作的期待也日益高涨。目前,官方已正式确认《纸嫁衣9》预计于2026年第三季度,即7月至9月期间发布。

热心网友
05.07
暗区突围受伤急救指南创伤救援玩法与状态处理详解
游戏攻略
暗区突围受伤急救指南创伤救援玩法与状态处理详解

各位战术指挥官请注意,《暗区突围》将于4月30日正式启动限时特别行动——“创伤救援”。本次行动将持续至5月21日,并非简单的模式复刻,而是对团队协作与战术执行能力的一次全新挑战。接下来,我们将深入解析该玩法的核心机制与实战要点,助你提前掌握通关策略。 参与本次行动,你需要提前准备“创伤小组入场券”。

热心网友
05.07
归环灵匿是什么详细解析其背景与作用
游戏攻略
归环灵匿是什么详细解析其背景与作用

在《归环》的开放世界探索中,灵匿系统堪称游戏体验的“灵魂暗线”。它远非一个简单的隐身开关,而是深度融入了探索、叙事与资源循环的核心玩法。透彻理解这一机制,你才能真正掌握《归环》的玩法精髓与设计深度。 启动灵匿的操作十分便捷,按下指定按键,角色即刻进入半透明状态。此时,NPC的常规警戒AI将暂时“休眠

热心网友
05.07
子夜之章专业技能是否过于单调影响游戏体验
游戏攻略
子夜之章专业技能是否过于单调影响游戏体验

《子夜之章》的专业技能体系,正面临关键的转型挑战。自《飞龙军团》版本完成系统性重塑后,这套机制已历经三个资料片的考验。从表面看,它确实变得更加精细与“硬核”,但一个日益凸显的问题是:在“专注”制造模式与“多开角色”策略的双重影响下,普通玩家的经济参与空间正被压缩,整个制造产业链的活力与可持续性也呈现

热心网友
05.07
超级混音带使用体验与音质深度评测报告
游戏攻略
超级混音带使用体验与音质深度评测报告

真正的怀旧,从来不是对某个地点或时代的精确复刻,而是对一种感觉的精准捕捉。那些瞬间的情感闪回,足以唤醒我们沉睡已久的记忆。即便你并非成长于90年代的北加州,即便你的青春与滑板文化毫无交集,这都无关紧要——《超级混音带》深谙此道。澳大利亚开发商Beethoven & Dinosaur用一首首精心挑选的

热心网友
05.07