港大团队启动AI科学家计划：释放人类创造力

时间：2026-01-02 16:52

假如你是一名科研工作者，面对浩瀚的文献和复杂的实验，你是否渴望拥有一个不知疲倦、知识渊博并且能够全程协作的超级助手？这个愿景正由香港大学教授黄超团队开发的 AI-Researcher 变为现实。实验

假如你是一名科研工作者，面对浩瀚的文献和复杂的实验，你是否渴望拥有一个不知疲倦、知识渊博并且能够全程协作的超级助手？这个愿景正由香港大学教授黄超团队开发的 AI-Researcher 变为现实。

实验中，该团队揭示了以下实验效果：在技术实现上，以 Claude 为后端的 AI-Researcher 在 93.8%的情况下能够成功产出可运行的代码；在科学质量上，尽管 AI 论文平均分数略低，但是相当一部分已经可以和人类工作比肩。例如，根据 GPT-4o 评审，超过 78%的 AI 生成论文达到了可比水平。

它既是一个工具，也是一个能够自主完成从文献调研、假设生成、算法实现到论文撰写全流程的 AI 科学家。实验表明，其所完成的学术成果在多个领域已经慢慢接近人类高质量研究水平。

黄超告诉 DeepTech：“我们的愿景就是希望通过 AI-Researcher 大幅提升科研效率。比如以前我们一个月可能只能验证一种算法思路，但有了 AI-Researcher 的辅助，我们一个月可以探索上百种不同的算法路径，这种指数级的试错速度将带来科研突破的质的飞跃。”

（来源：https://arxiv.org/abs/2505.18705）

多智能体系统的科研助手

AI-Researcher 的强大源于其多智能体协作框架。这套系统模拟了人类科研团队的完整分工，将复杂任务进行了分解执行。

系统首先会由知识获取智能体启动，它仅需用户提供少量种子论文，便能自主检索并筛选出最相关的高质量学术论文和代码库。

随后，资源分析智能体将扮演关键角色：其论文分析模块通过 RAG 技术从论文中提取核心数学公式，代码分析模块则在仓库中定位具体实现，借此建立理论与实践的双向映射，将抽象概念原子化。最终，规划智能体整合分析结果，形成涵盖数据、训练、测试的详细开发计划。

在扎实的知识地基上，创意生成器开始工作。它采用发散-收敛的模式，首先生成多个方向迥异的研究设想，然后基于科学性、新颖性和可行性筛选，形成结构完整的研究提案。

核心突破体现在算法实现环节。AI-Researcher 摒弃了传统AI变成一次性生成的脆弱模式，引入了类人迭代精炼范式。

代码智能体负责根据计划进行初始实现，顾问智能体则像导师一样审核代码的正确性，并通过分析初步实验结果提供修改建议。两者形成多轮的实现-反馈-优化循环，显著提高了复杂算法的实现成功率。

接着，自动化文档智能体采用三阶段分层生成框架应对长文本一致性的挑战：先根据模板生成论文大纲，再逐步填充内容并维护逻辑一致性，最后依据专业清单核查修订报告中的内容及参考文献，确保学术上的严谨性。

（来源：https://arxiv.org/abs/2505.18705）

科学评估与严格评测，能力边界与意外发现

为了客观评价AI的科研能力，该团队创建了 Scientist-Bench 基准，精选了涵盖计算机视觉、图机器学习等领域的22篇顶会论文作为评估标准。

评估设置了两层难度：Level-1 提供明确指令，测试 AI-Researcher 实现并执行既定科研想法的能力；Level-2 只给参考文献，要求 AI-Researcher 自主发现新颖研究方向，挑战性更高。

评估框架极为严格：先由代码评审智能体验证技术实现，再进行科学贡献评估，使用校准后的论文评审智能体，以双盲方式比较AI论文与人类原稿。

评审标准对标 ICLR 等顶会，从创新性、方法严谨性、实验验证三个维度打分。为了消除偏差，他们针对论文顺序进行随机交换，并汇集了多个顶尖大模型的独立评审意见，形成了类似于评审委员会的集体决策。

期间还有一个反直觉的发现是：在开放探索任务中，AI-Researcher 的表现普遍优于有明确指令的任务，其平均评分和可比比例均有着显著提升。

这表明，当前AI科研智能体在整合内部知识、自主发现方向等方面展现出独特的优势，过细的指令反而会限制它的创造性。这挑战了 AI 仅擅长执行而非创造的旧有认知。

实验也指出了一定局限：在需要深厚专业背景的理论分析和前沿优化技术实，AI 依然显得稚嫩；在需要多步骤的严密数学推导时，现有架构依然容易出错；跨越多天的科研长流程也对记忆系统提出了挑战。

（来源：https://arxiv.org/abs/2505.18705）

尽管如此，AI-Researcher 展示了一条通往增强科学发现的切实路径。目前，该框架已在物理、化学、生物等领域得到广泛应用。黄超表示，用户普遍反馈 AI-Researcher 具备助力领域专家实现AI赋能的潜力。这一过程显著降低了 AI 应用门槛，让研究者无需具备深厚的计算机或编程背景，也能利用 AI 技术推动本学科的研究，实现跨领域的智能增强。

参考资料：

相关论文https://arxiv.org/abs/2505.18705

开源系统https://github.com/HKUDS/AI-Researcher

来源：https://www.163.com/dy/article/KI9HVDFU05119734.html