港大团队启动AI科学家计划:释放人类创造力
假如你是一名科研工作者,面对浩瀚的文献和复杂的实验,你是否渴望拥有一个不知疲倦、知识渊博并且能够全程协作的超级助手?这个愿景正由香港大学教授黄超团队开发的 AI-Researcher 变为现实。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
实验中,该团队揭示了以下实验效果:在技术实现上,以 Claude 为后端的 AI-Researcher 在 93.8%的情况下能够成功产出可运行的代码;在科学质量上,尽管 AI 论文平均分数略低,但是相当一部分已经可以和人类工作比肩。例如,根据 GPT-4o 评审,超过 78%的 AI 生成论文达到了可比水平。
它既是一个工具,也是一个能够自主完成从文献调研、假设生成、算法实现到论文撰写全流程的 AI 科学家。实验表明,其所完成的学术成果在多个领域已经慢慢接近人类高质量研究水平。
黄超告诉 DeepTech:“我们的愿景就是希望通过 AI-Researcher 大幅提升科研效率。比如以前我们一个月可能只能验证一种算法思路,但有了 AI-Researcher 的辅助,我们一个月可以探索上百种不同的算法路径,这种指数级的试错速度将带来科研突破的质的飞跃。”

(来源:https://arxiv.org/abs/2505.18705)
多智能体系统的科研助手
AI-Researcher 的强大源于其多智能体协作框架。这套系统模拟了人类科研团队的完整分工,将复杂任务进行了分解执行。
系统首先会由知识获取智能体启动,它仅需用户提供少量种子论文,便能自主检索并筛选出最相关的高质量学术论文和代码库。
随后,资源分析智能体将扮演关键角色:其论文分析模块通过 RAG 技术从论文中提取核心数学公式,代码分析模块则在仓库中定位具体实现,借此建立理论与实践的双向映射,将抽象概念原子化。最终,规划智能体整合分析结果,形成涵盖数据、训练、测试的详细开发计划。
在扎实的知识地基上,创意生成器开始工作。它采用发散-收敛的模式,首先生成多个方向迥异的研究设想,然后基于科学性、新颖性和可行性筛选,形成结构完整的研究提案。
核心突破体现在算法实现环节。AI-Researcher 摒弃了传统AI变成一次性生成的脆弱模式,引入了类人迭代精炼范式。
代码智能体负责根据计划进行初始实现,顾问智能体则像导师一样审核代码的正确性,并通过分析初步实验结果提供修改建议。两者形成多轮的实现-反馈-优化循环,显著提高了复杂算法的实现成功率。
接着,自动化文档智能体采用三阶段分层生成框架应对长文本一致性的挑战:先根据模板生成论文大纲,再逐步填充内容并维护逻辑一致性,最后依据专业清单核查修订报告中的内容及参考文献,确保学术上的严谨性。

(来源:https://arxiv.org/abs/2505.18705)
科学评估与严格评测,能力边界与意外发现
为了客观评价AI的科研能力,该团队创建了 Scientist-Bench 基准,精选了涵盖计算机视觉、图机器学习等领域的22篇顶会论文作为评估标准。
评估设置了两层难度:Level-1 提供明确指令,测试 AI-Researcher 实现并执行既定科研想法的能力;Level-2 只给参考文献,要求 AI-Researcher 自主发现新颖研究方向,挑战性更高。
评估框架极为严格:先由代码评审智能体验证技术实现,再进行科学贡献评估,使用校准后的论文评审智能体,以双盲方式比较AI论文与人类原稿。
评审标准对标 ICLR 等顶会,从创新性、方法严谨性、实验验证三个维度打分。为了消除偏差,他们针对论文顺序进行随机交换,并汇集了多个顶尖大模型的独立评审意见,形成了类似于评审委员会的集体决策。
期间还有一个反直觉的发现是:在开放探索任务中,AI-Researcher 的表现普遍优于有明确指令的任务,其平均评分和可比比例均有着显著提升。
这表明,当前AI科研智能体在整合内部知识、自主发现方向等方面展现出独特的优势,过细的指令反而会限制它的创造性。这挑战了 AI 仅擅长执行而非创造的旧有认知。
实验也指出了一定局限:在需要深厚专业背景的理论分析和前沿优化技术实,AI 依然显得稚嫩;在需要多步骤的严密数学推导时,现有架构依然容易出错;跨越多天的科研长流程也对记忆系统提出了挑战。

(来源:https://arxiv.org/abs/2505.18705)
尽管如此,AI-Researcher 展示了一条通往增强科学发现的切实路径。目前,该框架已在物理、化学、生物等领域得到广泛应用。黄超表示,用户普遍反馈 AI-Researcher 具备助力领域专家实现AI赋能的潜力。这一过程显著降低了 AI 应用门槛,让研究者无需具备深厚的计算机或编程背景,也能利用 AI 技术推动本学科的研究,实现跨领域的智能增强。
参考资料:
相关论文https://arxiv.org/abs/2505.18705
开源系统https://github.com/HKUDS/AI-Researcher
相关攻略
Discord接入:让OpenClaw成为你的社区智能管家 对于全球数亿的游戏玩家和社群爱好者来说,Discord几乎等同于线上“大本营”。那么,有没有可能让你精心搭建的Discord服务器也拥有一个聪明能干的AI助手呢?答案是完全可行。通过创建Discord Bot(机器人),你可以将OpenCl
Claude最强“神话”模型,可能用到来自字节的技术? 这条猜测直接冲上了热搜榜。 这款被形容为“强到不敢公开发布”的Mythos模型,确实极大地刺激了人们对下一代大语言模型架构的想象空间。 社区讨论的焦点,正集中在它是否采用了“循环语言模型”(Looped Language Model)这一创新架
国产大模型DeepSeek迎来重大更新:快速模式与专家模式上线 最新消息显示,国产AI大模型DeepSeek再次迎来重要升级。4月8日,用户在访问DeepSeek时发现,输入框上方新增了“快速模式”与“专家模式”两个选项。根据官方说明,快速模式专注于日常对话场景,响应速度快,同时支持图片和文件中的文
飞书接入指南:为你的团队嵌入一位AI同事 如果你身处国内互联网或科技行业,对飞书这款高效协作平台一定非常熟悉。如今,它已不仅是团队沟通工具,更成为众多企业的数字化工作中枢。那么,能否让团队成员在飞书内部,直接调用强大的AI智能助手来提升效率呢?答案是肯定的。本指南将手把手教你,如何将OpenClaw
面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步,却忘了最终的目的地。针对这一痛点,厦门大学和香港科技大
热门专题
热门推荐
清明刮了坟头土,沥沥拉拉四十五。 这些流传已久的农谚,可不是随口说说的顺口溜,它们是千百年来农耕文明与自然对话的结晶,是写在时间里的“天气备忘录”。一句句简短的话语,背后藏着的是对节气、物候与农事活动之间精密联系的深刻洞察。 节气与农事 先看清明和谷雨这对“搭档”。老话说,“清明要晴,谷雨要淋”。清
人生伟业的建立,不在能知,乃在能行。 仔细想想,真正的阻碍往往并非来自外界,而是源于内心。任何的限制,其实都是从自己的内心开始的。 那么,我们该如何突破呢?不妨先从一个简单的行动开始:如果我们都去专注地做那些自己能做到的事情,最终的结果,往往会让自己大吃一惊。 行动固然重要,但人终究是社会性的存在。
亮晶晶的春雨 你听,那是什么声音?是欢快的打击乐,还是轻盈的舞步?原来,是一群天真烂漫的娃娃——亮晶晶的春雨,正在高空中云集。它们嬉戏着,咿咿呀呀地欢唱着,然后一股脑儿地、欢蹦乱跳地扑向大地母亲的怀抱。 这春雨,可不只是娃娃们的嬉闹。它绵绵不绝,细细密密,像极了巧手姑娘使用的花针与丝线。它们斜斜地交
母亲的爱是世间最伟大的爱,也是最珍贵的爱 母爱,常常藏匿于那些看似微不足道的日常琐碎里。它或许没有惊天动地的形式,却如涓涓细流,汇聚成永恒的生命之源。 该如何形容这种无处不在的守护呢?春天,她是拂面的和风,送来丝丝暖意;夏日,她是那口沁凉的冰淇淋,带来纯粹的快乐;秋时,她化作枝头那片悄然飘落的黄叶,
一列美人蕉 盛开着红色、黄色而带着黑斑的大朵的花,正伸张了大口,向着灿烂的春光微笑。远远望去,美人蕉的花簇像一团团燃烧得正旺的火焰,充满了生命力;凑近细看,每一朵又宛如小姑娘发间俏丽的红蝴蝶结,透着几分活泼与羞涩。至于它那宽大的叶子,则像极了一把把撑开的绿色芭蕉扇,在风中轻轻摇曳。 看着这些盛开的花





