这项由香港科技大学主导的研究,以预印本形式发表于2026年5月,编号为arXiv:2605.27905v1,属于计算机科学与自然语言处理领域。希望查阅完整论文的读者,可凭此编号自行搜索获取。
近年来,人工智能领域涌现出一类令人兴奋的新工具——AI科研助手。它们不仅能检索资料、整理文献,更能自主提出研究设想、设计实验方案,甚至直接撰写完整的学术论文草稿。这听起来如同科幻电影情节,但如今已成为现实。一个随之而来的关键问题是:这些AI助手究竟是在帮助科学家开拓知识边疆,还是仅仅在已经成熟的路径上循环往复?
香港科技大学的研究团队显然也关注到这一点,但他们并未满足于“AI生成的想法听起来很合理”这一表面印象,而是系统地追问了一个根本性问题:AI生成的科研想法,其创新性究竟如何?它们的探索范围是比人类更广阔,还是更狭窄?研究结论出人意料,却又在情理之中:当前的AI科研助手更像一位精通整理现有地图的专家,而非愿意踏入未知领域的探险家。
一、科研助手大测评:大规模实验如何展开
为回答“AI科研助手能否真正拓展科学边界”这一核心问题,研究团队采用了一种极其严谨的方法:大规模、系统性的对比实验。
首先,他们构建了一个庞大的学术文献库,从机器学习三大顶级会议——ICLR、NeurIPS、ICML——中收录了2019年至2025年间的共计34698篇论文,每篇均包含标题、摘要、关键词及引用关系。随后,团队利用“文献耦合”方法将这些论文划分至不同研究领域。简而言之,如果两篇论文频繁引用相同的参考文献,那么它们的研究问题很可能相近——正如两个人常去同一家书店购书,阅读兴趣往往相似。最终,他们识别出19个活跃的研究领域,涵盖强化学习、图神经网络、AI公平性、在线算法、组合优化等热门方向。
实验的核心流程如下:研究团队从2024至2025年的文献中,针对每个领域反复随机抽取“种子文献”——每次抽取5篇,其中一篇为核心论文,其余四篇为相关文献。随后,将这些论文输入AI科研助手,要求其基于这些文献提出新的科研想法。此过程重复了2140次,覆盖所有研究领域。
更为关键的是,团队并未仅测试单一AI工具,而是同时评估了四种具有代表性的AI科研助手框架,每种框架均搭配六种大型语言模型运行。这四种框架包括:最简单的零样本生成(直接基于文献输出想法);AIScientist(通过反复自我审视与修改来打磨想法);ResearchAgent(将提出想法的过程拆解为问题发现、方法设计、实验规划三个阶段,每一阶段均由另一个AI进行评分);以及AgentLaboratory(让扮演“博士后”与“博士生”角色的不同AI通过对话共同制定研究计划)。搭配的六种语言模型来自Qwen、Llama、Gemma三个系列,参数规模从0.8亿到350亿不等。
整个实验共进行了51360次生成尝试,其中37802次成功产出了有效的科研想法。这一庞大的数据量确保了结论的统计可靠性。值得注意的是,所有AI助手的提示词中均明确要求其提出“新颖的、高影响力的、与现有工作不同的”想法——换言之,研究者给予了AI充分的“鼓励”去大胆探索,但结果依然耐人寻味。
二、AI总在“知识地图密集区”徘徊,而人类更倾向探索边缘
在获得37802个AI生成的科研想法后,研究团队首要回答的问题是:这些想法在知识空间中的分布,与人类科学家的论文相比,是更集中还是更分散?
团队将每个AI生成的想法和每篇人类论文都转换为一个数学向量——相当于在一张无形的“知识地图”上标注坐标。两篇文章在这张图上距离越近,说明研究内容越相似;距离越远,则表明差异越大。
结果清晰明了。在同一研究领域内,AI生成的想法之间的相似度介于0.82到0.84之间;而人类论文之间的相似度仅为0.77。这一差距看似不大,但在学术研究语境下,意味着AI想法高度集中于知识地图的某些热门区域,而人类研究则更广泛地分布,探索着更广阔的范围。
更有趣的是,使用四种不同框架生成的AI想法,彼此之间的相似度高达0.81到0.84——几乎与同一框架内部生成的想法一样相似。这说明,无论是让AI自我反思、进行多阶段验证,还是让两个AI角色对话,最终产出的想法均指向大致相同的概念区域。换言之,更复杂、更“高端”的AI框架并未拓宽其探索范围。
研究团队还采用了另一种方法进行交叉验证:计算每篇文章与其所在领域“重心”的距离。结果一致——AI生成的想法距离领域重心的平均距离为0.091,而人类论文为0.121。AI想法更紧密地围绕在领域核心地带,而人类研究则更倾向于在边缘甚至相邻领域游荡。
打个比方:这如同一场城市探险。人类探险者喜欢前往城市边缘甚至邻近城市,有时会迷路,但也能发现意想不到的风景。而AI探险者则更倾向于反复拍摄市中心最繁华的广场——那里安全、有据可循,拍摄的照片虽然美观,但已屡见不鲜。
三、AI不愿远离“出发点”,人类却在不断前行
第一个发现表明AI想法过于集中;第二个问题则进一步深入:AI生成的想法,与最初输入的5篇“种子论文”相比,是否走出了足够远的距离?
研究团队为每组种子论文找到了对应的“人类跟进研究”——即那些后来引用了这5篇种子论文中至少两篇的人类论文。这些人类跟进研究代表了科学界在相同起点下,实际探索的方向。
对比结果同样显著。AI生成的想法与种子论文之间的相似度为0.92,而人类跟进研究与种子论文之间的相似度仅为0.88。这意味着AI想法更接近出发点,而人类研究则走得更远。更有意思的是,AI想法与人类跟进研究之间的相似度最低,仅为0.82——表明AI和人类在阅读相同文献后,选择了相当不同的路径。
研究团队还使用了主成分分析(一种将多维数据投影到二维平面的方法,便于直观“观察”数据分布)来可视化这一现象。在每个案例中,模式均一致:那5篇种子论文聚集在某一位置,AI生成的想法紧密围绕其周围,形成密集的小圈子,而人类跟进研究则散落在更远的地方,有时甚至分布至图的另一角落。
这揭示了一个关于科学进步的深刻事实:真正推动科学前进的,往往不是沿着现有方向走得更稳更快,而是某天有人回头问一句“我们为何要这样走?是否存在完全不同的路径?”这种提问需要某种“离开舒适区”的勇气,而目前的AI系统,似乎更擅长在舒适区内精耕细作。
四、AI想法汇聚的区域,引用数往往更低
在发现AI想法更为集中后,研究团队继续追问第三个问题:AI偏好的知识区域,在科学上是否真的更具价值?
由于AI生成的想法本身缺乏真实引用数据,团队采用了一种间接方法:找出那些与AI生成想法高度相似(相似度超过0.9)的真实人类论文,然后查看这些论文的引用量,并与同年、同领域的平均引用量进行比较。如果AI偏好的方向确实富有价值,那么这些相似论文的引用量应高于平均水平;反之,则说明AI偏好的方向相对缺乏影响力。
在2359个成功匹配的“AI想法-人类论文”对中,与AI想法最相似的人类论文平均获得了50.4次引用,而同年同领域的平均引用量为54.9次。差距为4.47次,看似不大,但统计检验表明这一差异并非偶然(置信区间为负6.41到负2.53,p值小于0.001)。在四个AI框架中,有三个(零样本生成、ResearchAgent、AgentLaboratory)均呈现显著的低于平均引用量的模式;仅有AIScientist的差异未达到统计显著性。
这一发现的含义是:AI倾向于聚集的知识区域,恰恰是科学影响力相对较低的地方。当然,这并不意味着AI选择的方向毫无价值,但它确实暗示了一个令人警惕的模式——AI在“安全地带”中产出了大量想法,而这些安全地带恰好不是科学突破最容易发生的区域。
五、AI改变的是“怎么做”,而非“做什么”
研究团队的第四个分析维度最为细致:当AI生成的想法与种子文献确实存在差异时,这种差异主要体现在哪里——是提出了全新的研究问题,还是仅更换了解决方案?
为回答这一问题,团队对每个AI生成的想法和每篇种子论文进行了结构化拆解,提取出“研究问题”(旨在解决什么问题?)和“技术方法”(采用何种手段解决?)两个核心要素。随后,他们计算AI想法中的研究问题和技术方法,与种子文献中的研究问题和技术方法的相似度——如果相似度超过0.87,则认为该元素在种子文献中已存在;低于此门槛,才视为真正新引入的。
结果呈现出一个非常清晰的不对称性。在研究问题层面,85.1%的AI生成想法所提出的研究问题在种子文献中已存在——AI几乎没有提出全新的“要研究什么”。但在技术方法层面,情况稍好:仅有62.6%的AI想法采用了种子文献中已有的技术方法,也就是说,近四成的AI想法在方法层面引入了一定新内容。
这意味着AI的“创新”主要发生在“换种方式做同一件事”,而非“换个问题来做”。借用地图探索的比喻:AI更像是在说“我们去老地方,但这次换条路走”,而不是“我们去一个从未涉足的地方”。
这一模式在所有四个框架中保持一致,只是程度略有差异。AIScientist在方法层面引入的新内容最多,而ResearchAgent最为保守。但无论哪个框架,研究问题层面的创新都极为稀少——没有新研究问题的比例从79%到88.4%不等。
六、AI为何“原地打转”:背后的深层原因
将上述四个发现串联起来,一幅完整的图景浮现而出:当前的AI科研助手是极为出色的“局部延伸者”,但绝非真正意义上的“方向开拓者”。
这并非因为AI未被要求创新。恰恰相反,实验中的每一个框架都明确要求AI提出“新颖的”、“不同于现有工作的”、“前所未见的”想法。AgentLaboratory的提示词甚至直接写道“你的想法应该非常创新,与任何以前见过的东西都不同”。但这些语言层面的鞭策,似乎并未真正改变AI输出的知识分布。
原因可能在于AI系统的底层工作方式。大型语言模型在海量文本上训练而成,它们擅长识别和复现已有文本中的模式,擅长将已知概念组合在一起。这如同一位博览群书的学者——他能将书中读到的各种知识融会贯通,侃侃而谈,但真正“发现一个从未有人想到过的新问题”,则需要一种不同的能力:愿意质疑现有框架本身,愿意在没有地图的地方出发。目前的AI系统在这方面存在根本性局限。
而且,这一局限并不会随着AI规模和复杂度的增加而自动消失。从0.8亿参数的小模型到350亿参数的大模型,从简单的单次生成到多轮自我反思、多智能体对话,探索的广度并未随之显著扩大。更强大的AI并未带来更广阔的科学探索——它带来的更多是更精致、更连贯的“已知方向的延伸”。
归根结底,这项研究提醒我们区分两件不同的事情:产生听起来合理的科研想法与拓展科学探索的边界。前者AI已做得相当不错,后者目前仍主要是人类科学家的专长——或者说,是人类科学家中那些敢于提出“为什么我们从来不这样问问题”的少数人的专长。
随着AI科研助手越来越深入地嵌入科学研究的日常工作流,这种区分变得愈发重要。如果我们只是用AI高效产出大量“局部延伸”式的想法,很可能在不知不觉中让科学界的集体注意力越来越集中于已有人探索过的方向,而悄然减少对真正未知领域的关注。这并非说AI科研助手没有价值——它们在提高研究效率、帮助科学家快速梳理文献、产生初步假设等方面确实作用显著。但如果将“产出了大量新想法”误认为“拓展了科学边界”,那可能是一种危险的错觉。
下一步真正的挑战,不仅在于让AI生成更多、更流畅的科研想法,更在于探索如何设计出能够帮助人类科学家走向更陌生、更不确定、但可能更有价值的知识边疆的AI系统。这才是这项研究留给整个AI和科学社区的真正课题。
Q&A
Q:AI科研助手和人类科学家在提出研究想法时,最大的区别是什么?
A:根据这项研究,AI科研助手生成的想法倾向于紧密围绕已有文献展开,彼此之间高度相似,主要通过重新组合已有技术方法来产生“新”想法,很少提出真正新颖的研究问题。人类科学家则更愿意偏离已有方向,探索更分散、更边缘的知识区域,并且更频繁地重新定义研究问题本身。
Q:使用更大参数规模的语言模型或更复杂的多智能体框架,能让AI科研助手产出更具创意的想法吗?
A:根据这项研究的实验结果,答案是否定的。研究团队测试了从0.8亿到350亿参数的六种模型,以及从简单单次生成到多轮自我反思、多角色对话的四种框架,发现所有组合下,AI生成想法的集中程度和对已有文献的依赖程度都非常相似。更大、更复杂的系统并未显著拓宽探索范围。
Q:AI科研助手生成的想法与哪些真实发表的研究最为相似?
A:研究团队将AI生成的想法与真实论文进行匹配,发现高度相似的例子包括:零样本AI生成的关于“不平衡分类与最优传输”的想法,与一篇2024年发表的使用可学习代价矩阵进行长尾识别的论文相似度达0.954;ResearchAgent生成的关于“动态稀疏训练用于时间序列分类”的想法,与一篇同年发表的动态稀疏网络论文相似度高达0.965。这些例子印证了AI想法更多是已有研究的局部变体,而非全新突破。
