首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
AI审稿能否取代人类?全球45位科学家469小时实验揭秘

AI审稿能否取代人类?全球45位科学家469小时实验揭秘

热心网友
56
转载
2026-05-28

科学界正面临一场静悄悄的危机:论文产出速度呈指数级增长,而愿意投入时间进行深度审稿的专家却日益稀缺。在NeurIPS、ICLR等顶级人工智能会议上,投稿量几乎每年翻倍;而像《自然》《科学》这样的老牌顶刊,从投稿到发表的平均周期长达100至160天。“审稿人荒”已从一个普遍的抱怨,演变为整个学术界必须正视的系统性挑战。

在此背景下,AI审稿员被推向了前沿。AAAI-26已在全部22977篇主会论文的初审环节部署了AI审稿系统;《NEJM AI》期刊也推出了引入AI辅助的“快速通道”。更有调查显示,全球超过半数的研究人员已在私下使用AI工具协助撰写审稿意见,有时甚至绕过了期刊的明文规定。

然而,一个根本性问题依然悬而未决:AI审稿,究竟是否可靠?

传统的评估方法过于粗糙——通常只是简单对比AI与人类给出的分数,或检查AI的“接受/拒绝”建议是否与人类最终决定一致。这好比评价一位美食评论家时,只关心他最终给餐厅打了几星,却完全忽略其评论是否具体指出了某道菜肴的问题、评价是否精准、是否切中要害。这种方法的致命缺陷在于,两份审稿意见可能给出完全相同的分数,但一份可能充满真知灼见,另一份则全是正确的废话。

近期,一项由卡内基梅隆大学、韩国科学技术院(KAIST)、NEC欧洲实验室等全球二十余所机构联合开展的研究,试图给出一个更精细的答案。这项汇聚了45位科学家的研究,历时数月,对AI审稿质量进行了一次前所未有的“显微镜式”深度评估。其预印本已于2026年5月20日发布于arXiv平台(编号:arXiv:2605.20668)。

AI审稿员能替代人类评审吗?卡内基梅隆大学联合全球45位科学家,用469小时给出了答案

一、评判的尺子是如何制造的

要精准评估审稿意见,首先需要一把可靠的“尺子”。研究团队设计了一套三层递进的精细化评价体系,犹如一道严谨的筛选流程。

第一关考察“正确性”:审稿人指出的问题,在论文中是否真实存在?是否存在审稿人自身的误读或误解?

只有通过第一关的条目,才会进入第二关“重要性”评估。此环节分为三档:至关重要(修改后能大幅提升论文质量)、略有意义(如格式或笔误问题)、无关紧要(反而增加信息噪音)。

前两关均通过后,还需面对第三关“证据充分性”的检验:审稿人是否引用了论文原文、代码或相关文献来支撑自己的论点?

这三关环环相扣,有效避免了用一个笼统的分数掩盖所有细节缺陷。为确保评估标准的可靠性,研究团队让部分审稿条目由两位专家独立评判。结果显示,在客观性较强的“正确性”和“证据充分性”上,专家间几乎达成一致;而在带有主观色彩的“重要性”判断上,一致性处于合理的中等水平。

研究选取了82篇发表于《自然》及其子刊(主要为《自然·通讯》)的论文,覆盖物理、生物、健康三大领域的27个细分方向。每篇论文均配有公开的人类审稿意见,同时,AI审稿员也能访问投稿前的同一版本稿件,确保了对比的公平性。

三位“AI审稿员”——GPT-5.2、Claude Opus 4.5、Gemini 3.0 Pro——被部署为可访问论文全文、补充材料和代码的智能体。它们为每篇论文最多产出5条审稿意见,并被要求为每条意见提供详细的引用证据。

二、AI到底有多准,又有多深刻

那么,当所有审稿条目都经过专家严格打分后,AI与人类的表现究竟孰优孰劣?

先说正确率。表现最佳的人类审稿员(研究中称为“顶级人类审稿员”),平均正确率高达92.3%。相比之下,三位AI的正确率在81.9%到86.2%之间,比人类低了6到10个百分点。差距确实存在,但远未到不堪一击的程度。

然而,故事在此出现了转折。当评估焦点从“正确性”转向“重要性”时,局面完全反转。在那些被判定为正确的批评中,AI指出问题的“重要性”评分,全面超越了最优秀的人类审稿员。换言之,AI虽然偶尔会“指错地方”,但它一旦指对,往往能命中更关键、更核心的论文缺陷。

在证据充分性方面,GPT-5.2和Claude Opus 4.5甚至略高于人类顶级审稿员,Gemini 3.0 Pro则与之持平。

单独看这三个维度各有意义,但研究团队设计的一个综合指标——“完全优质”(fully positive)——更能说明问题。一条审稿意见必须同时满足正确、重要、证据充分,才能获此标签。这模拟了现实:一条意见即便正确,如果无关痛痒或缺乏依据,对作者也毫无帮助。

结果令人惊讶:在“完全优质”比率上,GPT-5.2达到了60%,以统计学上的显著优势超越了顶级人类审稿员(48.2%)。另外两款AI也与人类顶级水平相当,并显著优于表现较差的人类审稿员。

为进一步验证,研究还让专家进行了一项整体判断:读完所有意见后,认为哪位AI的整体质量达到或超过了最优秀的人类审稿员?结果显示,专家们认为GPT-5.2在近一半的论文中做到了这一点。而从另一个角度看,所有三位AI在超过半数的论文里,都超越了最差的人类审稿员。

三、AI审稿员究竟在看什么,人类又在看什么

知道分数高低还不够,更关键的问题是:AI和人类的关注点是否一致?如果AI只是换种说法重复人类的观点,那它对评审团就没有增量价值。

研究团队设计了一套精细的“相似度”判断框架。他们发现,两位人类审稿员评审同一篇论文时,提出的批评只有3.4%是相似的。这印证了学术界的古老共识:多人评审的价值,恰恰在于视角的多样性。

AI与人类审稿员之间的观点重叠率是5.1%,略高于人与人之间,但差距不大。这意味着,用一位AI替换一位人类,对评审团整体多样性的损害相当有限。

但问题出在AI内部。当比较不同AI模型对同一篇论文的审稿意见时,重叠率飙升至20.9%——是人与人之间重叠率的六倍。三位AI很可能异口同声地指出同一个问题。这意味着,一个全部由AI组成的评审团,其视角多样性将远不如人类评审团。

从覆盖率看,一位AI能覆盖另一位人类审稿员27.1%的批评点,反之亦然,两者几乎持平。但如果用三位AI同时审稿,他们能覆盖人类83%的“关注区域”,但在这些区域内提出的“具体批评”只有46.3%与人类一致。简单说,AI和人类常常盯着论文的同一个地方,但对于那里到底存在什么问题,看法却大相径庭。

一个更有趣的发现是,AI单独发现、而所有人类审稿员都未指出的问题,占其所有批评的26%。专家评估显示,这些问题中超过八成是正确的,超过九成有充分证据支撑。它们并非AI的胡言乱语,而是真实存在、有据可查的问题,只是被人类忽略了。当然,这些“独家发现”的平均重要性,略低于人类也注意到的问题。

四、AI最擅长什么,又最常在哪里翻车

研究团队从专家的自由评论中,系统梳理出了AI的16类典型失误和6类典型优势。这或许是整项研究最具实用价值的部分,因为它直接指出了改进AI审稿系统的方向。

AI的四大“翻车”现场:

1. 不懂“行规”:这是最常见的失误。AI的批评在通用科研标准下完全正确,但却不符合某个细分领域的特定惯例。例如,AI批评一篇粒子物理论文没有公开所有校准数据以供复现。然而在CERN(欧洲核子研究中心)的合作规范中,这些数据通常由内部协作组维护,并不随论文公开。AI把“正常的学科边界”误判成了“可重复性缺陷”。

2. “健忘症”发作:论文明明写了,AI却说没有。根源在于AI处理长上下文的能力不足。当需要同时处理正文、附录、代码和参考文献时,AI可能会压缩或遗忘前面的内容。例如,AI批评一篇论文未对模型偏差进行校正,但专家指出,论文第489到496行明确描述了校准流程,AI完全漏读了。

3. 提出“不可能的任务”:AI的批评在技术上正确,但要求作者完成现实中无法实现的工作。例如,AI批评一篇神经影像学研究未使用患者的全脑基因表达图谱。专家指出,这种数据根本不存在,这个批评等于要求作者去完成一项不可能的任务。

4. “复读机”模式:多位AI审同一篇论文时,经常用不同措辞表达同一个核心批评,导致意见高度重复,降低了评审团的多样性价值。

AI的三大“高光”时刻:

1. 代码审查专家:这是AI最突出的优势。人类审稿员极少有时间逐行检查提交的源代码,但AI可以。在一个经典案例中,AI发现论文声称的无线贴片采样频率是800赫兹,但代码中的一条延迟指令意味着实际频率只有每秒2次,相差400倍。代码注释甚至暗示,高频数据可能是在有线模式下采集的,这与论文宣称的“无线”系统核心主张相矛盾。这类深藏于代码中的致命问题,人类审稿员几乎不可能发现。

2. 方法论“纠察队”:AI会系统性检查统计假设是否满足、验证集划分是否规范、不确定性报告是否完整。这些枯燥但至关重要的方法论细节,正是人类审稿员在时间压力下最容易跳过的地方。

3. 技术细节“较真者”:在某些细分领域,AI能识别出只有专家才会注意到的技术承诺过度问题。例如,AI指出一篇论文摘要中“任意光学场传输”的表述存在过度承诺,因为在该领域这意味着包含相位信息,而论文实际只实现了振幅传输。这种深度的技术洞察力获得了领域专家的高度认可。

五、自动评测基准台与AI审稿助手

每次动用45位专家进行469小时的人工评估毕竟不现实。研究团队探索了用AI来模拟专家判断的可能性,即让AI充当“元审稿员”。测试发现,高级AI模型在模拟人类专家判断时,其一致性已接近人类专家之间的一致性水平。

基于此,他们构建了名为PEERREVIEW BENCH的自动化评测基准。目前,在该基准上表现最好的模型,其综合评分(F1分数)约为50分,这意味着与人类专家的黄金标准相比,仍有很大的提升空间。

研究团队还开源了“CMU PAPER REVIEWER”平台,允许作者在投稿前获取AI预审反馈。一个反直觉的发现是:提高AI单篇论文的审稿意见数量上限(从5条到15条),并没有导致意见质量下降或数量堆砌。相反,AI内部会进行筛选,只输出它确信高质量的意见,从而在召回更多有价值意见的同时,保持了高精准率。

六、如果你是期刊编辑,该怎么搭配审稿团队

最后,研究团队进行了一项对编辑极具实用价值的模拟:不同人机比例的评审团,效果如何?

他们模拟了四种配置:全人类(3人)、2人1AI、1人2AI、全AI(3个)。衡量指标包括意见总数、独特意见数、噪音意见数以及高质量独特意见数。

结论清晰而有力:

“2人1AI”组合在几乎所有关键指标上都与“3人全人类”组合持平甚至更优。它能产出同等数量的高质量独特意见,同时将总意见数和噪音意见数分别降低了17%和21%。这是一个典型的帕累托改进——在维持质量的同时,降低了所有人的负担。

“1人2AI”组合的高质量独特意见数开始略有下降,但仍处于可接受的范围内。

“3AI”全自动组合则暴露了明显缺陷。由于AI之间意见重叠率过高,它们产出的高质量独特意见数大幅下降,远不及人类团队。这印证了之前的发现:AI缺乏人类那种天然的视角多样性。

如果在此基础上加入“元审稿员”进行前置过滤,可以进一步降低噪音。过滤后的“1人2AI”组合,能让编辑和作者在读到一条有价值批评前需要跳过的无用批评数量降到最低。

基于这些发现,研究团队为期刊编辑提供了三种策略选择:

  • 目标:维持质量,减轻负担。 首选“两位人类加一位AI”。质量不变,噪音减少,成本降低。
  • 目标:极致效率,快速筛选。 考虑“一位人类加两位AI,并加装元审稿员过滤器”。每条有价值反馈前的噪音能降低近一半。
  • 目标:高可信度初筛清单。 可采用“三位AI加元审稿员过滤”。这样得到的独特批评命中率极高(是三位人类的两倍),但代价是批评的绝对数量会很少。

结论

这项大规模研究的结论,既出人意料,又在情理之中。

当前最先进的AI审稿员,在综合质量上已与人类顶级审稿员旗鼓相当,甚至在个别指标上实现了超越。AI拥有真实的、人类难以比拟的优势:它不知疲倦地检查代码,一丝不苟地核对统计假设,总能注意到那些被人类因时间压力而忽略的方法论细节,偶尔还能贡献出那26%人类未曾发现的真问题。

但它的短板同样鲜明:不理解学科内的“潜规则”,存在上下文遗忘导致的“健忘”,以及当多个AI共同工作时缺乏视角多样性。这些弱点在短期内难以根除,也正是AI无法完全取代人类的根本原因。

或许,最恰当的定位不是“替代”,而是“互补”。AI审稿员像是一位特别勤勉、专注细节但不太懂人情世故和行业惯例的同事。它愿意花时间做人类不愿做的苦活累活,但需要人类同事在旁把握方向、提供语境、并贡献独特的批判性视角。

所以,最合理的安排或许是:让它加入审稿团队,发挥其特长,但别让它独自承担全部责任。人机协同,可能才是应对“审稿人荒”这场学术危机的更优解。

(对这项研究感兴趣的读者,可通过arXiv编号2605.20668查询完整论文,所有数据集和代码均已公开。)

来源:https://www.techwalker.com/2026/0527/3188411.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

AI审稿能否取代人类?全球45位科学家469小时实验揭秘
AI资讯
AI审稿能否取代人类?全球45位科学家469小时实验揭秘

科学界正面临一场静悄悄的危机:论文产出速度呈指数级增长,而愿意投入时间进行深度审稿的专家却日益稀缺。在NeurIPS、ICLR等顶级人工智能会议上,投稿量几乎每年翻倍;而像《自然》《科学》这样的老牌顶刊,从投稿到发表的平均周期长达100至160天。“审稿人荒”已从一个普遍的抱怨,演变为整个学术界必须

热心网友
05.28
钱学森光辉一生回顾展暨为国铸剑主题活动在南京举办
科技数码
钱学森光辉一生回顾展暨为国铸剑主题活动在南京举办

南京举行纪念中国航天事业创建70周年主题活动,通过史料、展览和讲座回顾钱学森光辉一生与中国航天奋斗史诗。钱永刚教授作讲座并赠书,现场设六大主题展及互动体验,展现钱学森卓越贡献与航天精神。

热心网友
05.28
美团首席科学家夏华夏离职消息确认
业界动态
美团首席科学家夏华夏离职消息确认

4月23日,一则关于美团副总裁、首席科学家夏华夏离职的消息引发科技行业广泛关注。作为美团无人配送业务从0到1的奠基人与核心开拓者,夏华夏的离开标志着该业务一个重要阶段的结束。他凭借顶尖的自动驾驶技术背景,全程主导了美团无人车团队的组建、核心技术自主研发以及多场景商业化落地的完整闭环。 回顾夏华夏的职

热心网友
05.27
中国科学家在镍基高温超导材料研究取得重要新进展
科技数码
中国科学家在镍基高温超导材料研究取得重要新进展

中国科学家在镍基高温超导研究中取得关键突破。研究团队首次在镍氧化物超导薄膜中观测到无节点的超导能隙,并发现电子-玻色子耦合现象。这些发现为揭示高温超导机理提供了重要实验证据,表明镍基与铜基超导的配对机制可能存在差异,推动了统一理论的构建。

热心网友
05.27
AI时代科学家精神是否过时科研角色如何转变
科技数码
AI时代科学家精神是否过时科研角色如何转变

上海科技节热议AI对科研的影响。AI虽能提升数据处理与推理效率,但无法替代科学家的独立思考、批判精神与求实品质。专家强调,在AI时代,科学家精神更显珍贵,需坚守诚信、审慎验证,并拓展人机协同新内涵。科技传播亦应守护真实,帮助公众明辨真伪。

热心网友
05.26

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Claude AI 破解80年数学难题 继OpenAI后再获突破
AI资讯
Claude AI 破解80年数学难题 继OpenAI后再获突破

继OpenAI宣布其GPT-5 5模型成功破解一道困扰数学界长达80年的难题后,人工智能领域的竞争再度升温。就在昨日(5月26日),Anthropic公司的工程师Sholto Douglas在X平台发布消息,确认其最新的Claude Mythos模型同样成功解答了同一道数学难题。 这道难题正是由著名

热心网友
05.28
高考期间AI工具使用受限吗 豆包客服回应未获通知
科技数码
高考期间AI工具使用受限吗 豆包客服回应未获通知

近日网传高考期间AI工具可能被禁用或功能受限。记者就此询问豆包客服,对方表示暂未接到相关通知,具体调整需以平台后续正式公告为准,建议用户关注官方渠道信息。

热心网友
05.28
Anthropic Opus 4.7代码与文档推理能力超越GPT-5.4今日上线
AI资讯
Anthropic Opus 4.7代码与文档推理能力超越GPT-5.4今日上线

Anthropic于2026年4月16日发布了ClaudeOpus4 7模型,价格维持不变。新模型在多项关键能力上显著提升:代码能力方面,在SWE-benchPro基准测试中达到64 3%,超越前代及GPT-5 4;文档推理能力在OfficeQAPro测试中取得80 6%的优异成绩,领先优势明显;视觉分辨率提升至约375万像素,改善了GUI导航与图表分析任务

热心网友
05.28
Claude与Codex为何选择Grep而非RAG技术方案
AI教程
Claude与Codex为何选择Grep而非RAG技术方案

主流AI编程工具如ClaudeCode和Codex采用基于Grep的搜索方式而非RAG技术。实践表明,在代码搜索场景中,Grep比向量检索更快、更准,且无需复杂基础设施。代码搜索强调精确匹配与依赖追踪,语义相似性检索并不适用。工具结合Grep与模型推理,体现了对实用性与精确性的优先考量。

热心网友
05.28
流放之路2德鲁伊狼人全屏炸裂流BD构筑指南
游戏攻略
流放之路2德鲁伊狼人全屏炸裂流BD构筑指南

在《流放之路2》0 4版本中,德鲁伊的狼人形态衍生出了一套清图效率极高的玩法——全屏爆炸流。这套BD不仅视觉效果震撼,其装备门槛也相当亲民,非常适合作为开荒后期或赛季初期的速刷选择。如果你正在寻找一套能兼顾爽快感和性价比的刷图方案,那么这篇详细的构筑攻略或许能给你带来启发。 需要说明的是,这套玩法目

热心网友
05.28