作者 | 刘春
出品 |
全球最顶尖的AI学术盛会,如今正面临人工智能的“全面渗透”。
这听起来像是一则黑色幽默,却在现实中真实上演。最新统计数据显示,ICLR 2026竟然有超过1.5万份评审意见完全由AI代劳。想象一下,当你熬夜撰写的论文,评审专家可能连看都没看,直接抛给ChatGPT生成了一堆“毫无营养的套话”,甚至还煞有介事地指出你文中根本不存在的错误。
曾经神圣的“同行评审”机制,如今已演变成一场AI生成内容的数字游戏。
据统计,约21%的评审意见被判定为“全自动生成”,就连投稿论文本身也混入了大量AI“枪手”。面对这场前所未有的信任危机,ICLR组委会终于坐不住了,祭出了史上最严厉的“封杀令”。
怀疑成真:研究者收到“诡异”评审报告
“评审意见说得天花乱坠,却要求进行非常规的统计分析。”美国卡内基梅隆大学的AI研究员格雷厄姆·诺伊比格道出了众多投稿人的困惑。社交媒体上,数十名学者纷纷吐槽:评审中出现了“幻觉”引用,反馈内容冗长晦涩、逻辑混乱。
哥本哈根大学的计算机科学家德斯蒙德·埃利奥特团队遭遇了更离谱的评审——对方竟提到论文中根本不存在的数值结果,并据此给出了最低分,让论文命运悬于“接受与拒绝”的边缘。他的博士生敏锐地察觉:这很可能是大型语言模型的“杰作”。
数据揭秘:数万份评审惊现AI“魅影”
怀疑需要证实。诺伊比格公开悬赏后,很快得到了专业AI文本检测公司Pangram Labs的回应。他们对ICLR 2026提交的19490篇研究和75800份评审进行了大规模扫描。
结果令人震惊:
·约21%的同行评审(15,899份)被判定完全由AI生成。
·超过一半的评审含有AI使用的明显痕迹。
·就连投稿论文本身也未能幸免:1%(199篇)被判定为完全AI生成,9%的投稿包含超过50%的AI生成文本。
“人们之前只是怀疑,但没有具体证据。”Pangram首席执行官马克斯·斯佩罗表示,他们的分析为此提供了确凿的数据支撑。
会议强硬回应:用LLM糊弄?直接重罚。
面对大规模AI滥用,ICLR 2026组织方迅速行动,并发布了措辞强硬的声明。会议高级项目主席巴拉特·哈里哈兰承认,这是会议首次大规模面临此问题。
·论文投稿:用AI不声明=直接拒稿
会议方明确表示,大量使用LLM写论文却不声明,将被直接拒稿。“LLM胡编乱造、虚构文献、逻辑掉线?将被视为违反道德准则。”会议已启动AI检测工具与领域主席双轨核查,“抓到一个处理一个”。
·同行评审:AI写可以,内容你全责
针对评审环节,声明强调:用LLM写评审可以,但评审人对内容负全责。如果出现“瞎扯、虚构引用”,直接记违规,后果可能包括评审人自己投稿的论文被直接拒稿。
·作者遇到问题评审?立即举报。
作者若收到疑似AI生成的垃圾评审,可立即私信举报。程序组承诺将进行处理,坚决维护评审过程的严肃性。
·严厉处罚:结果全部公开
接下来1-2周,领域主席(ACs)和高级领域主席(SACs)将严查论文与评审,处理结果全部公开。会议方表示:“我们预判了LLM会搞事情,现在,是动真格的时候了。”
背后困局:评审压力与学术诚信的拉锯
这场风波也折射出AI学术界蓬勃发展背后的隐忧。
·评审负荷过重:ICLR 2026每位评审平均需在两周内审完5篇论文。“这远高于过去的工作量。”
·领域扩张太快:“过去五年,AI领域呈指数级扩张,我们正面临评审危机。”诺伊比格道出了同行评审系统承受的巨大压力。
学者困境:如何应对“AI废话”的轰炸?
一些作者因评审中的虚假陈述已撤稿。更多人则在苦恼:如何回应这些充满“AI风格”的评审?
埃利奥特的经验颇具代表性:“疑似AI生成的评审往往包含‘大量内容’。”其中一部分或许值得回应,但另一部分则完全“毫无意义”。在信息洪流中辨别有效反馈,成了研究者的新负担。
这场ICLR的风波,无疑为整个学术界敲响了警钟:当AI变得足够聪明,不仅能辅助研究,更能“污染”科研诚信的核心环节——同行评审时,我们将如何应对?
