顶级会议拒稿启示：这些高影响力论文的教训与价值

时间：2025-12-11 12:47

机器之心报道机器之心编辑部近日，Waymo 发布了一篇深度博客，详细介绍了该公司的 AI 战略以及以 Waymo 基础模型为核心的整体 AI 方法。谷歌首席科学家 Jeff Dean 也在 X 上分

机器之心报道

机器之心编辑部

近日，Waymo 发布了一篇深度博客，详细介绍了该公司的 AI 战略以及以 Waymo 基础模型为核心的整体 AI 方法。

谷歌首席科学家 Jeff Dean 也在 X 上分享了这篇博客，并重点介绍了 Waymo 用到的蒸馏方法，他写到：「就像我们使用蒸馏从更大规模的专业模型中创建高质量、计算效率极高的 Gemini Flash 模型一样，Waymo 也类似地使用了蒸馏，来基于更大的模型创建可机载运行的高计算效率模型。」

而在这条帖子下方，Jeff Dean 又再一次回忆了最初那篇蒸馏论文的悲惨遭遇：被 NeurIPS 2014 拒收了。而他收到的拒收理由是它「不太可能产生重大影响」。

当时，评审认为这篇由 Geoffrey Hinton、Oriol Vinyals、Jeff Dean 合著的论文只是对早期模型压缩（Model Compression）工作的增量改进。而事后来看，NeurIPS 2014 评审的这个决定可谓是错得非常离谱。如今，「知识蒸馏（Knowledge Distillation）」已然成为模型压缩和大模型落地的标配方法。其论文引用量也已经超过了 2.8 万！

这件事也成了 Jeff Dean 的意难平，让他每有机会就会拿出来晒一晒。

其实 Jeff Dean 的遭遇并非个例。

回顾 AI 的发展历程，同行评审制度虽然扮演着质量守门人的关键角色，但它并非全能。

事实上，当我们回溯历史，会发现一个令人深思的现象：许多当下支撑起万亿级 AI 产业的基石技术（从训练大模型的优化器，到计算机视觉的特征提取，再到自然语言处理的底层逻辑）在最初问世时，都曾被顶级会议拒之门外。

Geoffrey Hinton、Yann LeCun、Schmidhuber…… 这些如雷贯耳的名字，都曾站在拒稿信的对面。那些理由在今天看来甚至或许有些荒谬：「缺乏理论依据」、「只是工程技巧」、「太简单了不可能有效」。

今天，我们盘点一下那些曾经沦为「弃子」、后来却引发范式转移（Paradigm Shift）的殿堂级论文。这不仅是对历史的回顾，更是为了探寻一个问题的答案：当一项研究过于超前或离经叛道时，我们该如何识别它的价值？

LSTM：跨越 20 年的回响

论文：Long Short-Term Memory作者：Sepp Hochreiter, Jürgen Schmidhuber拒稿经历：NIPS 1996 Rejected如今引用量：139707

作为处理序列数据的里程碑，LSTM 在 1996 年被 NIPS 拒之门外。

当时正值神经网络的寒冬（AI Winter），支持向量机（SVM）等统计方法大行其道。LSTM 引入的门控机制被认为参数过多、过于复杂且缺乏生物学合理性。

直到 2010 年代，随着算力和大数据的爆发，LSTM 才在语音识别和机器翻译中展现出统治级表现。这不仅是技术的胜利，更是对坚持者的奖赏。

SIFT：前深度学习时代的王者

论文：Object Recognition from Local Scale-Invariant Features作者：David G. Lowe拒稿经历：ICCV 1997, CVPR 1998 Rejected如今引用量：27389

David Lowe 提出的 SIFT（尺度不变特征变换）算法，曾统治 CV 领域长达 15 年。但在 1997 年和 1998 年，它先后被 ICCV 和 CVPR 拒稿。

拒稿理由很有时代特色。当时的学术界偏好基于几何理论和严密数学推导的方法。SIFT 包含了一系列复杂的工程步骤（高斯差分金字塔、关键点定位等），被评审认为「过于繁琐」、「不够优雅」。

SIFT 最终以 Poster 形式发表。它证明了在处理现实世界图像的旋转、缩放和遮挡问题时，鲁棒的工程设计往往比完美的数学理论更有生命力。

Dropout：被误解的「有性繁殖」

论文：Dropout: A Simple Way to Prevent Neural Networks from Overfitting作者：Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov拒稿经历：NIPS 2012 Rejected如今引用量：60231

如果说有一项技术定义了深度神经网络的正则化方法，那非 Dropout 莫属。然而，这项后来获得 NeurIPS 时间检验奖（Test of Time Award）的技术，在 2012 年投稿 NIPS 时却遭遇了滑铁卢。

在这篇论文中，Geoffrey Hinton 团队提出的核心思想是在训练中随机「删掉」一半神经元，而这在当时的评审看来过于激进且缺乏数理逻辑。Hinton 使用了生物学中「有性繁殖」的隐喻来解释其有效性（基因不能依赖于特定的伙伴存在），这被一些严谨的评审人认为「不够科学」，更像是一个工程 Hack。

尽管被拒，Dropout 迅速成为了 AlexNet 夺冠 ImageNet 的秘密武器。它证明了在过参数化的深度网络中，通过引入随机性来打破特征间的共适应（Co-adaptation），比复杂的贝叶斯正则化更为有效。

Word2Vec：被质疑的「工程奇迹」

论文：Efficient Estimation of Word Representations in Vector Space作者：Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean拒稿经历：ICLR 2013 Strong Reject如今引用量：50855

是的，这里又出现了 Jeff Dean 的名字。

Word2Vec 让 King - Man + Woman = Queen 成为了 AI 领域最著名的算式，但在首届 ICLR 会议上，它收到了「Strong Reject」。

其收到的评审意见极其尖锐，认为作者 Tomas Mikolov 等人「比较不科学」、「定义模糊」，且过度关注工程优化（如分层 Softmax、负采样），缺乏对「为何简单的线性映射能捕捉复杂语义」的理论解释。

而作者直接开源了代码。凭借极高的训练效率，Word2Vec 迅速横扫 NLP 社区，成为深度学习时代文本表示的基石。2024 年，NeurIPS 授予这篇曾被拒稿的论文「时间检验奖」，完成了历史性的「平反」。

知识蒸馏：被低估的「暗知识」

论文：Distilling the Knowledge in a Neural Network作者：Geoffrey Hinton, Oriol Vinyals, Jeff Dean拒稿经历：NIPS 2014 Rejected如今引用量：28600

这正是前文提到的论文。

在当时，评审未能洞察到 Hinton 提出的「暗知识」（Dark Knowledge）这一概念的深远意义：神经网络学到的知识不仅存在于正确的预测中，更隐含在对错误类别的概率分布里（比如宝马像垃圾车的概率远高于像胡萝卜的概率）。

https://www.ttic.edu/dl/dark14.pdf

这篇论文最终仅在 Workshop 发表。它开启了模型压缩作为独立研究领域的序幕，更成为了如今大模型向小模型迁移能力的理论源头。

YOLO：速度与精度的偏见

论文：You Only Look Once: Unified, Real-Time Object Detection作者：Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi拒稿经历：ICCV 2015 Rejected如今引用量：69782

YOLO（You Only Look Once）彻底改变了物体检测的游戏规则，将检测问题从分类问题转化为回归问题。

其被拒理由也很简单。在 R-CNN 系列（双阶段检测器）统治的时代，评审们习惯了用 mAP（平均精度均值）的微小提升来衡量价值。YOLO 虽然实现了惊人的 45 FPS 实时检测，但其定位精度确实不如 R-CNN。评审因其「定位不准」而拒绝了它，却忽视了数量级的速度提升所开启的全新应用场景（如自动驾驶、实时监控）。

YOLO 系列如今已迭代至 v13，成为工业界最受欢迎的检测框架。它提醒我们：在工程应用中，速度本身就是一种精度。

RoBERTa：被嘲讽为「炒冷饭」的调参艺术

RoBERTa: A Robustly Optimized BERT Pretraining Approach作者：Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov拒稿经历：ICLR 2020 Rejected如今引用量：23479

如果说前面的论文是因为「太超前」被拒，那么 RoBERTa 的被拒则是因为「看起来太平庸」。

2019 年，BERT 横空出世，风头无两。Facebook AI（现 Meta AI）的研究人员并没有急于提出一种全新的架构，而是耐心地对 BERT 的预训练过程进行了极其详尽的复现和优化。他们发现，BERT 实际上被「训练不足」了。通过调整超参数、增加数据量、去除 Next Sentence Prediction (NSP) 任务，RoBERTa 在所有基准测试上都超越了原始 BERT。

然而，这篇扎实的工作在投稿 ICLR 2020 时，却遭到了评审的冷遇。评审意见非常直白且刺耳：「这篇论文的新颖性和技术贡献相当有限」。在评审看来，只是发现「仔细调参很有用」和「更多数据很有用」，并不足以登上顶会的舞台。

最终，RoBERTa 只能再次以被拒稿的身份流传于世。但历史证明了它的价值：RoBERTa 不仅成为了后续 NLP 研究的标准基线，更向业界揭示了一个朴素的真理 —— 在深度学习时代，清洗数据和优化训练细节，往往比设计花哨的新架构更具实战价值。

Mamba：挑战 Transformer 霸权的「落选者」

论文：Mamba: Linear-Time Sequence Modeling with Selective State Spaces作者：Albert Gu, Tri Dao拒稿经历：ICLR 2024 Rejected如今引用量：6799

这可能是最近发生的最具戏剧性的「拒稿」事件。

在 Transformer 一统天下的今天，Mamba 的出现原本被视为一种颠覆。作者 Albert Gu 和 Tri Dao 提出了一种基于选择性状态空间模型（SSM）的架构，它在实现线性时间复杂度的同时，居然在语言建模任务上达到了媲美 Transformer 的性能。这意味着，我们终于有望打破 Attention 机制带来的计算瓶颈，让大模型在长序列推理上实现飞跃。

然而，这篇在 arXiv 上一经发布就引爆社区、被无数开发者复现和膜拜的神作，却在 ICLR 2024 的评审中折戟沉沙。评审给出的分数并不高，理由集中在「与其前作 S4 相比增量不足」、「在某些特定任务上未能全面超越 Transformer」以及对实验细节的质疑。参阅报道《8/8/6/3 的 Mamba 论文，最终还是被 ICLR 2024 拒了，网友：悬着的心终于死了》

结果十分讽刺：当 ICLR 2024 公布接收结果时，AI 社区讨论最热烈的话题之一却是「Mamba 竟然被拒了？」。就在被拒稿的短短几个月后，基于 Mamba 的变体（如 Jamba、Vision Mamba）如雨后春笋般涌现，它实际上已经成为了 2024 年最具影响力的架构创新之一。Mamba 的遭遇再次提醒我们：当一种反共识的新范式出现时，旧范式的评价标准往往会失效。

科研评价体系的局限与反思

综合上述案例，我们可以看到顶会评审系统在面对颠覆性创新时，往往存在某种系统性的认知滞后：

简单性陷阱：评审倾向于将「数学复杂性」等同于「研究贡献」。当 Dropout 或 Word2Vec 这样简单有效的方法出现时，评审的第一反应往往是质疑其理论深度。范式惯性：评审往往是旧范式的维护者。当 YOLO 提出放弃 Region Proposal，或 Deep Image Prior 提出无需学习的先验时，旧范式的标准（如精度、数据依赖）成为了阻碍新思想的壁垒。严谨性的暴政：在深度学习这个实验科学属性极强的领域，过度要求理论证明（如 Adam 优化器初期面临的收敛性质疑）可能会扼杀具有巨大实用价值的工程突破。

这些「被拒稿的杰作」向我们揭示了科学发展的非线性。它们证明了，同行评审虽然是科学共同体的基石，但它很难摆脱人类认知的局限性 —— 它善于识别错误，却往往拙于鉴别天才。

事实上，这种遭遇并非 AI 领域的特产，甚至连物理学神坛上的名字也无法幸免。

1936 年，阿尔伯特・爱因斯坦（Albert Einstein）将一篇关于引力波的论文投给了权威期刊《Physical Review》。在此之前，爱因斯坦习惯了编辑直接录用他的文章，但这一次，主编 John Tate 决定将其送审。

随后，爱因斯坦收到了一份写满修改意见的匿名评审报告。这位骄傲的物理学家被彻底激怒了，他在给主编的回信中写下了一段著名的话：「我把文章寄给你是为了发表，并没有授权你在它付印前拿给专家看。我没有通过以此来回答你们那匿名专家的错误评论的必要。」随后，他撤回了论文。

虽然历史极其幽默地反转了 —— 那位匿名评审人其实指出了爱因斯坦论文中一个致命的数学错误（爱因斯坦后来在另一本期刊发表时悄悄修正了它），但这个故事依然不仅是一个关于「纠错」的轶事，更是一个关于「摩擦」的隐喻。

阿尔伯特·爱因斯坦和内森·罗森关于引力波的解的修订版论文最后发表在 Journal of the Franklin Institute 上

对于正在经历 Peer Review 阵痛的研究者而言，Jeff Dean 的愤怒、YOLO 的委屈、甚至爱因斯坦的傲慢，都指向了同一个事实：真正决定一项研究生命力的，从来不是几位评审在几周内做出的决定，而是它是否真正解决了问题，以及它在时间长河中留下的回响。

如果你的 Paper 最近也被拒了，别灰心。你只是加入了一个包括图灵奖得主和诺贝尔奖得主在内的「被拒稿俱乐部」而已。

保持韧性，真理有时只是迟到了一点。

你还知道哪些虽被拒稿但影响深远的论文？

https://x.com/JeffDean/status/1998454348125536736

https://x.com/Yuchenj_UW/status/1998485506699702403

https://www.reddit.com/r/MachineLearning/comments/vywfx3/d_are_there_any_rejected_papers_that_ended_up/

https://physicstoday.aip.org/features/einstein-versus-the-physical-review

来源：https://www.163.com/dy/article/KGG9RF0P0511AQHO.html

论文科学拒稿数学引用量爱因斯坦高影响力

上一篇前NASA局长急令重返月球，中国太空竞赛占先机 下一篇台积电先进封装成AI瓶颈，企业抢产能加剧供需失衡

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

顶级会议拒稿启示：这些高影响力论文的教训与价值

相关推荐

同类最新

年国家能源局充换电服务业用电量增速48.8%

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

三星Galaxy Watch8用户反馈谷歌后台组件异常

罗永浩批苹果iOS 27创新不足盼新CEO改进

年国产车出口710万辆，两家车企销量破百万

顶级会议拒稿启示：这些高影响力论文的教训与价值

相关推荐

同类最新

年国家能源局充换电服务业用电量增速48.8%

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

三星Galaxy Watch8用户反馈谷歌后台组件异常

罗永浩批苹果iOS 27创新不足 盼新CEO改进

年国产车出口710万辆，两家车企销量破百万

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

罗永浩批苹果iOS 27创新不足盼新CEO改进