LSTM之父:1991年残差学习已萌芽,ResNet非深度学习开端?
深度学习圈内近期再次掀起关于残差学习起源的激烈讨论。这次发声的是LSTM(长短期记忆网络)联合发明人Jürgen Schmidhuber,他公开指出何恺明团队提出的残差网络(ResNet)并非完全原创,其核心思想可追溯至1991年其学生Sepp Hochreiter的博士研究。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
据Jürgen介绍,Hochreiter在攻读博士学位期间首次系统分析了循环神经网络(RNN)的梯度消失问题,并提出通过"循环残差连接"破解这一难题。该方法采用恒等激活函数实现神经单元自连接,权重严格设定为1.0,使每个时间步的输入仅叠加到先前状态。这种设计确保了误差信号在反向传播过程中保持恒定,有效避免了梯度消失或爆炸。
技术细节显示,权重精度对效果影响显著。当权重为0.99时,误差信号在100个时间步后衰减至37%;若权重降至0.9,则仅剩0.0027%。这种严格的权重设定为后续深度学习残差思想奠定了理论基础。1997年,Jürgen与Hochreiter在此基础之上提出LSTM,其核心单元"恒定误差轮盘"(CECs)通过固定权重1.0的循环残差连接,实现了误差在数百甚至数千时间步中的稳定传播。
该理论的发展脉络清晰可见:1999年vanilla LSTM引入初始值为1.0的遗忘门,形成可控残差连接;2005年通过时间反向传播(BPTT)算法将LSTM展开为深度前馈网络,使每个输入序列时间步对应虚拟层;2015年Highway网络首次将LSTM的门控残差思想引入前馈网络,通过g(x)x+t(x)h(x)的结构实现自适应残流调控;同年12月ResNet在ImageNet竞赛中取得突破性成功,其残差连接设计被Jürgen认为与展开的LSTM及初始化的Highway网络存在本质相似性。
这场争议背后,折射出深度学习领域长期存在的学术归属争议。2015年ResNet发布当年,深度学习三巨头Bengio、Hinton、LeCun在《自然》杂志联合发表综述论文时,曾因大量引用自身成果而忽略Jürgen等人的贡献引发争议。2018年图灵奖公布后,Jürgen曾撰写200余条文献引用的长文进行驳斥。在GAN(生成对抗网络)的原创性争议中,由于提出者是Bengio的学生,双方争论更为激烈。
值得注意的是,这并非Jürgen首次对主流神经网络提出起源质疑。2024年他曾公开表示,LSTM、ResNet、AlexNet、VGG Net、GAN及Transformer等重大突破均受其实验室成果启发。例如他认为AlexNet和VGG Net采用了其团队开发的DanNet架构,GAN源自1990年提出的"对抗好奇心"原则,Transformer变体则延伸自快速权重存储系统。但除LSTM的归属得到普遍认可外,其他主张尚未获得学术界广泛支持,甚至衍生出"Schmidhuber is all you need"的调侃说法。
针对当前残差学习起源的争议,有学者指出从Hochreiter的早期研究到ResNet的实践应用,体现了技术思想的渐进发展过程。尽管1991年的研究为后续突破提供了理论基础,但ResNet在架构设计和工程实现上的创新同样具有里程碑意义。这场争论或许将推动学界更深入地审视技术演进的历史脉络。
热门专题
热门推荐
清明节假期期间,A 股和港股休市,但比特币行情永不停歇。 4月6日,当多数市场还在假期中沉睡时,比特币已经悄然启动。价格从亚洲早盘的低点67400美元出发,一路向上试探,盘中最高涨破70300美元,不仅刷新了3月26日以来的高位,较日内低点的涨幅也超过了4%。以太坊的表现同样不俗,从2050美元附近
4月5日消息,日前,REDMI K90至尊版通过3C认证,预计将于本月发布。今日,小米中国区市场部总经理魏思琪用小米新机发布微博,不出意外,这正是即将登场的REDMI K90至尊版,这将是小米首款配
WPS演示中图表不随数据更新时,可通过四种方法实现自动同步:一、用OFFSET+COUNTA定义动态名称绑定图表;二、用组合框控件联动VLOOKUP提取数据;三、用数据透视图配合切
聚焦数字技术,释放创新动能。为集中展示静安区区块链技术从“实验室”走向“应用场”的丰硕成果,挖掘一批可复制、可推广的行业解决方案,加速构建区块链产业生态闭环,静安区数据局特推出“静安区区块链创新应用
太空中的马桶堵了,边飞边修还能勉强用。但中东被点燃的火药桶,美国怎么来扑灭?靠一再延期的“最后通牒”?还是靠无底线的轰炸?2300万美元的马桶美国航空航天局4名宇航员1日搭乘“猎户座”飞船升空,执行





