首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
谷歌Attention论文解析:为何“Attention is All You Need”成为经典

谷歌Attention论文解析:为何“Attention is All You Need”成为经典

热心网友
84
转载
2025-12-21

从小老师就爱说“好记性不如烂笔头”,那么我们为什么不给有“记忆缺陷”的大模型配一个小本本记上总结归纳的要点呢?

继著名的“Attention Is All You Need”之后,谷歌新论文再度引爆圈内:我们可能忽略了AI的“另一半大脑”。

这篇文章题为
嵌套学习:深度学习架构的幻象(Nested Learning: The Illusion of Deep Learning Architectures)
在圈内被誉为是“Attention is all you need”V2



失忆的巨人

你是否曾对AI感到一丝“恨铁不成钢”?你刚刚在对话中详细解释过一个概念,三句话之后它就可能完全遗忘,仿佛从未发生。ChatGPT们上知天文下知地理,却学不会你今天刚教它的一件小事。



这并非偶然的Bug,而是当前所有大型语言模型(LLMs)共同的“先天疾病”——数字失忆症。

为了“治疗”它,过去十年,整个行业几乎只遵循一条黄金定律:把模型做得更深、更大。我们不断堆叠Transformer层,追逐万亿参数,相信“规模即智能”,期待着记忆相关的能力也能“涌现”出来。

但是,这个努力方向有着明显的问题:仅提高算法复杂度可能并不会使能力显著提升。

具体而言,深度模型的计算深度可能不会随着层数的增加而改变,模型的扩大对某些参数的容量提升影响十分有限,快速适应新任务、持续学习以及泛化性也很难通过参数量堆叠“自发涌现”。另外,受限于优化器,训练过程可能收敛到一个次优解。

近日,谷歌一项颠覆性的研究指出,我们可能忽略了一个与“深度”同等重要、甚至更为根本的维度。

这项名为“嵌套学习”的研究,正以燎原之势在学术圈内引发地震。许多资深研究者将其私下称为“Attention is All You Need” V2。它没有提出新的炫酷模块,而是试图回答了那个最根本的问题:机器学习的本质,究竟是什么?

优化器竟是记忆体

一切颠覆性的认知,往往始于对常识的重新审视。研究团队选择了一个最基础、最不被注意的起点:优化器。

无论是经典的随机梯度下降,还是如今广泛使用的Adam,我们都将其视为训练模型的“引擎”或“导航仪”——它计算梯度,指引参数朝损失下降的方向前进,仅此而已。

然而,这篇论文给出了一个反直觉的证明:主流的优化器本身,就是一个持续进行着“记忆”的关联记忆系统。

这是什么意思?想象一下,优化器不仅在看当前的路况(即时梯度),它内部还有一个默默做笔记的黑盒子。这个盒子不断压缩、存储一路走来所有梯度变化的“模式”与历史。当我们以为自己在做“训练模型”这一件事时,实际上已经不知不觉地运行了多个嵌套的、在不同时间尺度上并行的小型学习程序。

这个发现,成为了撬动整个新范式的支点。它意味着,从最底层的优化器,到中层的注意力机制,再到整个神经网络,都可以被统一地重新审视——它们不再是功能各异被拼凑起来的零件,而是在不同速度、不同抽象层级上,嵌套运行的“学习-记忆”模块。

我们熟悉的、引以为傲的“深度学习”体系,从这个全新的视角看,仅仅是这个更宏大、更立体范式的一个扁平化投影。



缺失的维度

基于这一核心洞察,论文提出了一个简洁而深刻的新范式:嵌套学习。它认为,真正有效的智能学习需要两个正交的维度:

1. 深度:即模型的层数与容量,这是我们过去十年全力拓展的。

2. 频率:即模型内部组件自我更新的节奏与速度,这是我们先前几乎完全忽略的。

人工智能的进步常受到人脑的启发,这次也不例外。

人类之所以能持续学习、终身成长,是因为大脑同时用多种“生物时钟”在工作。有些神经元回路快速反应,处理瞬息万变的感官信息(如正在进行对话);有些则缓慢而坚定地巩固,将重要模式沉淀为长期知识或技能。这是一个连续、平滑的时间频谱,信息在不同频率的“通道”间有序流动、加工和储存。

而当前的大模型就像得了“顺行性失忆症”,这种病的患者在病症发作后无法形成新的长期记忆,但此前的既有记忆则保持完好。这种状况将患者的知识与体验局限在两个时间片段:一个是很久远的过去(发病之前),另一个是极其短暂的现在。患者会不断地经历每一个“当下”,仿佛它们永远是崭新的、无法被记住的。

这与当前的大模型情况相似,只有两种极端的工作频率:一种是快速响应但转瞬即逝的对话缓存,另一种是在预训练完成后便冻结的长期知识。它严重缺失了中间所有频谱的“记忆通道”。因此,任何新知识都无处安放,要么在对话结束后遗忘,要么覆盖旧记忆为代价以高昂的计算成本更新——这正是“数字失忆症”的根源。



HOPE与连续记忆光谱

全新的理论,需要全新的架构来证明。基于“嵌套学习”范式,研究团队构建了名为HOPE的新型架构。其核心创新是一个连续记忆系统。

这不再是一两个孤立的记忆模块,而是一系列像光谱一样排列的MLP模块。每个模块都以预设的、不同的频率进行更新。信息输入后,会在这些不同节奏的记忆模块间自动流动与分配:

高频模块像“工作记忆”,快速捕捉对话中的即时细节与上下文。

中频模块像“近期记忆”,负责提炼和归纳一段时间内出现的模式。

低频模块像“长期记忆”,缓慢而稳定地将最重要的知识沉淀为模型固有能力。

这个过程,高度模仿了神经科学中信息从海马体向新皮层转移、巩固的经典机制。在初步实验中,HOPE已经在标准语言建模和常识推理任务上展现了强大的竞争力。



更重要的是,它显露出了解决持续学习问题的巨大潜力——新知识可以在这条“记忆光谱”上找到自己合适的位置,被渐进式地消化吸收,而非引发系统性的崩溃或遗忘。

一场静待发生的范式转移

“嵌套学习”的价值,或许不在于明天就取代Transformer,成为大模型的主流骨架。它的深远意义在于,提供了一套全新的设计逻辑和思考框架。

它的成功启示我们,下一代AI的突破,不一定依赖于发明更复杂的“神经元积木”,而在于为AI设计一套能激发潜能的框架。这正是其被誉为“V2”的原因——如同2017年“注意力”机制统一了序列建模的视野,“嵌套学习”正试图为学习过程本身,构建一个统一、可解释的“白箱”模型。

当然,这仍是非常前沿的探索,这场关于“记忆”与“学习”本质的重新思考,才刚刚拉开序幕。人工智能的未来,或许不仅需要更深的网络,更需要一个能够学习和演化的系统,而不仅仅是作为一个静止的、被凝固在训练完成那一刻的“知识琥珀”。

来源:https://www.163.com/dy/article/KHAGI5VO0511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

OpenClaw人人养虾接入Matrix平台操作指南
AI资讯
OpenClaw人人养虾接入Matrix平台操作指南

Matrix 是一种开放且去中心化的即时通讯协议,允许用户自主部署私有服务器并接入全球 Matrix 联邦网络。OpenClaw 网关通过集成 Matrix 的 Client-Server API,实现与这一分布式通信生态的无缝对接。 前置准备 在配置 OpenClaw 连接 Matrix 之前,请

热心网友
05.20
阿里官方揭秘欢乐马项目源自ATH郑波团队
AI资讯
阿里官方揭秘欢乐马项目源自ATH郑波团队

周二晚间,AI领域迎来了一则重磅消息。在权威AI评测平台Artificial Analysis的榜单上,一个名为「HappyHorse-1 0」的神秘模型异军突起,一举登顶视频生成能力排行榜,引发了业界的广泛关注与热议。 这一成绩极具含金量。无论是文本生成视频,还是图像生成视频,HappyHorse

热心网友
05.19
世界模型AI直播预约开启引爆人工智能新浪潮
AI资讯
世界模型AI直播预约开启引爆人工智能新浪潮

当AI开始学会“脑补”物理世界的运行规律,并尝试模拟一个动态变化的真实环境时,我们距离那个传说中的通用人工智能(AGI)究竟还有多远? 进入2026年以来,“世界模型”毫无悬念地成为了科技圈最炙手可热的核心议题。它标志着一个关键的范式转变:人工智能正从被动地“感知当下”,迈向主动地对时空与动态变化进

热心网友
05.19
世界模型第二期直播预约AI技术前沿与应用解析
AI资讯
世界模型第二期直播预约AI技术前沿与应用解析

上周三关于“世界模型”的线上沙龙反响空前热烈,这充分表明,从被动感知迈向主动推演,这条被视为实现通用人工智能(AGI)的核心技术路径,正深度吸引着整个AI行业的关注。鉴于持续高涨的讨论热度,我们决定加开一场深度分享会。 那么,这条充满潜力却又极具挑战性的前沿赛道,目前进展到了何种阶段?顶尖的研究者们

热心网友
05.19
许哲诚计算性设计展演评析:数字逻辑与物质建构的生成境域
科技数码
许哲诚计算性设计展演评析:数字逻辑与物质建构的生成境域

数字逻辑与物质建构的深度对话 ——评许哲诚“境域·生成”计算性设计展演 □ 丁雅力(江苏省美术馆策展人) 当代设计与造物的核心范式,正经历着由计算性设计带来的深刻变革。2026年3月20日,南京艺术学院教师许哲诚于南京莫玄空间呈现的“境域·生成”个人专场展演,正是这一前沿趋势的集中体现。本次展览超越

热心网友
05.18

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

企业网络安全等级保护合规指南:龙虾养殖业如何落地实施
AI资讯
企业网络安全等级保护合规指南:龙虾养殖业如何落地实施

摘要由实在Agent通过智能技术生成。此内容由AI根据文章内容自动生成,并已由人工审核。 随着企业数字化转型进入智能体(Agent)驱动的新阶段,如何平衡AI创新与安全合规成为关键挑战。尤其在《网络安全等级保护基本要求》(等保2 0)的严格框架下,企业级智能体的部署必须同时满足效率提升与合规保障的双

热心网友
05.23
外贸业务员年终总结PPT制作指南 AI高效提升总结效果
AI教程
外贸业务员年终总结PPT制作指南 AI高效提升总结效果

使用情景 对于外贸从业者来说,年终总结绝非简单的例行汇报。它是一次至关重要的年度复盘与战略规划,既要系统梳理过去一年的业绩成果与经验得失,也要为来年的市场开拓与业务增长指明清晰路径。在全球贸易竞争白热化的今天,一份逻辑严谨、数据详实、洞察深刻的总结报告,不仅是个人专业能力的集中体现,更是赢得管理层支

热心网友
05.23
WPS AI一键生成年度安全工作总结PPT高效制作专业汇报
AI教程
WPS AI一键生成年度安全工作总结PPT高效制作专业汇报

使用情景 又到年末了,年度安全工作总结是每个团队都绕不开的环节。这份总结的价值,远不止于一份简单的回顾。它更像是一份“体检报告”,清晰地告诉你过去一年安全工作的“健康状况”——哪里做得好,哪里还有隐患,从而为来年的精准施策打下坚实的基础。 不过,说起写总结、做PPT,不少人就开始头疼了:内容怎么组织

热心网友
05.23
ZEC价格暴涨520%后还能买吗 深度解析Zcash未来走势与投资潜力
web3.0
ZEC价格暴涨520%后还能买吗 深度解析Zcash未来走势与投资潜力

Zcash (ZEC) 月度暴涨520%:深度解析后市行情与关键点位 近期,隐私币龙头Zcash (ZEC) 上演了一场令人瞩目的行情,月度涨幅高达520%,价格一度逼近300美元,创下自2021年12月以来的新高。在加密市场整体承压的背景下,ZEC的逆势狂飙吸引了全球投资者的目光。本文将结合技术分

热心网友
05.23
电商售后数据自动汇总分析流程与智能化方案详解
AI资讯
电商售后数据自动汇总分析流程与智能化方案详解

在存量竞争的时代,电商售后数据早已超越了“成本中心”的单一角色,它正成为洞察产品质量、优化物流链路、提升用户忠诚度的核心战略资产。然而,现实往往骨感:多平台、多店铺、多套ERP系统并存,数据散落一地。靠人工手动汇总?不仅耗时费力,更关键的是,你永远无法实现真正的实时预警与敏捷响应。那么,电商售后数据

热心网友
05.23