清华姚班校友新研究获谷歌AI负责人点赞,现双双加盟Meta
谷歌AI负责人Jeff Dean近日高度评价了一项突破性研究,该研究由清华姚班校友钟沛林团队主导提出了一种名为“嵌套学习”的全新架构模式。这一创新为解决大语言模型长期存在的灾难性遗忘问题开辟了新路径。研究团队开发的Hope模型在语言建模与长上下文任务中展现出显著优势,相关论文已被NeurIPS 2025接收。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
传统深度学习模型通常采用扁平化参数更新模式,通过堆叠网络层数或扩大模型规模来提升性能,但这种“暴力堆参数”的做法已逐渐触及瓶颈。研究指出,当前主流的Transformer架构本质上是嵌套学习模式的简化版本,其线性层级结构未能充分发挥多层级协同的潜力。嵌套学习模式借鉴人类大脑的记忆机制,将模型重构为嵌套式优化体系,不同层级以差异化频率进行更新,实现了短期记忆与长期规律的分层管理。
该研究提出三大核心创新:深度优化器通过神经网络预测梯度变化,取代传统优化器的固定公式;自我修正模型使架构在训练中自主调整参数,无需人工干预;连续记忆系统将二元记忆结构升级为多尺度记忆链,不同模块分别处理实时细节与长期规律。这些创新最终凝聚为Hope模型,在7600万至13亿参数规模下,其语言建模能力与推理水平均超越Transformer等主流模型,在Wiki文本困惑度、物理常识推理等指标上表现尤为突出。
这项研究的背后站着一位特殊的清华姚班校友——钟沛林。这位2016届毕业生在高中时期已是国际信息学竞赛的明星选手,2012年代表雅礼中学夺得IOI金牌,与同窗艾雨青并称“雅礼双子星”。从哥伦比亚大学博士毕业后,他加入谷歌纽约研究院担任算法科学家,期间主导了嵌套学习模式的研究。如今这对双子星已先后入职Meta,分别担任AI科学家与软件工程师,继续在人工智能领域开拓新方向。
嵌套学习模式的提出标志着深度学习架构的范式转移。通过模拟人类认知机制,该研究为模型持续学习、长上下文推理等难题提供了全新解决方案。当AI模型从静态计算网络进化为分层协作的智能系统,或许将开启真正具备终身学习能力的通用人工智能新时代。
热门专题
热门推荐
原定于今年4月底在拉斯维加斯举行的2026年比特币大会,最近公布了首批演讲嘉宾名单。没想到,这份名单一石激起千层浪,招致了许多比特币早期投资者的强烈不满。 看看名单上都有谁:企业高管、政界人物、监管机构官员……已确认的演讲者包括迈克尔·塞勒、杰克·多西、托德·布兰奇、卡什·帕特尔、保罗·阿特金斯、迈
OpenAI为何要做手机 知名苹果供应链分析师郭明錤的最新产业调查,揭示了一个重磅动向:OpenAI正在布局自研智能手机,其核心意图,是以AI agent彻底重塑移动终端的交互逻辑。而且,这已不仅仅是构想,硬件层面的实质性动作已经展开。 根据披露的信息,OpenAI目前正与联发科及高通合作开发手机处
非同质化代币(NFT)价格飙升,市场真的繁荣了吗? 看着非同质化代币(NFT)价格一路飙升,如果只盯着上涨曲线,你可能会觉得市场一片火热。但实际情况呢?整个市场的活跃度,却描绘出一幅截然不同的图景。 蓝筹领涨,但买家去哪了? 这波上涨的领头羊,无疑是Bored Ape Yacht Club和Pudg
预测市场的真相:是群体智慧,还是少数人的游戏? 说起预测市场,很多人脑海里会立刻浮现出“群体智慧”这个词。成千上万的用户对事件反赌,最终价格似乎总能精准反映现实概率——这听起来像是民主化预测的完美典范。但最近一项来自伦敦商学院和耶鲁大学的研究,却给这个浪漫的想象泼了一盆冷水。 研究团队发现,像Pol
在超级精灵球游戏中,首先要挑选合适的精灵。 开局选精灵,这一步很关键。优先考虑那些攻防属性均衡的伙伴,比如皮卡丘,它的电系技能爆发力十足,往往能打出可观的伤害;水箭龟也是个可靠的选择,不仅生命值厚实,能稳稳站在前排吸收伤害,其水系技能的输出也相当稳定。当然,别忘了妙蛙种子,它的草系技能在对战中常常能





