首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
张祥雨:Transformer架构如何助力AI智能体发展

张祥雨:Transformer架构如何助力AI智能体发展

热心网友
90
转载
2025-12-18

“Transformer架构已经无法承载我们走向下一步,尤其是在迈向Agent时代的关键阶段。”12月18日,90后AI领域顶尖学者、阶跃星辰首席科学家张翔雨公开了他最新的研究观点,直言当前AI领域的核心架构Transformer正面临技术瓶颈。

Transformer架构是当前人工智能,特别是生成式AI与大语言模型的基石。它于2017年由谷歌团队在论文《Attention Is All You Need》中提出,其核心创新在于“自注意力机制”,有效突破了传统循环神经网络(RNN)在处理长序列时的局限。可以说,没有Transformer,就没有今天ChatGPT、Gemini等标志性模型的出现。

张翔雨是深度学习领域的知名学者,以在残差网络(ResNet)方面的开创性工作而闻名。此前他与合作者完成的论文《Deep Residual Learning for Image Recognition》曾获CVPR最佳论文奖,引用次数已超20万次,是计算机视觉与模式识别领域被引用最多的论文之一。


张翔雨首先承认,当前大模型行业看似进入了一个“稳态”时期,各类创新的模型架构最终都收敛到以Transformer为核心的各种变体上。针对长上下文处理效率的瓶颈,业界通过如线性注意力、稀疏注意力等技术手段进行“小修小补”,但这并未改变Transformer本质的建模能力局限。

“但是我们很快发现了一个巨大的副作用。”张翔雨表示,真正的难点在于模型的智商会随着文本长度快速增加而急剧下降。“今天的Transformer,无论宣称支持多少Token,基本上超过8千个就不可用了。”

这个问题指向了Transformer的一个根本缺陷,即其单向信息流的设计。无论输入序列多长,模型的有效“思考深度”只能从浅层向深层单向传递,缺乏从深层向浅层的反馈与压缩机制,这与人类大脑“无限流”的记忆机制存在本质差异。

“我今天讲过的每一句话,都是历史上我见过的所有信息的函数。”张翔雨用比喻阐明,“这个函数能用层数固定的网络来表示吗?肯定不可以。”他说人类大脑能够对从小到大的海量经历进行动态压缩和选择性回溯,而当前Transformer结构无法实现这种类似“无限流”世界的智能处理需求,这制约了AI向具备高度自主性、能长期持续学习的通用Agent演进。

事实上,当前已经开始有研究者探讨Transformer是否存在根本局限性。就在今年10月,Transformer架构的共同创造者Llion Jones在TED AI大会上表示自己已经受够了Transformer,并开始寻找下一次重大突破。他直言尽管现在AI领域投入了前所未有资金与人才,但研究者却变得越来越狭隘,他们更倾向于利用现有架构而非探索新路径,“错过下一个重大突破的风险正在加剧。”

挑战已经出现。Mamba、TTT等新型架构正吸引越来越多目光。英伟达、Meta、腾讯等巨头已在探索将Mamba与Transformer融合;中国科学院自动化所与沐曦合作研发的类脑脉冲大模型“瞬时1.0”,则展示了构建非Transformer架构生态的可行性。

张翔雨透露,阶跃星辰团队已经在探索新的架构方向,一些小规模实验已取得积极结论。他认为,未来的架构是基于非线性递归网络的全新设计。但他也坦言,这种架构革新将给系统效率和可并行度带来巨大挑战,需要软硬件协同设计才能落地。

来源:https://www.163.com/dy/article/KH35PQ8J0519DDQ2.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

清华提出TaH方法大幅提升训练效率与模型准确率
AI资讯
清华提出TaH方法大幅提升训练效率与模型准确率

研究揭示循环Transformer存在“潜空间过度思考”现象,即对已预测正确的词元继续迭代反而降低准确性。为此,团队提出TaH方法,通过轻量级决策器动态识别困难词元并仅对其增加迭代深度。该方法在多个基准测试中平均仅对约7%的词元进行二次迭代,显著减少计算量的同时将模型准确率提升了3 8%至4 4%。

热心网友
05.21
三亿年植物进化史揭示古老基因调控机制
科技数码
三亿年植物进化史揭示古老基因调控机制

来源:环球网 科技日报记者 张梦然 植物王国里,一个埋藏了数亿年的核心秘密,最近被来自全球的数十位科学家联手揭开了。 顶级期刊《科学》近期在线发表了一项堪称里程碑的研究。一个由英国剑桥大学桑斯伯里实验室、以色列耶路撒冷希伯来大学、美国冷泉港实验室及马萨诸塞大学阿默斯特分校等机构牵头的大型国际合作项目

热心网友
05.12
中国团队为破解细菌基因“开关”密码提供关键图谱
科技数码
中国团队为破解细菌基因“开关”密码提供关键图谱

高精度测序技术问世,首次绘制大肠杆菌NAD加帽RNA高分辨率图谱 来源:科技日报 科技日报记者 夏凡 近日,一项来自浙江万&里学院、香港浸会大学及宁波东方理工大学的研究,为微生物RNA研究领域带来了关键突破。团队开发出一种名为pNAD-seq的高精度测序技术,成功绘制出大肠杆菌NAD加帽RNA的最高

热心网友
04.21
浙大突破:普通视频实现4D沉浸式自由漫游空间转换能力提升突破
科技数码
浙大突破:普通视频实现4D沉浸式自由漫游空间转换能力提升突破

INSPATIO-WORLD:将任意视频转化为可自由探索的沉浸式四维世界 这项由浙江大学等顶尖研究机构联合开发的突破性技术,其详细技术报告已于2026年4月发布于预印本平台arXiv,论文编号为arXiv:2604 07209。研究团队将这一创新系统命名为INSPATIO-WORLD,其核心目标直指

热心网友
04.16
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26
AI资讯
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步,却忘了最终的目的地。针对这一痛点,厦门大学和香港科技大

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

比特币现货持有者坚定持仓 BTC价格逼近115000美元关键阻力位
web3.0
比特币现货持有者坚定持仓 BTC价格逼近115000美元关键阻力位

现货持有者坚守仓位,比特币接近115,000水平 近期比特币(BTC)价格接近$115,000水平,市场整体情绪谨慎,但现货持有者依旧坚守仓位,显示出一定的多头信心。 市场现状与资金流动 那么,当前市场的资金究竟在如何流动?分析显示,一个有趣的现象正在上演:短线资金的流入其实相当有限,市场热度并未急

热心网友
05.23
瑞波币XRP现最强看涨形态目标6美元 近期回调后走势深度解析
web3.0
瑞波币XRP现最强看涨形态目标6美元 近期回调后走势深度解析

目录 要点介绍:分析师称XRP呈现“最强看涨结构”高位清算集中于2 90美元以上区域 周四,XRP价格稳稳站在了2 80美元上方。这个位置守住了,意味着什么?意味着市场向那个经典的“杯柄形态”目标价——6美元以上——又迈进了一步。 要点介绍: 先看几个核心数据:周四XRP报收2 82美元。技术分析显

热心网友
05.23
以太坊衍生品市场企稳 交易员聚焦4500美元关键阻力位突破
web3.0
以太坊衍生品市场企稳 交易员聚焦4500美元关键阻力位突破

近期,以太坊(ETH)衍生品市场经历了短暂的闪崩,但随后价格快速企稳,交易者开始关注关键突破点——$4,500水平。 ETH衍生品市场现状 市场情绪往往在剧烈波动后显露真容。从最新的链上数据和期权、永续合约的交易情况来看,那场短暂的闪崩更像是一次压力测试——结果是,市场波动率显著下降,多空力量似乎进

热心网友
05.23
狗狗币DOGE暴涨11%交易量激增四倍 市场反弹行情能否持续
web3.0
狗狗币DOGE暴涨11%交易量激增四倍 市场反弹行情能否持续

DOGE单日暴涨11%,交易量激增四倍,市场风向变了? 最近,加密货币市场又热闹起来了。DOGE(狗狗币)上演了一出“旱地拔葱”,价格单日暴涨11%,更关键的是,成交量直接翻了四倍。这种“价量齐升”的场面,无疑给整个迷因币板块打了一针强心剂,市场情绪肉眼可见地回暖了。 DOGE价格拉升原因分析 那么

热心网友
05.23
欧易OKX官方APP下载指南 安全交易入口与安装教程
web3.0
欧易OKX官方APP下载指南 安全交易入口与安装教程

如何安全获取欧易(OKX)官方APP?一份详尽的下载与使用指南 Binance币安 欧易OKX ️ Huobi火币️ 当人们谈论“欧易易欧”时,指的往往是那个全球顶尖的数字资产交易平台——欧易(OKX)。作为业务版图庞大的行业巨头,其官方APP无疑是用户进行交易、查看行情和管理资产的核心工具。不过,

热心网友
05.23