“Transformer架构已经无法承载我们走向下一步,尤其是在迈向Agent时代的关键阶段。”12月18日,90后AI领域顶尖学者、阶跃星辰首席科学家张翔雨公开了他最新的研究观点,直言当前AI领域的核心架构Transformer正面临技术瓶颈。
Transformer架构是当前人工智能,特别是生成式AI与大语言模型的基石。它于2017年由谷歌团队在论文《Attention Is All You Need》中提出,其核心创新在于“自注意力机制”,有效突破了传统循环神经网络(RNN)在处理长序列时的局限。可以说,没有Transformer,就没有今天ChatGPT、Gemini等标志性模型的出现。
张翔雨是深度学习领域的知名学者,以在残差网络(ResNet)方面的开创性工作而闻名。此前他与合作者完成的论文《Deep Residual Learning for Image Recognition》曾获CVPR最佳论文奖,引用次数已超20万次,是计算机视觉与模式识别领域被引用最多的论文之一。

张翔雨首先承认,当前大模型行业看似进入了一个“稳态”时期,各类创新的模型架构最终都收敛到以Transformer为核心的各种变体上。针对长上下文处理效率的瓶颈,业界通过如线性注意力、稀疏注意力等技术手段进行“小修小补”,但这并未改变Transformer本质的建模能力局限。
“但是我们很快发现了一个巨大的副作用。”张翔雨表示,真正的难点在于模型的智商会随着文本长度快速增加而急剧下降。“今天的Transformer,无论宣称支持多少Token,基本上超过8千个就不可用了。”
这个问题指向了Transformer的一个根本缺陷,即其单向信息流的设计。无论输入序列多长,模型的有效“思考深度”只能从浅层向深层单向传递,缺乏从深层向浅层的反馈与压缩机制,这与人类大脑“无限流”的记忆机制存在本质差异。
“我今天讲过的每一句话,都是历史上我见过的所有信息的函数。”张翔雨用比喻阐明,“这个函数能用层数固定的网络来表示吗?肯定不可以。”他说人类大脑能够对从小到大的海量经历进行动态压缩和选择性回溯,而当前Transformer结构无法实现这种类似“无限流”世界的智能处理需求,这制约了AI向具备高度自主性、能长期持续学习的通用Agent演进。
事实上,当前已经开始有研究者探讨Transformer是否存在根本局限性。就在今年10月,Transformer架构的共同创造者Llion Jones在TED AI大会上表示自己已经受够了Transformer,并开始寻找下一次重大突破。他直言尽管现在AI领域投入了前所未有资金与人才,但研究者却变得越来越狭隘,他们更倾向于利用现有架构而非探索新路径,“错过下一个重大突破的风险正在加剧。”
挑战已经出现。Mamba、TTT等新型架构正吸引越来越多目光。英伟达、Meta、腾讯等巨头已在探索将Mamba与Transformer融合;中国科学院自动化所与沐曦合作研发的类脑脉冲大模型“瞬时1.0”,则展示了构建非Transformer架构生态的可行性。
张翔雨透露,阶跃星辰团队已经在探索新的架构方向,一些小规模实验已取得积极结论。他认为,未来的架构是基于非线性递归网络的全新设计。但他也坦言,这种架构革新将给系统效率和可并行度带来巨大挑战,需要软硬件协同设计才能落地。
