清华姚班刘壮团队新作:无需归一化的Transformer性能优化研究
编辑|陈陈、冷猫
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
刘壮带队的无需归一化 Transformer 又有新的进展了。
长久以来,在 Transformer 架构中,LayerNorm 几乎是标配,但它也存在明显短板:比如计算和访存成本高,尤其在大模型推理阶段。
因此,“无归一化(Normalization-Free)”Transformer 成为研究者探索的一个长期目标,但一直卡在两个难点上:训练不稳定,以及性能明显不如带归一化的模型。
而这篇新论文提出了一种非常简单的新激活层 Derf(Dynamic erf),让“无归一化(Normalization-Free)”的 Transformer 不仅能稳定训练,还在多个设置下性能超过了带 LayerNorm 的标准 Transformer。

论文标题:Stronger Normalization-Free Transformers
刘壮本人也在 X 账号上分享了这一成果。他表示,这是一篇关于更强无归一化 Transformer 的新论文:研究团队提出了 Derf(Dynamic erf),一种结构极其简单的逐点(point-wise)层。借助 Derf,完全不依赖归一化层的 Transformer 不仅能够稳定训练,而且在实际性能上已经可以超越传统依赖 LayerNorm 等归一化机制的模型。
这一结果表明,长期被视为标配的归一化层,并非构建高性能 Transformer 的唯一选择。

今年早些时候,刘壮、何恺明、LeCun 等人已经在题为《无需归一化的 Transformer》的论文中表明,Dynamic Tanh(DyT)函数可以取代 Transformer 中的归一化层。
Derf 进一步发展了这一想法。
和 DyT 类似,Derf 是一种不依赖统计量的逐点(point-wise)层,不需要使用激活分布的统计信息。它本质上只是一个带有少量可学习参数的平移并缩放后的高斯误差函数(Gauss error function),可以直接替换你原本使用 LayerNorm 或 RMSNorm 的位置。

由于其结构极其简单、效果稳定且性能更强,Derf 为构建无归一化(normalization-free)的 Transformer 架构提供了一种非常具有实践价值的选择。相关代码已开源。
超越归一化层的逐点函数
热门专题
热门推荐
速览攻略:世界圣羽翼王核心打法与全面解析 本攻略将为你完整呈现《洛克王国》世界圣羽翼王的通关秘籍,深度剖析两种高效实战打法:追求极致速度的“燃薪虫四回合速通”与稳定输出的“酷拉无限连击流”。文章将进一步解析这位翼系精灵王的技能机制、属性克制关系及其在PVE与PVP中的实战定位,帮助你彻底掌握应对其隐
速览:工程系统核心机制解析 在《异种航员2》中,工程系统是整个抵抗力量赖以运转的“战略后勤中枢”。无论是研发新武器、生产重型装甲还是制造先进飞行器,所有实体装备的产出都依赖于此。简言之,该系统的核心运作围绕着两大关键:工程师人力的高效配置与全球稀缺资源的精细化调度。工程师的数量直接决定了每个项目的建
核心速览 在《洛克王国世界》中,治愈兔是一位兼具功能性任务角色与实战辅助能力的精灵。它的价值不仅在剧情推进中体现,更在于对战里出色的治疗与防护表现。本文将为你全面解析治愈兔的精准获取位置、种族属性特点以及实战技能搭配,助你顺利捕捉并最大化其在队伍中的作用。所有关键信息将通过清晰的图文内容详细展示,确
速览 在《红色沙漠》中,挑战传说之狼这一强大的任务BOSS,需要玩家进行充分的准备并遵循完整的任务流程。整个过程环环相扣,你必须首先参与塞莱斯特家族的势力任务,通过完成任务将家族声望提升至指定等级,才能解锁【传说之狼】的专属讨伐任务,最终直面这个传说中的强大生物。 红色沙漠传说之狼怎么打 归根结底,
【宝可梦Pokopia】舒适度全解析:快速提升环境等级的核心秘诀 你是否正在探索《宝可梦Pokopia》世界,并希望有效提升宝可梦栖息地的舒适度?舒适度不仅是衡量宝可梦快乐程度的晴雨表,更是解锁游戏核心内容、加速发展的关键驱动指标。本攻略将系统性地为你揭示提升舒适度的核心途径,涵盖从装饰栖息地、建造





