首页 游戏 软件 资讯 排行榜 专题
首页
AI
LSTM之父提出PoPE新法:终结RoPE泛化难题,优化Transformer位置编码

LSTM之父提出PoPE新法:终结RoPE泛化难题,优化Transformer位置编码

热心网友
26
转载
2026-01-04



免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

编辑|Panda

Transformer 架构中的注意力机制是根据内容(what)和序列中的位置(where)将键(key)与查询(query)进行匹配。

而在近期 LSTM 之父 Jürgen Schmidhuber 的 USI & SUPSI 瑞士 AI 实验室团队的一项新研究中,分析表明,当前流行的旋转位置嵌入(RoPE)方法中的 what 与 where 是纠缠在一起的。这种纠缠会损害模型性能,特别是当决策需要对这两个因素进行独立匹配时。

基于这一观察,他们提出了新的方案:极坐标位置嵌入(Polar Coordinate Position Embedding ),简称PoPE。



该团队表示,PoPE 消除了内容与位置的混淆,使得其在需要仅通过位置或仅通过内容进行索引的诊断任务上表现远优于 RoPE。



论文标题:Decoupling the "What" and "Where" With Polar Coordinate Positional Embeddings论文地址:https://arxiv.org/abs/2509.10534

该论文的一作为 Anand Gopalakrishnan,目前正在哈佛大学从事博士后研究,曾是 Jürgen Schmidhuber 的博士生。参与者中还有 OpenAI 的研究科学家 Róbert Csordás,以及科罗拉多大学计算机科学系教授 Michael C. Mozer(目前已加入谷歌 DeepMind)。

RoPE 的问题

在许多前沿模型中,为了将位置信息纳入进来,RoPE 是首选方法,包括 Llama 3、DeepSeek-v3、Gemma 3 和 Qwen3。它会为每个查询-键对生成注意力分数,该分数基于它们的匹配程度及其在输入序列中的相对位置。

为了更好地理解 RoPE,这里以特定层中的特定注意力头进行说明。该注意力头的作用是执行位置 t 的查询 q_t 与位置 s 的键 k_s 之间的匹配。键和查询是 d 维向量,被划分为 d/2 个二维分量。

这里用 q_tc 和 k_sc 分别表示查询和键的分量 c∈{1,...,d/2}。RoPE 首先在 2D 平面中将每个分量 c 旋转一个与位置成正比的角度。如果 R (Φ) 是执行角度 Φ 旋转的 2×2 矩阵,则旋转后的查询和键分别为 R (tθ_c) q_tc 和 R (sθ_c) k_sc,其中 θ_c 是分量特定的基波波长(base wavelength):。下图展示了查询(或键)分量的构成及其在二维空间中的旋转方式。





对应的键和查询分量通过点积匹配并求和以获得注意力分数:



将分量对齐的旋转仅取决于键和查询的相对位置,而不取决于它们的绝对位置。

如果将键和查询分量从笛卡尔坐标重新表示为极坐标:



由此,注意力分数可写为:



这清楚地表明,嵌入的每个双元素分量都被转换为单个幅值,并且通过 Φ_{q_tc} 和 Φ_{k_sc} 引入了对产生最大响应的相对位置(相位)的调整。因此,键和查询都混淆了关于特征存在与否的信息(what)和相对位置(where)。

该团队的假设是,通过解耦这两类不同的信息,特别是通过消除交互项 ,可以提高模型性能。

解决方案:PoPE

在 RoPE 中,该团队将键和查询的 d/2 个分量解释为复数。而在该团队提出的方法中,该团队利用了极坐标表示的另一种形式,称之为极坐标位置嵌入,即 PoPE。

在 PoPE 中,该团队将键和查询转换为相应的 d 元素复向量 和 。每个元素 c 的幅值是对原始实值键或查询对应元素的重新缩放:



其中 σ(x)=ln (1+e^x) 表示 softplus 激活函数,确保幅值非负。相位仅取决于位置:



PoPE 的注意力分数定义为:



与 RoPE 相比,PoPE:

在单个元素而非元素对上进行索引,将频率数量从 d/2 增加到 d;消除了导致键和查询影响相位的交互项。

此外,还可以引入一个可学习但固定的偏置项 :



其中 δ_c 是为每个频率调整最佳相对偏移的可学习偏置。

该团队使用 Triton 实现了 PoPE。

通过修改内核,在不显式实例化复杂矩阵的情况下计算点积的实部。该团队的定制 Flash Attention 相比标准版仅需额外一次乘法。该团队表示,虽然目前的通用变体内存开销较大,但可以通过在内核内部执行旋转来优化。

那么,表现如何呢?

该团队将 PoPE 与 RoPE 在两个超参数完全相同的 Transformer 模型上进行比较。

间接索引(Indirect Indexing)

该任务要求在变长源字符串中识别目标字符,目标字符定义为距离指定源字符一定的相对偏移量。



RoPE 在此任务中表现挣扎,平均准确率仅为 11.16%。PoPE 则几乎完美地解决了任务,平均准确率达到 94.82%。这表明 RoPE 难以分离内容和位置信息,而 PoPE 通过解耦实现了高效学习。

音乐与基因组序列建模

在 JSB 和 MAESTRO 符号音乐数据集上,PoPE 均实现了比 RoPE 更低的负对数似然(NLL)。



在人类参考基因组数据集上,使用 PoPE 的模型 NLL(4.152)显著低于 RoPE 基线(4.217)。



语言建模

在 OpenWebText 数据集上,该团队测试了三种规模的模型(124M、253M、774M)。



结果来看 ,在所有规模下,PoPE 的困惑度均始终低于 RoPE。

而在 LAMBADA、CBT、HellaSwag 等六项下游任务的零样本评估中,PoPE 在所有模型规模下的平均准确率均高于 RoPE。



测试时长度外推

该团队在 1024 个 token 上训练模型,并在长达 10240 个 token 的序列上评估。



RoPE 的性能在长序列上显著下降。YaRN 在超过其微调长度后也会失效。

可以看到,PoPE 优势是在无需任何微调或插值的情况下,显示出强大的开箱即用外推能力,甚至优于专门的基线模型 YaRN。

PoPE 的稳定性也不错: RoPE 的外推性能随模型规模增加而恶化,而 PoPE 则保持大体稳定。

https://x.com/agopal42/status/2003900824909746344

来源:https://www.163.com/dy/article/KIEJL8RV0511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

香港科技大学团队突破实时视频生成关键技术
科技数码
香港科技大学团队突破实时视频生成关键技术

这项由香港科技大学、京东探索研究院和香港大学联合开展的研究发表于2026年3月,论文编号为arXiv:2603 17051v1。有兴趣深入了解的读者可以通过该编号在学术数据库中查询完整论文。制作一段

热心网友
03.31
Sand.ai发布MagiAttention,定义分布式注意力性能新标杆
AI
Sand.ai发布MagiAttention,定义分布式注意力性能新标杆

机器之心编辑部2025 年 4 月,Sand ai 开源了 MagiAttention v1 0 0,定义了下一代分布式 Attention 的全新设计和系统框架。历经一年的深耕,今天Sand ai

热心网友
03.26
鸿蒙智行问界M5:将长期稳定运营于问界产品系列
编程语言
鸿蒙智行问界M5:将长期稳定运营于问界产品系列

3月25日,鸿蒙智行最新发布了问界M6第一期答网友问,透露了问界M5系列的后续计划。鸿蒙智行最新表示,问界M6上市后,问界M5将持续在问界家族产品序列中稳定运营。该产品已收获了超15万用户青睐,将

热心网友
03.25
DeepMind混合记忆突破:OpenClaw AI实现近2万帧3D重建
AI
DeepMind混合记忆突破:OpenClaw AI实现近2万帧3D重建

编辑|杜伟过去两天,全球爆火的 Agent 私人助手 OpenClaw,接连更新了两个版本,让人直呼「开发团队是不睡觉了吗?」之所以如此爆火,很大程度上归功于 OpenClaw 的长期记忆能力,它能

热心网友
03.16
Evo 2模型进化:从读懂片段到设计生命全解析
科技数码
Evo 2模型进化:从读懂片段到设计生命全解析

来源:科技日报科技日报记者 张梦然国际顶级学术期刊《自然》近期正式发表了一项汇聚人工智能(AI)与生命科学顶尖智慧的里程碑式成果。由美国Arc研究所、英伟达公司,联合斯坦福大学、加州大学伯克利分校及

热心网友
03.16

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化
游戏资讯
《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化

《全面战争:中世纪3》:经典延续,如何平衡怀旧与创新? 近期,《全面战争:中世纪3》的项目负责人帕维尔·沃伊斯坦然指出,要打造一款真正优秀的续作,绝不能仅仅依赖对前作模式的简单复刻。这一观点引人深思——尽管《中世纪2:全面战争》至今仍在策略游戏爱好者心中占据着经典地位,但开发团队此次显然决心跳出“照

热心网友
04.02
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀
科技数码
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀

雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战

热心网友
04.02
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验
科技数码
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验

借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动

热心网友
04.02
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情
游戏攻略
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情

冰结师技能全解析 踏入2026年,《地下城与勇士》中的冰结师职业,其技能体系已构建得更为成熟与强大。无论是在副本中高效清理海量怪物,还是在决斗场与高手玩家周旋,这个职业都能凭借其独特的冰霜艺术掌控战局。刷图时,酷寒的范围法术可瞬间清屏;而在PVP竞技中,一套将冻结控制与瞬间爆发完美衔接的连招,往往让

热心网友
04.02
iPhone 18 Pro设计挤牙膏了 继续用前代模具
科技数码
iPhone 18 Pro设计挤牙膏了 继续用前代模具

iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消

热心网友
04.02