清华刘知远团队ICLR 2026论文：短文本如何丝滑升级为长文本

首页

热心网友

转载

2026-05-16

随着大语言模型向更强大的推理能力和更复杂的应用场景演进，“上下文长度”已从一个基础的技术参数，演变为决定模型能力上限的核心瓶颈。

当前，长文档理解、多轮对话记忆、复杂任务规划与长链式推理等前沿应用，对模型处理长序列的能力提出了远超传统4K或8K窗口的需求。然而，主流Transformer架构基于全注意力机制的计算模式，在序列长度增加时会导致计算和显存开销呈平方级增长，使得“支持更长上下文”在实际工程中面临巨大的成本挑战。

针对这一核心矛盾，采用稀疏注意力机制已成为学术界与工业界的共识方向。但这并未彻底解决问题，反而引发了一系列更深层次的结构性挑战。

过去几年，大量研究试图通过设计新的注意力结构、引入路由机制或可训练的稀疏模块来降低计算负担。这些方法虽然在理论复杂度或特定评测集上表现优异，但在真实的大模型训练与部署流程中，却暴露出一个长期被忽视的“兼容性”问题：当前大语言模型普遍遵循“短序列预训练、长序列微调”的范式。而许多修改了模型架构的稀疏注意力方案，在结构、参数或输出形式上与标准的全注意力机制存在显著差异，导致模型能力迁移过程异常困难。

正是在此背景下，清华大学刘知远团队提出的《InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation》研究显得尤为独特。与以往侧重于“引入新结构”或“增加可训练模块”的技术路径不同，这项研究将焦点前置到一个更根本的问题上：实现长上下文的高效处理，是否必须通过改变模型核心结构来实现？

为此，团队创新性地提出了一种稠密-稀疏可切换的注意力框架。其核心思想是：以原有的全注意力参数为起点，保持输出形式完全一致，实现对长短文本的协同训练，从而高效、平滑地完成从短上下文到长上下文的过渡与适配。

需要强调的是，这项工作的目标并非追求单一指标的突破，而是系统性地从性能保持、训练稳定性以及端到端推理效率三个维度，对这一设计思路进行了全面验证。这为长上下文大语言模型的研究与工程落地，指明了一条极具启发性的新路径。

一次关于「实际可用性」的系统性验证

总体而言，这项研究的实验设计颇具深度。它并非简单验证“InfLLM-V2是否有效”，而是围绕三个层层递进的核心问题展开：

第一，在长上下文任务中，该方法的性能能否达到甚至媲美全注意力机制？第二，在“短序列预训练 → 长序列微调”的真实训练流程下，该方法是否会损害模型原有的能力？第三，在完整的推理过程中，稀疏注意力带来的理论计算加速，能否转化为端到端的实际性能收益？

针对第一个问题，研究团队重点评估了多种长文本理解任务。在32K长度的RULER基准测试中，InfLLM-V2（稀疏模式）在绝大多数子任务上的表现曲线，几乎与使用全注意力的基线模型重合。相比之下，训练后稀疏方法在部分任务上出现了明显的性能断层，而可训练稀疏注意力方法NSA在短序列到长序列迁移的设定下，也显著落后。

这一结果清晰地表明，InfLLM-V2的稀疏策略并未破坏模型对跨块长距离依赖关系的建模能力。而其他方法要么在块选择阶段失效，要么对原有的注意力分布造成了难以修复的干扰。

在更贴近真实应用场景的LongBench基准上，这一趋势更加明显。由于LongBench涵盖了问答、摘要、推理及多语言等多种真实任务，其整体难度高于合成数据集。但即便如此，InfLLM-V2（稀疏模式）的整体得分依然达到甚至略微超过了全注意力基线。

相比之下，NSA的性能明显落后，而仅依赖长度外推的SHORT+YaRN方法则出现了大幅的性能退化。研究人员还观察到一个有趣的现象：InfLLM-V2的稠密/稀疏可切换机制，在部分任务中反而降低了注意力噪声，使模型的输出更加稳定可靠。

在用于衡量长序列语言建模能力的LongPPL评测中，InfLLM-V2的表现与全注意力基线基本一致，而NSA的困惑度则显著更高。这个结果颇具启示意义：NSA在完成短到长迁移训练后，并未真正学会建模长程的语言分布，其较低的训练损失并未转化为有效的长序列建模能力。

围绕第二个问题，研究团队还系统评估了长链式推理任务，包括MATH-500、AIME以及LiveCodeBench。这类任务的共同特点是输出序列较长，且中间推理步骤高度依赖于早期的上下文信息。

实验结果显示，InfLLM-V2（稀疏模式）在这些任务上的表现与全注意力基线几乎持平，而NSA在所有相关任务中均出现了明显的性能下降。这直接证明，InfLLM-V2所采用的稀疏注意力机制，不会破坏链式思维推理过程中至关重要的“思维连续性”。

此外，研究人员还验证了一个在工程实践中尤为关键却常被忽视的问题：在完成长上下文微调之后，模型是否仍能胜任常规的短序列任务？在MMLU、CEval、HumanEval等通用能力评测中，InfLLM-V2切换回稠密模式后，依然保持了与全注意力基线相当的性能，而NSA则出现了明显退化。这一结果从工程角度给出了肯定答案：InfLLM-V2不会在适配长上下文能力的过程中，损害模型原有的通用能力。

最后，针对第三个关于实际收益的问题，研究团队不仅评估了注意力计算核心层面的理论加速效果，更在完整推理流程中测量了预填充和逐词解码的端到端效率。

在可见token数为6K的设置下，InfLLM-V2实现了约2.1倍的预填充加速和2.3倍的解码加速。而且，这一结果是在前馈网络部分完全未进行优化的前提下获得的。这进一步说明，该稀疏注意力设计在真实推理场景中，具有切实可落地的加速价值。

从架构设计到系统级优化

抛开具体的实验数据，这项研究实际上回答了一个更根本的问题：为什么InfLLM-V2的优秀表现并非“偶然”，而是其设计逻辑在整个训练流程中被系统性验证的必然结果。

研究团队首先指出了一个关键现实：几乎所有大语言模型都遵循“短序列预训练、长序列微调”的通行范式。因此，任何稀疏注意力方案如果在这一过程中大幅改变参数结构或调整注意力的输出形式，都会直接损伤模型在短序列阶段已经学到的强大表征能力。

基于这一现实约束，研究人员为InfLLM-V2设定了明确的核心设计前提：在从稠密注意力过渡到稀疏注意力的过程中，必须保证已有稠密注意力的表达能力不被破坏。

在具体训练流程上，研究团队首先采用完全标准的Transformer架构对模型进行短序列预训练，模型规模为8B参数，使用GQA结构，序列长度为4K。这一阶段未引入任何InfLLM-V2相关的稀疏机制，确保模型能力完全建立在传统全注意力的基础之上。

随后，在进入长上下文训练阶段时，模型内部仅发生了三项关键变化：当序列长度超过预设阈值时，注意力掩码由稠密形式切换为稀疏形式；键与值的投影参数被完整复用，不引入新的参数分支；注意力的输出形式始终保持为单一输出结构，不使用门控，也不存在多路注意力输出的聚合。

正是这种“最小结构扰动”的切换方式，使InfLLM-V2能够在适配长上下文的同时，最大限度地保留原有模型能力。这也构成了其与NSA等可训练稀疏注意力方法的本质差异。

相关实验进一步验证了一个具有反直觉意味的结论：可训练的稀疏注意力，并不必然更适合短到长的迁移训练。分析表明，NSA在该设定下的性能问题并非源自稀疏机制本身，而是由于其引入了三套独立的键-值投影、多路注意力输出以及基于门控的结果聚合结构。

这些额外模块在短序列阶段不仅带来冗余计算开销，还会显著改变注意力分布的形态，从而对模型已学到的表征造成干扰。在实验结果中，这一问题具体表现为训练损失曲线出现明显震荡、长序列困惑度显著升高，以及长链式推理任务性能的系统性下降。

在工程实现层面，研究团队还通过进一步的消融分析，定位了InfLLM-V2的主要性能瓶颈，发现其集中在块选择阶段，尤其是压缩注意力的计算以及注意力分数的显式物化过程。针对这一问题，研究人员在实验中引入了头组融合和LSE近似等优化策略。

实验结果表明，这些改进在几乎不影响模型性能的前提下，可以将块选择的计算时间降低约20%至30%，从而为后续端到端推理加速实验中观察到的显著性能提升，奠定了关键基础。

可实现「热升级」的长上下文解决方案

从研究意义来看，这项研究为“长上下文大语言模型”的发展方向提供了方法论层面的重要启示。

研究团队明确指出，稀疏注意力机制未来的发展重点，或许并不在于设计全新的注意力结构，而在于如何在不破坏既有稠密注意力结构的前提下，实现高效的稀疏化。这一观点，在一定程度上改变了此前以“结构创新”为主导的研究范式。

在工程实践层面，InfLLM-V2所具备的一系列特性，恰好契合真实工业部署的核心需求：无需调整模型参数规模、无需维护多套模型版本、不会牺牲短序列任务性能，且不依赖重新进行大规模预训练。这意味着，一个已经部署或训练完成的现有大语言模型，可以在最小代价下被“热升级”为具备长上下文处理能力的模型。

在此基础上，这项研究也为后续工作隐含地划定了若干重要约束：首先，应避免引入额外的注意力分支，以免破坏原有结构的一致性；其次，不应采用与稠密注意力输出形式不兼容的设计，否则将导致短到长迁移过程中的能力损失；最后，稀疏注意力的设计必须充分考虑底层计算实现与硬件特性，而不能仅停留在概念层面的结构优雅性。

正是由于该研究将训练范式、模型结构设计以及CUDA级实现细节进行了统一考量，并系统性地解释了以往稀疏注意力方法在真实训练与推理流程中失败的原因，才使其不仅停留在方法层面的提出，而能够进一步支撑实际模型的训练与落地应用。这也是研究团队能够基于该框架，直接产出MiniCPM-4.1等模型的重要原因。

InfLLM-V2 主要作者

赵威霖，清华大学计算机科学与技术系自然语言处理实验室（THUNLP）的博士研究生，研究方向聚焦于高效大语言模型。

他的研究主要围绕模型推理与训练加速展开，关注点并非单纯引入新的模型结构，而是如何在不破坏标准Transformer表达能力与既有模型性能的前提下，实现对各类场景的有效适配与工程级加速。

除学术研究外，他还长期参与OpenBMB、MiniCPM等开源项目，在高性能注意力计算核心、推理优化与系统实现方面承担关键工程工作，其研究成果发表于ICLR、ACL、EMNLP等国际主流会议。

刘知远，清华大学计算机科学与技术系教授、博士生导师，兼任中国中文信息学会理事、社会媒体处理专委会副主任等学术职务。

刘知远分别于2006年、2011年于清华大学计算机科学与技术系获得学士、博士学位，并在清华大学开展博士后研究，后留校任教。其主要研究方向包括大模型技术、自然语言处理、知识图谱与语义计算以及社会计算等核心领域。

刘知远在国际主流学术会议和期刊上发表了200余篇论文，其Google Scholar引用量超过7万次，反映出广泛的学术影响力。他曾获教育部自然科学一等奖、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖、世界互联网领先科技成果奖、北京市青年教学名师奖等多项科研奖励，并入选包括国家青年人才计划、Elsevier中国高被引学者、《麻省理工科技评论》中国区“35岁以下科技创新35人榜单”及中国科协青年人才托举工程等人才项目。

韩旭，清华大学计算机科学与技术系助理研究员，也是大模型开源社区OpenBMB的核心发起人与长期负责人之一。

韩旭长期从事大模型技术、自然语言处理、知识工程等方面的研究，部分研究也涉及并行计算、异构系统优化等方向，在国际顶级学术会议及期刊发表论文数十篇，Google Scholar他引1.6万余次，曾获教育部自然科学一等奖、世界互联网大会领先科技奖，并入选中国计算机学会（CCF）优博激励计划、清华优秀博士后、《麻省理工科技评论》中国区“35岁以下科技创新35人榜单”、及博士后创新人才支持计划。

肖朝军，清华大学计算机系博士后，主要研究方向为高效大模型架构，在Nature Machine Intelligence、ICML、NeurIPS、ICLR、ACL等国际顶级会议及期刊发表论文多篇，曾获钱伟长中文信息处理科学技术奖一等奖，博士后创新人才支持计划，清华大学水木学者，清华大学优秀博士论文等荣誉。