CVPR 2025 线性视觉Transformer重构实现精度与效率平衡

首页

热心网友

转载

2026-05-20

在图像分类、目标检测和语义分割等核心计算机视觉任务中，Transformer凭借其强大的全局特征建模能力，已成为主流技术架构。然而，其自注意力机制存在的二次计算复杂度问题，严重阻碍了其在手机、平板等移动设备上的高效部署。如何在资源受限的端侧设备上实现视觉Transformer的轻量化，同时保持其关键的全局上下文理解优势，是当前工业界与学术界共同关注的关键课题。

现有的移动端视觉Transformer优化方案，普遍面临效率与精度难以兼顾的挑战。一种常见思路是通过限制注意力范围来降低计算开销，但这会削弱模型捕捉长距离依赖关系的能力，导致性能显著下降。另一种方案采用局部操作与全局注意力堆叠的串行设计，但这种结构往往灵活性不足，计算效率提升有限，且难以克服线性注意力机制中因特征高熵性导致的token间干扰问题。最终，模型在移动端实时推理场景下，常难以同时满足高精度与低延迟的严苛要求。

图1. (a) 传统的堆叠式串行方案与 (b) 本文提出的非对称解耦式方法对比。后者将局部归纳偏置与长程依赖分别进行建模，并将线性注意力在通道维度上的二次计算开销显著降低。其中，局部细节通过深度卷积学习，而长程依赖则由线性注意力负责建模。

为了突破这一瓶颈，来自南洋理工大学、北京航空航天大学与合肥工业大学的研究团队提出了一种创新思路。他们摒弃了传统的渐进式优化方法，首次将局部细节感知与全局上下文建模这两个核心任务进行解耦，并将其视为可并行处理的独立子问题。基于这一“分而治之”的理念，团队设计了一个全新的、面向移动端的高效架构——CARE Transformer。

该工作的核心创新是“非对称特征解耦”机制。具体而言，模型不再要求所有特征通道都经过统一的注意力处理，而是将输入特征在通道维度上进行非对称划分。一部分通道被专门分配给线性注意力模块，用于高效建模长距离的全局依赖；另一部分通道则分配给深度卷积等轻量级操作，专注于提取局部细节和空间归纳偏置。这种设计巧妙地规避了串行架构的计算冗余，同时，通过针对性的通道分配，有效降低了线性注意力在通道维度上的二次计算成本。从而使得模型能够在降低计算复杂度的同时，完整保留对局部特征和全局上下文的关键信息捕捉能力。

然而，简单的特征拆分并不足以保证模型性能。如何让这两路并行处理的特征流有效交互与融合，实现优势互补，是更深层的挑战。为此，CARE Transformer引入了第二个关键创新：“动态记忆单元与双交互模块”。

动态记忆单元充当了一个跨层级的特征缓存与传递枢纽，能够动态地保留并整合网络浅层中的有价值信息。双交互模块则执行两步精细化的特征融合：首先，促进并行的局部特征流与全局特征流进行深度交互，实现信息互补；随后，将当前层融合后的特征，与记忆单元中存储的跨层级历史特征进行二次融合与增强。这一系列操作在未显著增加计算负担的前提下，极大地提升了模型的特征表征丰富度和判别能力。

因此，CARE Transformer的精髓在于“解耦”之后的“协同交互”。它构建了一套完整的“分工-协作”体系，在保障移动端部署效率的同时，充分挖掘了不同性质特征之间的互补潜力，实现了效率与性能的更好平衡。

图2. CARE Transformer 与近期典型的移动端友好型模型在精度、延迟和计算量（GMACs）上的平衡关系对比。图中标记越大代表计算量越多。“SA”、“LA”和“GNN”分别代表基于自注意力、线性注意力和图神经网络的方法。

性能验证与未来展望

为验证该方法的有效性，研究团队在ImageNet-1K图像分类、ADE20K语义分割以及COCO目标检测等多个标准数据集上进行了全面实验。结果表现优异。以ImageNet-1K分类任务为例，CARE Transformer在iPhone 13移动设备上，仅需1.1毫秒或2.0毫秒的推理延迟，即可分别达到78.4%和82.1%的Top-1分类准确率。在计算能力更强的iPad Pro上，达到同等精度水平的延迟时间进一步缩短至0.8毫秒和1.5毫秒。这些实验数据充分证明，该模型在精度、速度和计算开销之间取得了极具竞争力的平衡。

CARE Transformer的成功实践表明，移动端视觉模型并非必须在“全局建模能力”与“部署效率”之间做出妥协。通过更智能地组织与融合局部信息、全局依赖以及跨层特征，基于线性注意力的架构完全能够在真实的边缘计算与端侧AI场景中发挥出巨大应用潜力。

目前，该研究团队已公开了项目的论文预印本与完整的开源代码。团队表示，后续工作将主要围绕两个方向展开：一是引入神经架构搜索技术，自动化地探索CARE机制下的最优模型配置，以进一步挖掘性能上限；二是尝试将CARE这一高效设计范式拓展至参数规模更大的视觉模型乃至多模态大模型中，验证其通用性与可扩展性。这为下一代高效、轻量化的视觉基础模型的发展，提供了一个富有前景的新思路。

来源:https://www.51cto.com/article/840442.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：贾跃亭宣布FF EAI机器人出货12台并升级Super One车型800V架构下一篇：龙虾之父Claude账号被封原因揭秘近百万人热议是故意还是失误

热门推荐

算力时代电力价值重估能源如何支撑数字经济

近日，国家能源局联合发改委、工信部、国家数据局正式印发《关于促进人工智能与能源双向赋能的行动方案》。这份重磅文件的核心思路非常清晰：一方面，以坚实的能源基础支撑人工智能（AI）的快速发展；另一方面，利用AI技术赋能能源行业转型升级。其核心目标是推动能源、算力、应用场景、数据与算法模型五大关键要素深度

热心网友

05.20

智谱清影与Runway Gen3视频生成模型对比评测

在挑选文生视频工具时，若您正在智谱清影与Runway Gen-3之间权衡，那么了解两者在生成效果上的具体差异，将有助于您做出更明智的选择。本文将从画质清晰度、细节纹理、运动自然度与视频连贯性等核心维度，通过实测对比为您详细解析。一、画质与分辨率表现首先对比硬性指标。智谱清影基于CogVideoX

热心网友

05.20

通义万象制作数据可视化科技背景的实用教程

想用通义万相生成一张科技感十足的数据可视化背景，但出来的画面总觉得少了点“内味儿”？数字界面、粒子流、电路纹理这些关键元素一个不见，画面平平无奇？这通常不是工具的问题，而是提示词没有精准锚定科技可视化的核心要素，或者模型参数没调到最佳状态。别急，下面这几种方法，能帮你把想法精准地“翻译”成画面。一

热心网友

05.20

Vidu视频慢动作与快进效果制作教程

想要在Vidu生成的视频中实现流畅的慢动作或快进效果？虽然模型界面没有提供直接调整播放速度的滑块，但通过巧妙的提示词设计、利用内置功能，或结合后期处理工具，你完全可以精准掌控视频的节奏与时间感。本文将为你详细解析四种实用方法，从生成前到生成后，全方位满足你的创作需求。一、通过精准提示词引导运动节奏

热心网友

05.20

海螺AI学术论文查重降重功能实测与效果分析

当您使用海螺AI生成的英文论文在提交查重时遭遇高重复率或AIGC检测异常，请不要急于归咎于工具本身。核心原因在于，尽管AI生成的文本格式标准、语法地道，但其语言模式和常见短语组合，并未针对知网、维普、万方等中文查重数据库的语义比对逻辑进行专门优化。换言之，机器认为流畅自然的表达，在查重系统的算法看来

热心网友

05.20