首页 游戏 软件 资讯 排行榜 专题
首页
AI
注意力机制并非总是瓶颈 多GPU并行计算效率深度解析

注意力机制并非总是瓶颈 多GPU并行计算效率深度解析

热心网友
80
转载
2026-05-16

大语言模型正从技术演示走向规模化应用,而推理阶段的性能瓶颈已成为制约其实际部署的关键因素。随着模型参数规模持续增长、上下文窗口不断扩展,加之RAG、MoE等新架构的引入,延迟、吞吐和能耗等指标已不再是简单的参数调优问题,而是直接关系到系统架构设计与算力成本的核心挑战。

针对这一复杂挑战,中国科学院计算技术研究所严明玉教授团队联合中国电信云计算研究院、浙江实验室及北京大学的研究人员,在论文《A Systematic Characterization of LLM Inference on GPUs》中,对大模型推理性能进行了一次系统性解构。他们从软硬件协同的视角出发,通过大规模实验探究了一个根本性问题:大语言模型推理的性能特征背后,存在哪些底层规律?

这项研究并未直接提供具体场景的优化方案,而是致力于构建一套统一、可解释的性能分析框架。它将Prefill(预填充)与Decode(解码)两个阶段的本质差异,提升到系统级基本规律的高度加以认识,并在不同模型规模、硬件平台以及MoE、RAG等新兴范式下进行了验证。在这张“性能全景图”中,延迟、资源利用率和能耗不再是孤立指标,而是随工作负载与系统配置呈现规律性变化。

大模型推理性能的系统性分析与关键发现

严明玉团队通过大量结构化实验,系统揭示了大语言模型推理的性能规律。一个核心结论是:LLM推理本质上可分为两个行为迥异的阶段——Prefill和Decode。这种差异是结构性的,无法通过局部优化完全消除。

Prefill阶段负责一次性处理用户输入的提示词。此阶段计算可高度并行,核心是大规模矩阵运算,因此属于计算密集型任务,GPU计算单元利用率高,性能主要受芯片算力峰值限制。

Decode阶段则负责逐个生成输出token。由于生成过程是串行的,每一步都需频繁访问已缓存的上下文信息(KV Cache),导致实际计算量较小,但对内存带宽和访问延迟极其敏感。性能瓶颈因此从算力转向内存系统。

那么,推理过程中究竟是Prefill慢还是Decode慢?研究发现答案并非固定,而是取决于输入输出长度。当输入较短时,Decode步骤多,往往成为主要耗时环节;当输入很长时,Prefill的计算量急剧增加,最终可能超越Decode成为延迟主导。这表明性能瓶颈更多由动态工作负载决定,而非模型固有缺陷。

深入模型内部算子层面,瓶颈同样动态变化。在常见上下文长度下,Prefill阶段时间主要消耗在前馈网络(FFN)上;但当上下文特别长时,注意力(Attention)计算因其复杂度增长更快,会逐渐成为主要瓶颈。

Decode阶段的瓶颈则与模型规模紧密相关:对于小模型,频繁访问KV Cache的Attention更易成为瓶颈;对于大模型,由于FFN参数量巨大,加载其权重的内存开销反而更为突出。这意味着不能简单断言“Attention是瓶颈”或“FFN是瓶颈”,必须结合推理阶段、上下文长度和模型规模综合判断。

在性能可预测性方面,Prefill阶段表现出高度规律性:其执行时间与需计算的输入token数量几乎呈完美线性关系。这意味着只要知道输入长度和缓存命中情况,就能较准确预测Prefill延迟,这对系统调度和资源规划极具价值。相比之下,Decode阶段因串行生成和采样不确定性,性能波动更大,预测也更困难。

能耗分析得出了一个关键结论:整个推理过程消耗的能量,几乎全部来自Decode阶段。输入长度对总能耗影响微乎其微,而输出token数量几乎直接决定能耗高低。同时,模型参数越多,总能耗也相应增加。这提示在实际系统中,限制输出长度往往比优化Prefill更能有效降低能耗。

在多GPU扩展性实验中,研究打破了“GPU越多越快”的直觉。Prefill阶段计算密集,多卡并行通常能获益;但Decode阶段每一步计算量小,多卡间通信与同步开销反而可能成为负担,导致性能提升有限甚至下降。因此在Decode为主的场景下,使用单GPU或轻量级流水并行往往是更明智的选择。

论文还分析了新兴推理范式。对于MoE模型,其推理速度主要取决于每次激活的专家参数规模,而非模型总参数量,这带来了性能优势,但Decode阶段会引入额外的专家选择与调度开销。对于RAG工作流,随着外部知识库规模扩大,系统瓶颈会从GPU推理转移到CPU侧的检索与内存访问。尽管流程变复杂,但Prefill与Decode的根本性能差异依然存在,是理解整体行为的关键。

面向系统理解的大模型推理实验框架与方法

为确保结论的坚实与普适,这项研究采用了由表及里的实验设计思路:从观察整体性能表现开始,逐步深入到GPU执行与存储行为,最后将总结出的规律放回真实系统和新型场景中验证。

在实验平台上,研究同时覆盖了数据中心级GPU(A100)和边缘设备GPU(Jetson AGX Orin),以检验性能规律在不同算力与内存约束下是否普遍成立。

模型选择上,覆盖了从7B到32B的主流稠密模型,并引入代表性MoE模型,以观察不同参数量与架构的影响。所有实验均在统一推理框架与精度设置下进行,最大限度减少实现差异的干扰。

工作负载设计颇具匠心,并非运行固定基准测试,而是有针对性地组合了长短不一的输入与输出,刻意营造出Prefill主导或Decode主导的不同场景,从而验证两阶段差异的普适性。

分析方法上,论文采用了分层剖析:首先测量端到端延迟、吞吐与能耗;其次分析Prefill与Decode的时间占比及各算子的贡献;最后利用Roofline模型、Warp停顿分析、缓存命中率与内存带宽数据,从硬件层面定位性能是受限于计算还是内存。这种从现象到根因的逐步深入,使得每一个宏观性能特征都能在底层硬件行为中找到清晰解释。

明确性能规律,指引优化方向

这项工作的核心价值在于构建了一套用于理解大模型推理性能的统一认知框架。它首次将Prefill与Decode的阶段差异确立为系统级基本规律,并证明了这一规律在不同模型、硬件乃至新范式下的普适性。

从工程实践角度看,论文纠正了多个常见误解,例如“Attention永远是瓶颈”、“多GPU一定更快”、“Prefill是主要能耗来源”等,并提供了明确的机制解释与反例。这些结论对推理服务的实际部署策略、资源配置与成本控制具有直接指导意义。

从系统研究视角看,它为后续优化工作提供了清晰的问题分解思路:优化Prefill和优化Decode本质上是两类不同问题,应针对其各自根本瓶颈(计算密集型 vs. 内存访问密集型)分别设计机制。这一思想对调度器设计、并行策略选择以及新硬件特性利用都具有重要启发。

面向未来,研究指出了MoE和RAG等新范式如何重塑系统瓶颈,提示研究者在进行模型与系统协同设计时,需要额外关注路由开销、内存局部性以及CPU-GPU协同等问题,而不仅仅是追求算力规模堆砌。

总而言之,这是一篇以扎实实验为基础、以揭示机理为核心、以构建系统认知为目标的论文。它的意义在于回答了“大模型推理为何如此表现”这一根本问题,从而为“如何让它变得更好”指明了更具深度的探索方向。

研究团队与作者背景

本项研究的通讯作者是中国科学院计算技术研究所的严明玉教授。他长期从事计算机体系结构研究,方向涵盖图机器学习、设计空间探索以及复杂计算系统的性能分析。

在学术研究方面,严明玉教授已在MICRO、HPCA、DAC、ICCAD、IJCAI、IEEE TC、IEEE TPDS等国际顶级会议与期刊上发表近20篇论文,成果覆盖体系结构、系统与应用交叉等多个领域。

除了科研工作,严明玉教授也是IEEE和中国计算机学会(CCF)的高级会员,并多次担任HPCA、ISCA、MICRO、IJCAI、ISPASS等国际会议的技术程序委员会委员或审稿人,积极参与学术社区建设。他于中国科学院大学获得博士学位,期间曾赴美国加州大学圣塔芭芭拉分校联合培养,其博士论文曾获中国计算机学会优秀博士论文奖。此外,他还入选了北京市科技新星计划、中国科学院青年创新促进会等人才项目。

总体而言,严明玉教授的研究长期致力于从系统视角出发,通过深入实验与硬件行为分析,揭示复杂计算负载在硬件平台上的执行规律与瓶颈成因,其工作兼具理论深度与工程实践价值。

来源:https://www.leiphone.com/category/academic/6IlI4YnUgmE2ru6N.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

双阶段方案让虚拟图像骗过AI眼睛游戏画面以假乱真
AI
双阶段方案让虚拟图像骗过AI眼睛游戏画面以假乱真

你是否好奇,游戏《GTA》中飞驰的汽车与现实中监控摄像头拍下的车辆,在人工智能的“视觉系统”里究竟有多大差别?尽管现代游戏画面已极为逼真,光影、材质与场景构建都栩栩如生,但对于自动驾驶、交通监控、智慧城市管理等需要落地应用的AI算法而言,虚拟游戏图像与真实世界照片之间,依然横亘着一道肉眼难以分辨、却

热心网友
05.16
港大与京东探索院联手优化视频AI四步提升实用体验
AI
港大与京东探索院联手优化视频AI四步提升实用体验

这项由香港大学、京东探索研究院、清华大学、北京大学和浙江大学联合完成的研究,以技术报告形式发布于2026年4月,论文编号为arXiv:2604 25427,有兴趣深入了解的读者可通过该编号查询完整原文。 你是否曾尝试用AI生成视频,却对结果感到失望?画面与描述不符、人物肢体扭曲、场景光影闪烁,最终视

热心网友
05.16
数据表描述不一致导致AI检索失败?伦斯勒理工与亚利桑那州立大学提出修复方案
AI
数据表描述不一致导致AI检索失败?伦斯勒理工与亚利桑那州立大学提出修复方案

2026年4月,一项由伦斯勒理工学院与亚利桑那州立大学联合开展的研究,在arXiv预印本平台发布(编号:arXiv:2604 24040v1),系统性地揭示并量化了AI表格检索领域一个长期存在的“盲点”——表格序列化格式对检索性能的巨大影响。 一、格式不同,AI就“认不出”同一张表格了? 设想一个典

热心网友
05.16
腾讯混元AI新突破:实时自适应系统取代传统固定模型
AI
腾讯混元AI新突破:实时自适应系统取代传统固定模型

腾讯混元团队提出新方法,使模型在推理时能根据输入动态生成参数,实现实时适配。实验表明,该方法在图像编辑任务中效果显著,能有效处理冲突需求,并在多项评测中领先,推动了智能模型从静态向动态演进。

热心网友
05.16
北大林宙辰团队ICLR 2026研究:基于最优传输的时序预测模型训练方法
AI
北大林宙辰团队ICLR 2026研究:基于最优传输的时序预测模型训练方法

北京大学团队提出DistDF损失函数,基于最优传输理论对齐预测与真实标签的联合分布,规避传统逐点损失中的独立性假设,实现无偏训练。该方法能有效捕捉序列整体形态与结构,兼容多种模型,在实验中展现出更优性能。

热心网友
05.16

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

松应科技发布ORCA Lab 1.0 国产物理AI操作系统替代方案
AI
松应科技发布ORCA Lab 1.0 国产物理AI操作系统替代方案

英伟达Omniverse定位为物理AI操作系统。松应科技推出ORCALab1 0,旨在构建基于国产GPU的物理AI训练体系。针对机器人行业数据成本高、仿真迁移难的问题,平台提出“1:8:1黄金数据合成策略”,并通过高精度仿真提升数据可用性。平台将仿真与训练集成于个人设备,降低开发门槛,核心战略是在英伟达生态垄断下推动国产替。

热心网友
05.16
Concordium CCD币全面解析:发行机制、应用场景与投资前景
web3.0
Concordium CCD币全面解析:发行机制、应用场景与投资前景

Concordium是一个注重合规与隐私的区块链平台,其原生代币为CCD。该平台通过内置身份验证机制平衡隐私与监管要求,旨在服务企业级应用。CCD用于支付交易手续费、网络治理及生态内服务结算。其经济模型包含释放与销毁机制,以维持代币价值稳定。项目在合规金融、供应链、数字身份等领域有应用潜力。

热心网友
05.16
上海人工智能实验室联合商汤共建AI全链路验证平台与生态社区
AI
上海人工智能实验室联合商汤共建AI全链路验证平台与生态社区

上海人工智能实验室联合多家机构发起国产软硬件适配验证计划,致力于打造覆盖AI全流程的验证平台与自主生态社区。该平台旨在解决国产算力与应用协同难题,构建从芯片到应用的全链路验证体系,支持多种软硬件适配,推动国产AI技术向“好用、易用”发展。商汤科技依托AI大装置深度参与,已。

热心网友
05.16
达闼科技陨落一周年回顾具身智能独角兽兴衰启示录
AI
达闼科技陨落一周年回顾具身智能独角兽兴衰启示录

具身智能行业资本火热,但曾估值超200亿元的达闼科技迅速崩塌。其失败主因在于创始人黄晓庆以通信行业思维经营机器人业务,过度依赖政商关系与资本运作,技术产品突破有限;同时股权结构复杂分散,倚重政府基金,最终因融资断档与商业化不足导致团队离散。这折射出第一代创业者跨。

热心网友
05.16
大厂学术霸权引争议 TurboQuant事件暴露学界困境如何破局
AI
大厂学术霸权引争议 TurboQuant事件暴露学界困境如何破局

TurboQuant论文被质疑弱化与RaBitQ的关联,并存在理论比较与实验公平性问题。谷歌借助平台影响力将其定义为突破性成果,凸显了大厂在学术生态中的结构性优势。类似争议在伦理AI、芯片等领域亦有体现,反映了产业界将利益嵌入研究流程的机制。当前AI研究日益由大厂主导,其通过资本、渠道与话语权塑造。

热心网友
05.16