游乐游手机版
首页/AI热点日报/热点详情

腾讯混元AI Infra优化Hy3 Preview推理性能技术解析

类型:热点整理2026-07-04
当前大语言模型正朝着千亿参数规模与百万级上下文窗口快速演进,推理效率已成为制约落地的核心挑战。更庞大的模型体量、更长的序列长度、更复杂的MoE稀疏架构虽带来了能力质的飞跃,却也大幅加剧了算力消耗、显存占用与通信压力。 腾讯混元Hy3 preview作为新一代旗舰大模型,采用GQA + MoE混合架构

当前大语言模型正朝着千亿参数规模与百万级上下文窗口快速演进,推理效率已成为制约落地的核心挑战。更庞大的模型体量、更长的序列长度、更复杂的MoE稀疏架构虽带来了能力质的飞跃,却也大幅加剧了算力消耗、显存占用与通信压力。

腾讯混元Hy3 preview作为新一代旗舰大模型,采用GQA + MoE混合架构,原生支持256K超长上下文,面向Agent智能体、智能编码等复杂应用场景。其主力部署卡为NVIDIA Hopper系列,相较于业界主流的Blackwell架构,Hopper卡在算力、显存及超节点互联能力上均处于劣势。这意味着,必须在资源受限的硬件条件下,将长上下文推理性能优化至极致,方能满足SLO约束并实现最优成本。本文旨在分享混元AI Infra推理团队如何从算子层面到系统层面,对Hy3 preview推理全栈实施深度优化。以下将从算子优化与融合、并行策略、多级缓存、MTP与异步调度优化、量化与稀疏五大技术维度,逐一剖析各项方案的设计理念、核心算法及实测收益。

优化成果概览

  • 测试数据集: 5000条真实数据(最大输入192k,平均输入68k;最大输出64k,平均输出0.9k;缓存理论命中率80%)

  • 测试硬件:Hopper架构-96G

  • 约束条件:50ms TPOP,4s TTFT

  • 推理精度: W8A8C8

二、性能优化方案详解

2.1 算子级深度优化

针对Hopper架构特性与Hy3 preview模型结构,团队对Attention、MoE、Rope、Router、Sampler及通信算子进行了系统性深度优化,相关代码已开源在HPC-Ops仓库

2.1.1 Attention动态调度:负载均衡根治推理长尾延迟

问题剖析

线上推理场景呈现显著动态性:请求长度实时波动,batch内长短请求混杂并存。传统静态split-kv方案需在长序列吞吐与短序列开销之间做出固定取舍,难以兼顾两端需求。

动态调度方案设计

  • 所有推理请求按统一Tile粒度拆分,依据全局Tile总量均衡分配各CTA任务负载

  • 通过贪心装桶算法实现Tile任务极致均分,从根源杜绝计算单元负载失衡现象

  • 执行链路中,Task Assign模块在每次推理前生成专属任务映射表,各层Attention Kernel依据映射表精准领取并执行对应任务

  • 最终由Combine Kernel统一合并split-kv计算结果,实现全流程负载均衡与高效协同运算

性能收益数据

  • 单batch长文本场景下,单算子最高加速达2.95x

  • 混合长度batch场景下,加速效果为1.59x~1.76x

2.1.2 Router GEMM:双BF16重构FP32计算,兼顾高精度与高性能

问题背景

在MoE路由及稀疏Attention等数值敏感模块中,传统BF16激活×FP32权重计算面临效率与精度的两难抉择。若将权重降级,模型精度会受损;若将激活升频至FP32/TF32,则需引入类型转换开销,且CUDA Core算力带宽有限,硬件利用率偏低。

解决方案

  1. 离线阶段将FP32权重拆分为高位BF16与低位残差BF16两组张量:W ≈ W_high + scale × W_low(scale = 1/256,对齐BF16的8位尾数)。

  2. 推理阶段执行两次BF16 GEMM并做线性组合,激活值全程保持BF16格式,无需类型转换,均运行在BF16 Tensor Core之上。

  3. 实现层面,双路计算融合至单一Kernel:输入数据仅搬运一次,双寄存器累加器分别缓存两路中间结果,Epilogue阶段经一次FFMA修正出高精度结果写入显存,全程无HBM往返,无冗余开销。

性能收益:N=192、K=4096规格下,在M=2~4096范围内相比FP32(cuBLAS)实现获得2.86x ~ 3.22x加速

2.1.3 FusedMoE:全算子流水线重构,极致压缩推理开销

重构方案设计

HPC-Ops对MoE完整推理链路进行了深度融合与执行逻辑重排,将五大核心阶段整合为一体化执行链路:

  1. 路由与索引预处理:基于共享内存分块统计,为每个专家预留连续显存输出区间,大幅降低大规模Token场景下的索引构建成本。

  2. Gate-Up GEMM:通过路由索引直接读取原始输入,省去显式Gather搬运;取消Warp Specialization,由同一Warp Group完成搬运与计算,将访存掩盖逻辑由CTA内软件流水升级为跨CTA硬件调度,显著提升SM驻留密度与资源利用率。

  3. 激活量化 + Down GEMM:量化结果按专家维度紧凑写入显存,确保Down GEMM高效顺序访存。

  4. Top-K加权聚合:在推理末端完成加权求和,全程无额外HBM往返。

  5. PDL无气泡串联:全流程通过PDL技术构建无气泡执行链路,彻底消除频繁Kernel启动开销。

性能收益数据

  • TP=8 / EP=1场景:相比vLLM CUTLASS、vLLM Triton、SGLang获得1.5x – 1.6x加速

  • TP=1 / EP=8场景:获得1.2x – 1.5x加速

2.2 算子融合优化

2.2.1 Fused Rope+Norm+[Hadamard]+Quant+Store KV

在QKV Projection之后,存在一连串Element-wise算子(Rope、RMSNorm、Hadamard积、量化、KV Cache写入)。这些算子计算量极小、算力强度低,频繁启动Kernel并反复读写HBM会导致严重的访存带宽受限问题,是Prefill阶段不可忽视的延迟来源。

解决思路是将这5个算子深度融合,重构为单一的微型流水线Kernel。数据从HBM载入寄存器后,在片上完成全链路变换,最终只写回一次结果,将多次HBM往返压至最低。

  • 寄存器级数据流转:全流程采用寄存器暂存中间结果,彻底消除中间变量的HBM存取开销。

  • 在线量化与KVCache存储:写入KV Cache前完成在线量化,直接以低比特格式写入显存,进一步压缩写出带宽。

性能收益:融合算子加速约5x

2.2.2 Fused AllReduce+Norm+Add

在张量并行场景下,通信、残差计算与归一化拆分执行会带来性能损耗。联合腾讯网络平台部,实现了通信、残差计算与归一化的全链路融合,封装为NVLink原生一体化操作:RMSNorm(AllReduce(x) + residual, weight)。基于CUDA多播与P2P技术,支持BF16及单机多卡部署,采用高效Two-shot策略。

  • 高吞吐版本(fuse_allreduce_rmsnorm_high_throughput)依托NVSwitch多播机制完成归约计算,适配大规模Token的Prefill预处理场景;

  • 低延迟版本(fuse_allreduce_rmsnorm_low_latency)基于Lamport P2P机制,通过PDL实现双Kernel重叠执行,适配小批量Token的Decode推理场景。

性能收益数据

  • 覆盖8~32k tokens 场景

  • 相比NCCL与FlashInfer同类路径,实测最高加速1.68x

2.2.3 采样融合算子

传统采样后处理链路包含十来个零碎Kernel串联(重复惩罚、温度缩放、Top-K、Top-P、Softmax、随机采样等),流程高度碎片化。每个Kernel都需独立访问全局词表(vocab_size级别),导致HBM加载次数线性膨胀;重复惩罚阶段的掩码数据还需通过CPU-GPU拷贝传输,引入额外同步开销。

优化方案

将10多个Kernel融合为2个核心CUDA Kernel,封装成单一的fused_sampler算子。针对不同业务场景(简单温度采样 / 完整采样),算子内部自动适配专用内核,最大化GPU利用率。

  • 全词表单次加载:将采样全流程所需的全局词表GPU读取压缩至1次,计算与访存充分掩盖。

  • GPU闭环惩罚计算:重复惩罚掩码在GPU内部完成,彻底消除CPU-GPU数据拷贝开销。

  • 细粒度多CTA并行:单请求拆分至多线程块并行执行,提升小Batch场景下的SM并发度。

  • 局部堆归并Top-K:当Max Top-K ≤ 64时,采用局部堆归并替代全局阈值扫描或拒绝采样,避免全词表重复读取。

  • Top-K与Softmax融合:将Top-K归约与Softmax的max/sum计算合并,进一步削减访存与计算开销。

收益数据

融合前效果:

融合后效果:

相比vLLM与FlashInfer中的采样算子,性能提升约5.5x、2.5x

2.2.4 Gemm+Comm细粒度通算融合

针对prefill TPSP并行场景,实现了GEMM与ReduceScatter的细粒度通算融合。SM资源被显式划分为计算SM(执行矩阵乘)与通信SM(执行RS搬运)两类角色:计算SM每产出一个Tile即落盘至本地Buffer,并通过信号量通知通信SM对就绪分片立即发起RS,实现Tile级计算与通信重叠。

在传统Load Warp与MMA Warp之外,特化出专职Epilogue Warp,形成Load → MMA → Epilogue三级流水线:

  1. Load Warp:异步预取下一轮Tile数据

  2. MMA Warp:累加完毕后仅写回SMEM,立即进入下一轮计算

  3. Epilogue Warp:异步取出SMEM结果,完成Quant/Scale等后处理并写回HBM,最后触发通信SM就绪信号

性能收益数据

矩阵形状

分段耗时

端到端耗时

加速比

(M, N, K)

GEMM

RS

串行

本方案

覆盖率

vs 串行

(8k, 4096, 1024)

257.74

250.93

560.12

316.63

76.5%

1.77×

(16k, 4096, 1024)

512.04

480.82

1,096.59

604.98

80.7%

1.81×

(32k, 4096, 1024)

1,016.46

945.63

1,962.30

1,162.79

84.5%

1.69×

(64k, 4096, 1024)

2,026.13

1,846.68

3,872.58

2,307.68

84.8%

1.68×

*本能力由腾讯混元AI Infra团队与腾讯网络平台部联合优化打磨。

2.3 并行策略优化

2.3.1 Prefill并行策略:TPSP

Hy3 preview模型上纯TP8方案会引入三重代价:

  1. 冗余计算:Elementwise / Router等token-wise算子沿完整序列维度在各卡重复执行

  2. 通信过重:AllReduce在8卡间交换全量数据,通信开销显著

  3. 算子畸形:MoE Grouped GEMM被沿hidden维切至极窄shape,计算效率急剧退化

优化方案

在保持单机8卡部署与模型精度不变的前提下,通过SP拆分 + 通算融合 + 通信量化 + 并行模式调整四项技术组合,系统性压缩TTFT。

性能收益数据

场景

优化前 TTFT

优化后 TTFT

节省

降幅

Prefill 16k

764 ms

536 ms

−228 ms

−29.9%

Prefill 32k

1885 ms

1424 ms

−461 ms

−24.5%

2.3.2 Decode并行策略:DP+EP

问题分析

Hy3 preview在单机部署时面临存算双重瓶颈:

  1. 显存被权重占用将近一半,挤压KV Cache空间,直接制约最大并发数

  2. 在小Batch场景下,MoE Grouped GEMM算力强度低,严重受限于访存带宽(Memory-bound)

优化方案

采用Attention DP + MoE EP的跨节点混合并行架构。通过增加专家并行度(EP Size)实现权重的多机分布式存储,腾出显存空间转产为KV Cache吞吐。同时,跨节点聚合Batch Size使Grouped GEMM进入Compute-bound区域,最大化Tensor Core利用率。

  • 自研HPC Kernel,包含gate、route、group gemm、count and gather、combine等核心操作,在Hopper卡上取得SOTA性能

  • 长序列Attn DPTP混合策略,大幅降低DP负载不均衡带来的影响,只需承担少量机内通信的额外开销

  • 异步专家负载均衡 (Async EPLB),利用NCCL P2P异步执行权重重排。将每步仅一层权重的通信逻辑隐藏于前向计算之后,实现权重重排与Decode计算完全重叠,消除通信干预。

  • shared expert拆分与dispatch、combine并行,通信与计算overlap

性能收益:端到端吞吐提升15.7 ~ 44.7%

2.4 多级缓存架构

背景与动机

Agent、Coding等场景中存在大量长上下文、多轮对话及可复用公共前缀,Prefill计算开销直接影响TTFT与整体吞吐。但Prefix Cache若仅依赖GPU显存,会面临四重瓶颈:

  1. 容量受限:权重与运行时占用后,可用于缓存的显存空间极为有限

  2. 淘汰加速:长文请求产生的大体量KV Cache加速已有缓存淘汰

  3. 重复计算:缓存淘汰后相同前缀需重新Prefill,算力浪费严重

  4. 跨实例不可复用:单机缓存在实例迁移、扩缩容、跨节点调度时完全失效

解决方案

构建了GPU → CPU → KVStore三级缓存体系,将KV Cache从单一显存短期缓存扩展为可分层存储、按需加载、跨请求复用的多级架构。在不增加GPU显存占用的前提下,显著扩大有效缓存容量,降低重复Prefill概率。

调度流程:请求进入时按L1→L2→L3顺序查询可复用前缀,命中后按需加载回GPU并跳过对应Prefill;新生成的完整Block根据策略异步下沉至L2/L3,供后续请求复用。

2.5 MTP与异步调度优化

问题剖析

传统异步调度基于"每轮稳定生成1个token"的假设,在GPU计算时让CPU提前准备下一轮输入,掩盖CPU耗时。但多层MTP引入了动态接收长度——下一轮的序列长度、位置编码及KV Cache映射都强依赖验证结果。传统做法需在GPU Forward验证结束后强制同步,把结果拷回CPU再准备下一轮输入,导致CPU准备阶段只能与MTP层Forward重叠;而MTP层计算极快,无法充分掩盖CPU耗时。

优化方案

核心思路:解除CPU对真实接收长度的同步依赖——数据准备阶段一律按最大接收长度更新状态并组装下一轮输入;在下一轮实际计算前,再以上一轮的真实验证结果修正计算所依赖的关键值。这样CPU可提前一轮完成准备与Launch,无需阻塞等待GPU计算结果。

收益数据:减少decode间5~10ms CPU气泡,端到端性能提升10%~20%

2.6 量化压缩技术

2.6.1 量化方案

问题背景

模型规模持续增长,显存瓶颈与访存带宽压力成为部署落地的核心约束。直接应用W4A8量化和Attn FP8量化虽能大幅压缩模型体积,但权重的极低比特表示与激活中的离群值会严重放大量化误差,导致精度显著退化。

解决方案

在AngelSlim框架中构建Hy3 preview量化方案,通过"GPTQ权重重建 + 激活平滑与旋转变换 + QAT轻量化微调"三级联合优化,系统性消除Attn FP8 + W4A8配置下的精度损失。

  • GPTQ逐层权重重建

    • 基于Hessian逆的逐层误差补偿,显著降低INT4权重量化引入的精度损失。

  • 激活平滑(Smooth)

    • 利用搜索得到的逐通道平滑因子,在不改变模型输出的前提下压缩激活离群值幅度,有效收窄数值动态范围。

  • Hadamard在线旋转变换(Attention专用)

    • 对Query/Key量化前施加正交旋转,将集中于少数通道的离群值均匀打散,抑制量化误差;变换本身计算高效、可融合至推理Kernel,几乎零额外开销。

  • QAT轻量化微调

    • 训练中模拟W4A8量化噪声,仅更新量化相关参数(如scale/zero-point),使模型自适应学习最优量化配置。收敛迅速,训练成本极低。

性能收益数据

  • 精度表现:多领域评测集上与BF16基线持平或差距 < 1%,实现精度无损。

  • 性能提升:端到端吞吐提升28%+

2.6.2 稀疏注意力机制

Hy3 preview支持最大256K上下文,但标准自注意力的二次方复杂度导致Prefill阶段延迟和显存开销随序列长度急剧增长,成为制约TTFT的关键瓶颈。

为此,团队提出了Stem稀疏注意力算法,结合HPC-BSA(Block Sparse Attention)算子,在仅使用25%计算预算的条件下实现接近稠密注意力的精度,将128K上下文下的Prefill延迟降低了3.6倍

核心思路:从因果注意力的信息流视角出发,重新审视"哪些token该保留、哪些该剪枝",配合HPC-BSA算子实现上述效果。

Stem整体流程图

两大关键技术

  1. Token Position-Decay(位置衰减策略)

    • 洞察:因果架构中,序列头部token参与了所有后续聚合计算,误差会逐层递归放大;尾部token影响仅局限于局部。

    • 做法:将每个query位置的Top-k预算从头部的k_start线性衰减到尾部的k_end = μ · k_start。头部关键token获得更大预算以保护递归依赖链,尾部冗余token被激进剪枝。

    • 效果:总预算不变,仅通过重新分配即可显著提升精度。

  2. Output-Aware Metric(输出感知度量,OAM)

    • 洞察:传统方法仅基于注意力分数(QK^T)选择token,但注意力分数只反映"路由概率",并非实际"信息贡献"。高注意力但Value模长接近零的token对输出几乎无贡献。

    • 做法:提出OAM度量公式M(i,j) = QK^T + β · max(0, log(‖V_j‖₂)),将Value向量模长作为信号强度引入选择标准。

    • 优势:对数变换使其可直接复用标准Top-k内核,无额外计算开销。

具体方案已集成至AngelSlim

收益数据

模型精度方面,在LongBench v2、CL-bench、SWA等多个数据集上取得了与密集注意力相当的精度。对比密集注意力,在128K上模型首字耗时提升3.6倍

三、后续工作展望

在长上下文场景下,经过一系列优化后仍面临显存瓶颈,为此团队正积极推进C4与W4相关优化,在确保精度无损的前提下,进一步提升推理吞吐能力。

针对超高吐字速度的需求,正在探索全新的并行投机解码方案——在保证接收率的同时,以更低计算代价产出更多投机Token,有望实现吐字速率的大幅跃升。

与此同时,在调度与并行策略、PD高效传输、多级缓存中心、跨机通信与流量控制等关键环节,也在持续进行深入优化。

值得期待的是,团队同步推进对其他硬件平台的适配与优化工作。凭借更优的硬件性价比,推理成本有望进一步降低。

来源:https://www.bestblogs.dev/article/a0f9d2c7?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。