腾讯混元开源HPC-Ops：打造高性能LLM推理核心算力库

腾讯混元 AI Infra 团队正式开源面向生产环境的高性能大语言模型（LLM）推理核心算子库 HPC-Ops。该库直击工业级部署中的实际瓶颈，完全基于 CUDA 与 CuTe 从

腾讯混元 AI Infra 团队正式开源了适用于生产环境的高性能大语言模型（LLM）推理核心算子库 HPC-Ops。该库直接瞄准工业级部署中的实际瓶颈，从底层着手，基于 CUDA 和 CuTe 进行完全重构，融合了工程架构抽象化设计、GPU 微架构深度适配以及指令级精细化调优等多重技术手段。在显著降低底层算子开发复杂度的同时，推动关键算子性能逼近硬件理论极限，实现实质性的性能跃升。

根据最新介绍，HPC-Ops 是一套轻量、高吞吐、低延迟的 LLM 推理算子集合，专为大规模型服务场景优化。其核心模块覆盖：FusedMoE（融合专家混合）、Attention（注意力机制）、设备内/跨设备通信（Intra-/Inter-node Communication）、Norm（归一化）、Sampler（采样器），以及对多种高频小算子的深度融合实现。团队通过深入剖析典型推理任务的数据流特征与 GPU 硬件微架构特性，精确匹配计算划分子策略与底层指令执行模型，从而释放更高并行效率；同时对工程代码层进行合理抽象，使算法工程师可更专注于模型逻辑与算子语义设计，大幅缩减后续迭代与维护成本。

HPC-Ops 算子库整体架构如下：

腾讯混元 AI Infra 团队开源 HPC-Ops，高性能 LLM 推理核心算子库

腾讯混元 AI Infra 团队披露的实际测试数据显示：在真实业务负载下，搭载 HPC-Ops 后，混元系列模型推理 QPM（每分钟查询数）提升达 30%，DeepSeek 系列模型 QPM 提升 17%。单算子维度表现尤为突出——Attention 算子相比 FlashInfer / FlashAttention 最高提速 2.22 倍；GroupGEMM 相比 DeepGEMM 最高提速 1.88 倍；FusedMoE 相比 TensorRT-LLM 最高提速 1.49 倍。

开源地址：

腾讯混元开源HPC-Ops：打造高性能LLM推理核心算力库

相关推荐

同类最新

OpenClaw手机App上线，结果翻车了

优必选CEO周剑：家庭机器人生态核心投入过半精力

CPO/NPO/OIO开启封装级光连接价值空间，技术路线尚未收敛

龙岗AR实景剧本游内测体验短板有效破解之道

南下资金6月30日净买入中芯国际与建滔积层板