腾讯混元AI开源Infra核心技术，推理吞吐提升30%实战解析_AI热点日报

腾讯混元AI开源Infra核心技术，推理吞吐提升30%实战解析

类型：热点整理2026-02-04

IT之家 2 月 4 日消息，腾讯混元 AI Infra 团队今日宣布推出开源生产级高性能 LLM 推理核心算子库 HPC-Ops。该算子库宣称基于生产环境痛点，采用 CUDA 和 CuTe 从零构

2月4日，业界领先的科技媒体IT之家发布重要消息：腾讯混元AI基础设施团队正式宣布，开源一款面向生产环境的高性能大语言模型推理核心算子库——HPC-Ops。

该算子库致力于解决实际生产中的性能瓶颈，其底层完全基于CUDA和CuTe从零构建。通过引入抽象的工程架构设计、深度适配的微架构以及指令级极致优化等技术手段，它不仅显著降低了底层算子开发的难度，更将核心算子的性能推向硬件极限，实现了在推理效率上的实质性突破。

腾讯混元AI Infra核心技术开源，推理吞吐提升30%

上图展示了HPC-Ops算子库的整体架构设计。

在真实业务场景的测试中，HPC-Ops展现出了卓越的性能提升。基于该库，混元大模型的查询吞吐率提升了高达30%，而DeepSeek模型的查询吞吐率也获得了17%的显著增长。在单一算子性能对比上，HPC-Ops更是优势明显：其Attention算子相比FlashInfer / FlashAttention，最高实现了2.22倍的性能提升；GroupGEMM算子相较于DeepGEMM，最高提升达1.88倍；FusedMoE算子对比TensorRT-LLM，最高也有1.49倍的性能飞跃。

面向未来，HPC-Ops团队的开发规划将继续专注于突破大模型推理的性能边界：

一方面，团队将重点研发稀疏Attention算子，旨在针对性解决长上下文大模型面临的内存与算力瓶颈，让模型能够更高效地处理更长的序列。

另一方面，HPC-Ops将持续拓展更丰富的量化策略支持，计划覆盖包括4比特/8比特混合精度在内的更多量化方案，以进一步平衡推理速度与模型精度之间的关系，为用户提供更多样化的性能与精度取舍选择。

此外，该算子库还将布局计算-通信协同优化的核心内核。通过深度融合多GPU间的计算逻辑与通信流程，预期将大幅降低分布式推理场景下的通信开销，从而为超大规模模型的高效部署与推理提供坚实的底层系统支撑。

HPC-Ops项目已在GitHub平台开源。

来源：https://tech.ifeng.com/c/8qTWr6Z36j8

算子模型精度

延伸阅读

补充最近整理过的热点入口。

腾讯混元AI开源Infra核心技术，推理吞吐提升30%实战解析

相关热点

延伸阅读