腾讯混元开源HPC-Ops:打造高性能LLM推理核心算力库
腾讯混元 AI Infra 团队正式开源了适用于生产环境的高性能大语言模型(LLM)推理核心算子库 HPC-Ops。该库直接瞄准工业级部署中的实际瓶颈,从底层着手,基于 CUDA 和 CuTe 进行完全重构,融合了工程架构抽象化设计、GPU 微架构深度适配以及指令级精细化调优等多重技术手段。在显著降低底层算子开发复杂度的同时,推动关键算子性能逼近硬件理论极限,实现实质性的性能跃升。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
根据最新介绍,HPC-Ops 是一套轻量、高吞吐、低延迟的 LLM 推理算子集合,专为大规模型服务场景优化。其核心模块覆盖:FusedMoE(融合专家混合)、Attention(注意力机制)、设备内/跨设备通信(Intra-/Inter-node Communication)、Norm(归一化)、Sampler(采样器),以及对多种高频小算子的深度融合实现。团队通过深入剖析典型推理任务的数据流特征与 GPU 硬件微架构特性,精确匹配计算划分子策略与底层指令执行模型,从而释放更高并行效率;同时对工程代码层进行合理抽象,使算法工程师可更专注于模型逻辑与算子语义设计,大幅缩减后续迭代与维护成本。
HPC-Ops 算子库整体架构如下:

腾讯混元 AI Infra 团队披露的实际测试数据显示:在真实业务负载下,搭载 HPC-Ops 后,混元系列模型推理 QPM(每分钟查询数)提升达 30%,DeepSeek 系列模型 QPM 提升 17%。单算子维度表现尤为突出——Attention 算子相比 FlashInfer / FlashAttention 最高提速 2.22 倍;GroupGEMM 相比 DeepGEMM 最高提速 1.88 倍;FusedMoE 相比 TensorRT-LLM 最高提速 1.49 倍。
开源地址:
热门专题
热门推荐
Sharkoon旋刚推出双模全配列机械键盘OfficePal K70W 机械键盘市场又添新选择。日前,Sharkoon旋刚正式发布了旗下新款双模全配列机械键盘——OfficePal K70W。这款产品为用户提供了段落有声和线性静音两种轴体选项,值得一提的是,无论是哪种轴体,官方标称的按键寿命都达到了
风车动漫最新在线网入口地址是https: www fcdman com ,该平台提供海量动画资源、流畅观看体验及便捷功能,如多类型番剧、无广告播放、进度记忆和快速更新等。风车动漫
什么是晨星烛台形态?晨星蜡烛图形态详细介绍 什么是晨星烛台形态? 在股票、外汇乃至加密货币市场上,交易者们常常睁大眼睛寻找趋势反转的蛛丝马迹。其中,晨星烛台形态就是一个备受青睐的看涨反转信号。它通常出现在一波下跌行情即将衰竭的末端,像黎明前的第一道曙光,暗示着市场情绪可能正在悄然转变。 典型的晨星形
在当今数字化的时代,社交平台成为了人们生活中不可或缺的一部分。而小红书app,凭借其独特的内容分享模式和丰富多样的生活资讯,吸引了无数用户的关注。你是否想知道如何快速便捷地登录小红
曝苹果2026年还将发布十多款新品 iPhone Fold领衔 本周,随着新款MacBook Air、MacBook Pro以及iPhone 17e等多达七款产品搭载M5芯片亮相,苹果今年的首轮产品攻势算是告一段落了。但这远不是终点,事实上,今年的好戏才刚刚拉开序幕。 目光转向桌面端,Studio





