首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
腾讯混元开源HPC-Ops:打造高性能LLM推理核心算力库

腾讯混元开源HPC-Ops:打造高性能LLM推理核心算力库

热心网友
99
转载
2026-01-27

腾讯混元 AI Infra 团队正式开源了适用于生产环境的高性能大语言模型(LLM)推理核心算子库 HPC-Ops。该库直接瞄准工业级部署中的实际瓶颈,从底层着手,基于 CUDA 和 CuTe 进行完全重构,融合了工程架构抽象化设计、GPU 微架构深度适配以及指令级精细化调优等多重技术手段。在显著降低底层算子开发复杂度的同时,推动关键算子性能逼近硬件理论极限,实现实质性的性能跃升。

根据最新介绍,HPC-Ops 是一套轻量、高吞吐、低延迟的 LLM 推理算子集合,专为大规模型服务场景优化。其核心模块覆盖:FusedMoE(融合专家混合)、Attention(注意力机制)、设备内/跨设备通信(Intra-/Inter-node Communication)、Norm(归一化)、Sampler(采样器),以及对多种高频小算子的深度融合实现。团队通过深入剖析典型推理任务的数据流特征与 GPU 硬件微架构特性,精确匹配计算划分子策略与底层指令执行模型,从而释放更高并行效率;同时对工程代码层进行合理抽象,使算法工程师可更专注于模型逻辑与算子语义设计,大幅缩减后续迭代与维护成本。

HPC-Ops 算子库整体架构如下:

腾讯混元 AI Infra 团队开源 HPC-Ops,高性能 LLM 推理核心算子库

腾讯混元 AI Infra 团队披露的实际测试数据显示:在真实业务负载下,搭载 HPC-Ops 后,混元系列模型推理 QPM(每分钟查询数)提升达 30%,DeepSeek 系列模型 QPM 提升 17%。单算子维度表现尤为突出——Attention 算子相比 FlashInfer / FlashAttention 最高提速 2.22 倍;GroupGEMM 相比 DeepGEMM 最高提速 1.88 倍;FusedMoE 相比 TensorRT-LLM 最高提速 1.49 倍。

开源地址:

来源:https://www.php.cn/faq/2038357.html?uid=1246273
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

异人之下手游陆瑾连招技巧 安卓版技能玩法教学
游戏攻略
异人之下手游陆瑾连招技巧 安卓版技能玩法教学

陆瑾是《异人之下》手游中操作门槛较高的角色,主打中近距离压制。其核心在于普攻攒炁,并衔接常技【太冲震恚】与【曲泉交忿】进行输出。关键技能【五雷符】可攻可守,成功防御反击可重置冷却。连招依赖“反手”逻辑与精准预判,形成攻防循环。投技【双龙探爪】与【戾走急脉】则需把握时机,分别用于破防与针。

热心网友
05.20
欧易投资策略指南:新手如何制定稳健的Web3投资计划
web3.0
欧易投资策略指南:新手如何制定稳健的Web3投资计划

投资策略需要明确目标与风险偏好,合理分配资金。通过研究项目基本面、关注市场周期与情绪,建立多元化组合。执行中需设定清晰的买卖规则,利用工具辅助决策,并保持长期视角与纪律性,避免情绪化操作。定期复盘与调整是策略持续有效的关键。

热心网友
05.20
异人之下手游巴伦技能强度解析与安卓实战教程
游戏攻略
异人之下手游巴伦技能强度解析与安卓实战教程

巴伦是《异人之下》手游中的近战压制型角色,核心玩法在于追击与倒地连招。其技能“破势突击”衔接流畅,“极速连斩”可追击倒地目标,“飞身十字固”抓取伤害高,“逆势突围”用于防守反击。角色操作上限高,需练习掌握连招循环,但对战远程角色时较为吃力。

热心网友
05.20
谷歌Gemini 3.5 Pro模型正式发布 性能大幅提升下月上线
AI
谷歌Gemini 3.5 Pro模型正式发布 性能大幅提升下月上线

谷歌宣布Gemini3 5Pro模型下月发布,已在内部广泛使用且进步显著。具体技术细节、性能参数及开放计划尚未公布,更多信息将于下月揭晓。

热心网友
05.20
谷歌AI Ultra订阅计划上线 每月100美元起享高级功能
AI
谷歌AI Ultra订阅计划上线 每月100美元起享高级功能

谷歌在2026年I O大会上推出月费100美元的新AI订阅计划,旨在填补其现有20美元与250美元两档服务之间的市场空白。该计划面向需要更多资源的高级用户和小型团队,提供比基础版更强的性能,同时避免企业级的高昂成本,以竞争中高端市场。

热心网友
05.20