腾讯混元开源HPC-Ops:打造高性能LLM推理核心算力库
腾讯混元 AI Infra 团队正式开源了适用于生产环境的高性能大语言模型(LLM)推理核心算子库 HPC-Ops。该库直接瞄准工业级部署中的实际瓶颈,从底层着手,基于 CUDA 和 CuTe 进行完全重构,融合了工程架构抽象化设计、GPU 微架构深度适配以及指令级精细化调优等多重技术手段。在显著降低底层算子开发复杂度的同时,推动关键算子性能逼近硬件理论极限,实现实质性的性能跃升。
根据最新介绍,HPC-Ops 是一套轻量、高吞吐、低延迟的 LLM 推理算子集合,专为大规模型服务场景优化。其核心模块覆盖:FusedMoE(融合专家混合)、Attention(注意力机制)、设备内/跨设备通信(Intra-/Inter-node Communication)、Norm(归一化)、Sampler(采样器),以及对多种高频小算子的深度融合实现。团队通过深入剖析典型推理任务的数据流特征与 GPU 硬件微架构特性,精确匹配计算划分子策略与底层指令执行模型,从而释放更高并行效率;同时对工程代码层进行合理抽象,使算法工程师可更专注于模型逻辑与算子语义设计,大幅缩减后续迭代与维护成本。
HPC-Ops 算子库整体架构如下:

腾讯混元 AI Infra 团队披露的实际测试数据显示:在真实业务负载下,搭载 HPC-Ops 后,混元系列模型推理 QPM(每分钟查询数)提升达 30%,DeepSeek 系列模型 QPM 提升 17%。单算子维度表现尤为突出——Attention 算子相比 FlashInfer / FlashAttention 最高提速 2.22 倍;GroupGEMM 相比 DeepGEMM 最高提速 1.88 倍;FusedMoE 相比 TensorRT-LLM 最高提速 1.49 倍。
开源地址:
热门专题
热门推荐
陆瑾是《异人之下》手游中操作门槛较高的角色,主打中近距离压制。其核心在于普攻攒炁,并衔接常技【太冲震恚】与【曲泉交忿】进行输出。关键技能【五雷符】可攻可守,成功防御反击可重置冷却。连招依赖“反手”逻辑与精准预判,形成攻防循环。投技【双龙探爪】与【戾走急脉】则需把握时机,分别用于破防与针。
投资策略需要明确目标与风险偏好,合理分配资金。通过研究项目基本面、关注市场周期与情绪,建立多元化组合。执行中需设定清晰的买卖规则,利用工具辅助决策,并保持长期视角与纪律性,避免情绪化操作。定期复盘与调整是策略持续有效的关键。
巴伦是《异人之下》手游中的近战压制型角色,核心玩法在于追击与倒地连招。其技能“破势突击”衔接流畅,“极速连斩”可追击倒地目标,“飞身十字固”抓取伤害高,“逆势突围”用于防守反击。角色操作上限高,需练习掌握连招循环,但对战远程角色时较为吃力。
谷歌宣布Gemini3 5Pro模型下月发布,已在内部广泛使用且进步显著。具体技术细节、性能参数及开放计划尚未公布,更多信息将于下月揭晓。
谷歌在2026年I O大会上推出月费100美元的新AI订阅计划,旨在填补其现有20美元与250美元两档服务之间的市场空白。该计划面向需要更多资源的高级用户和小型团队,提供比基础版更强的性能,同时避免企业级的高昂成本,以竞争中高端市场。





