腾讯混元AI开源Infra核心技术,推理吞吐提升30%实战解析
2月4日,业界领先的科技媒体IT之家发布重要消息:腾讯混元AI基础设施团队正式宣布,开源一款面向生产环境的高性能大语言模型推理核心算子库——HPC-Ops。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
该算子库致力于解决实际生产中的性能瓶颈,其底层完全基于CUDA和CuTe从零构建。通过引入抽象的工程架构设计、深度适配的微架构以及指令级极致优化等技术手段,它不仅显著降低了底层算子开发的难度,更将核心算子的性能推向硬件极限,实现了在推理效率上的实质性突破。

上图展示了HPC-Ops算子库的整体架构设计。
在真实业务场景的测试中,HPC-Ops展现出了卓越的性能提升。基于该库,混元大模型的查询吞吐率提升了高达30%,而DeepSeek模型的查询吞吐率也获得了17%的显著增长。在单一算子性能对比上,HPC-Ops更是优势明显:其Attention算子相比FlashInfer / FlashAttention,最高实现了2.22倍的性能提升;GroupGEMM算子相较于DeepGEMM,最高提升达1.88倍;FusedMoE算子对比TensorRT-LLM,最高也有1.49倍的性能飞跃。
面向未来,HPC-Ops团队的开发规划将继续专注于突破大模型推理的性能边界:
一方面,团队将重点研发稀疏Attention算子,旨在针对性解决长上下文大模型面临的内存与算力瓶颈,让模型能够更高效地处理更长的序列。
另一方面,HPC-Ops将持续拓展更丰富的量化策略支持,计划覆盖包括4比特/8比特混合精度在内的更多量化方案,以进一步平衡推理速度与模型精度之间的关系,为用户提供更多样化的性能与精度取舍选择。
此外,该算子库还将布局计算-通信协同优化的核心内核。通过深度融合多GPU间的计算逻辑与通信流程,预期将大幅降低分布式推理场景下的通信开销,从而为超大规模模型的高效部署与推理提供坚实的底层系统支撑。
HPC-Ops项目已在GitHub平台开源。
相关攻略
北京商报讯(记者 王蔓蕾)近日,北京智源人工智能研究院(以下简称 "智源研究院 ")正式发布重磅验证成果:六款AI芯片、三大模型、同构+异构千卡——众智FlagOS以统一技术栈完成AI训练 "全要素 "验证
机器之心发布大模型开发者常面临一个两难选择:要速度,还是省显存?通常情况下,想要跑得快,显存会爆;想省点显存,计算效率又会被频繁的同步和流水线气泡大幅拖垮。原生的 torch compile 虽然好
机器之心编辑部这应该是今天刚刚出炉的、最炸裂的文章。在很多算子开发的微信群组,已经掀起了轩然大波。「这或许是超人类智能在软件领域的真正首次展露。」英伟达许冰刚刚在 X 上发出了如此断言。他所评论的,
机器之心编辑部2025 年 4 月,Sand ai 开源了 MagiAttention v1 0 0,定义了下一代分布式 Attention 的全新设计和系统框架。历经一年的深耕,今天Sand ai
2026年伊始,全球AI算力战场烽烟再起。英伟达依托CUDA生态形成了近乎垄断的技术壁垒,“缺芯少魂”仍是中国AI产业发展的现实挑战。在此背景下,深圳市大数据研究院持续深耕人工智能等前沿科技领域,并
热门专题
热门推荐
3 月 30 日,数码圈内放出 小米 18 Pro Max 的影像爆料 终极干货,新一代超大杯旗舰影像硬件彻底官宣定稿,搭载 22nm 工艺打造 2 亿像素超大底传感器,规格 1 1 28 英寸
给电脑换了新固态硬盘,或者买了台全新的台式机 笔记本电脑,很多人都在纠结是否要给固态硬盘分区,尤其是从机械硬盘时代过渡过来的人,总认为分区是保障电脑流畅、数据安全的必要操作,抑或是强迫症使然。但实际
在制作ppt时,常常需要插入excel表格来展示数据。那么,ppt怎么插入excel表格呢?其实方法很简单。首先,打开你的ppt文档,将光标定位到想要插入表格的页面。然后,点击“插
3月30日消息,近日,在世界超级摩托车锦标赛(WSBK)中量级赛事(葡萄牙站)中,法国车手Valentin Debise驾驶张雪机车820RR-RS车型,以领先近4秒的优势强势夺冠,创造历史。而在第
无限暖暖2 2版本更新之后开启了全新的区域万相境可以让玩家们来探索,地图上有着许多位置不同的奇想华灯可以让玩家们来收集并获取,不少小伙伴想要知道九华阙奇想华灯怎么获取,今天小编将给





