首页 游戏 软件 资讯 排行榜 专题
首页
AI
腾讯混元AI开源Infra核心技术,推理吞吐提升30%实战解析

腾讯混元AI开源Infra核心技术,推理吞吐提升30%实战解析

热心网友
87
转载
2026-02-04

2月4日,业界领先的科技媒体IT之家发布重要消息:腾讯混元AI基础设施团队正式宣布,开源一款面向生产环境的高性能大语言模型推理核心算子库——HPC-Ops。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

该算子库致力于解决实际生产中的性能瓶颈,其底层完全基于CUDA和CuTe从零构建。通过引入抽象的工程架构设计、深度适配的微架构以及指令级极致优化等技术手段,它不仅显著降低了底层算子开发的难度,更将核心算子的性能推向硬件极限,实现了在推理效率上的实质性突破。

腾讯混元AI Infra核心技术开源,推理吞吐提升30%

上图展示了HPC-Ops算子库的整体架构设计。

在真实业务场景的测试中,HPC-Ops展现出了卓越的性能提升。基于该库,混元大模型的查询吞吐率提升了高达30%,而DeepSeek模型的查询吞吐率也获得了17%的显著增长。在单一算子性能对比上,HPC-Ops更是优势明显:其Attention算子相比FlashInfer / FlashAttention,最高实现了2.22倍的性能提升;GroupGEMM算子相较于DeepGEMM,最高提升达1.88倍;FusedMoE算子对比TensorRT-LLM,最高也有1.49倍的性能飞跃。

面向未来,HPC-Ops团队的开发规划将继续专注于突破大模型推理的性能边界:

一方面,团队将重点研发稀疏Attention算子,旨在针对性解决长上下文大模型面临的内存与算力瓶颈,让模型能够更高效地处理更长的序列。

另一方面,HPC-Ops将持续拓展更丰富的量化策略支持,计划覆盖包括4比特/8比特混合精度在内的更多量化方案,以进一步平衡推理速度与模型精度之间的关系,为用户提供更多样化的性能与精度取舍选择。

此外,该算子库还将布局计算-通信协同优化的核心内核。通过深度融合多GPU间的计算逻辑与通信流程,预期将大幅降低分布式推理场景下的通信开销,从而为超大规模模型的高效部署与推理提供坚实的底层系统支撑。

HPC-Ops项目已在GitHub平台开源。

来源:https://tech.ifeng.com/c/8qTWr6Z36j8
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

摩尔线程S5000通过FlagOS训练验证,精度超主流1.65个百分点
科技数码
摩尔线程S5000通过FlagOS训练验证,精度超主流1.65个百分点

北京商报讯(记者 王蔓蕾)近日,北京智源人工智能研究院(以下简称 "智源研究院 ")正式发布重磅验证成果:六款AI芯片、三大模型、同构+异构千卡——众智FlagOS以统一技术栈完成AI训练 "全要素 "验证

热心网友
03.27
Sand.ai开源MagiCompiler:突破编译瓶颈,定义训推性能新高度
AI
Sand.ai开源MagiCompiler:突破编译瓶颈,定义训推性能新高度

机器之心发布大模型开发者常面临一个两难选择:要速度,还是省显存?通常情况下,想要跑得快,显存会爆;想省点显存,计算效率又会被频繁的同步和流水线气泡大幅拖垮。原生的 torch compile 虽然好

热心网友
03.26
英伟达变革:7天进化为智能体,重塑工程师与GPU专家格局
AI
英伟达变革:7天进化为智能体,重塑工程师与GPU专家格局

机器之心编辑部这应该是今天刚刚出炉的、最炸裂的文章。在很多算子开发的微信群组,已经掀起了轩然大波。「这或许是超人类智能在软件领域的真正首次展露。」英伟达许冰刚刚在 X 上发出了如此断言。他所评论的,

热心网友
03.26
Sand.ai发布MagiAttention,定义分布式注意力性能新标杆
AI
Sand.ai发布MagiAttention,定义分布式注意力性能新标杆

机器之心编辑部2025 年 4 月,Sand ai 开源了 MagiAttention v1 0 0,定义了下一代分布式 Attention 的全新设计和系统框架。历经一年的深耕,今天Sand ai

热心网友
03.26
华为昇腾平台验证:深圳AI算力加速139倍重大突破
科技数码
华为昇腾平台验证:深圳AI算力加速139倍重大突破

2026年伊始,全球AI算力战场烽烟再起。英伟达依托CUDA生态形成了近乎垄断的技术壁垒,“缺芯少魂”仍是中国AI产业发展的现实挑战。在此背景下,深圳市大数据研究院持续深耕人工智能等前沿科技领域,并

热心网友
03.09

最新APP

恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26

热门推荐

小米18 Pro Max终极爆料:2亿像素主摄配高端全面光学
网络安全
小米18 Pro Max终极爆料:2亿像素主摄配高端全面光学

3 月 30 日,数码圈内放出 小米 18 Pro Max 的影像爆料 终极干货,新一代超大杯旗舰影像硬件彻底官宣定稿,搭载 22nm 工艺打造 2 亿像素超大底传感器,规格 1 1 28 英寸

热心网友
03.30
固态硬盘一定要分区吗?不分区的影响与实际建议
电脑教程
固态硬盘一定要分区吗?不分区的影响与实际建议

给电脑换了新固态硬盘,或者买了台全新的台式机 笔记本电脑,很多人都在纠结是否要给固态硬盘分区,尤其是从机械硬盘时代过渡过来的人,总认为分区是保障电脑流畅、数据安全的必要操作,抑或是强迫症使然。但实际

热心网友
03.30
PPT导入Excel表格:3种高效方法详解
手机教程
PPT导入Excel表格:3种高效方法详解

在制作ppt时,常常需要插入excel表格来展示数据。那么,ppt怎么插入excel表格呢?其实方法很简单。首先,打开你的ppt文档,将光标定位到想要插入表格的页面。然后,点击“插

热心网友
03.30
张雪峰汽车夺冠后咨询火爆!曾因不卖新手遭投诉
编程语言
张雪峰汽车夺冠后咨询火爆!曾因不卖新手遭投诉

3月30日消息,近日,在世界超级摩托车锦标赛(WSBK)中量级赛事(葡萄牙站)中,法国车手Valentin Debise驾驶张雪机车820RR-RS车型,以领先近4秒的优势强势夺冠,创造历史。而在第

热心网友
03.30
九华曌奇幻华灯获取攻略与快速入手技巧
游戏攻略
九华曌奇幻华灯获取攻略与快速入手技巧

无限暖暖2 2版本更新之后开启了全新的区域万相境可以让玩家们来探索,地图上有着许多位置不同的奇想华灯可以让玩家们来收集并获取,不少小伙伴想要知道九华阙奇想华灯怎么获取,今天小编将给

热心网友
03.30