新华三发布推理场景加速方案,破局大模型显存焦虑
新华三将持续在AI Infra领域深耕,提供更多针对不同场景,设计基于不同加速层级、不同加速介质等技术路线的推理加速方案,帮助企业和开发者更轻松地应对大模型落地应用的复杂性和规模挑战,推动AI技术在更多领域的应用和创新。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
据多家权威研究机构最新研判,2026年核心存储供应链的结构性短缺已成行业刚性现实,供需缺口持续扩大且很可能延续至2027年。不仅是存储部件的单点问题,当前,生成式AI正从技术尝鲜全面走向规模化落地,大模型技术的应用场景正在从训练为主转向训推并重和轻量推理,PD分离、KVCache等技术的规模化应用在持续提升推理效率的同时,对高带宽、大容量的GPU内存提出了极致严苛的要求,显存资源紧张带来的行业焦虑正在持续蔓延。叠加存储部件供应短缺与价格跳升的双重压力,AI产业发展面临严峻的资源与成本挑战,单纯依靠“力大砖飞”的硬件堆叠,不仅会大幅推高每token成本,更受供应链产能制约难以为继,严重影响产业良性发展。
因此,通过软硬件协同优化提升GPU等关键部件的使用效率,成为破解内存供应链短缺焦虑、降低总体拥有成本的核心路径。
破局困境·架构解密:新华三打造智算推理新引擎
当前,大模型推理面临的发展困境已不可回避:模型对算力与显存的需求呈指数级增长,然而堆叠GPU硬件所带来的成本与能效压力,严重制约技术的可持续发展。尤其在处理长文本、多轮对话等场景时,模型为保存上下文而生成的KV Cache(键值缓存)会急剧膨胀,不仅大量占用宝贵的GPU显存,更导致大量重复计算,成为制约响应速度、推高运营成本的瓶颈。
直面成本与效率的核心痛点,紫光股份旗下新华三集团打造出效能兼备的大模型推理场景加速方案。通过其自研的定制化ASIC芯片提供硬件级加速,将KV Cache从GPU内存卸载到指定存储节点,构建专为AI设计的“下一代内存层”,减轻GPU显存的压力,从而在系统层面实现了存算资源的新平衡。新华三凭借自身强大的硬件集成与全栈优化能力,驱动业内前沿科技与自研AI服务器的创新耦合,经过深度的测试调优最终形成了大模型推理加速的最佳实践,为业界提供了一条性能与成本兼顾的全新推理范式。
从部署形态来看,本方案既支持单机形态部署,直接提高单台AI服务器的推理性能。也支持通过外置存储节点的方式同时对接多台AI服务器,提高集群的推理性能。

实测验证·性能跃升:核心指标翻倍,推升深度推理新速度
为深入探究本方案中KV Cache卸载对推理性能的提升,新华三基于自研高性能AI服务器进行基准测试,重点关注在同一机型上,运行DeepSeek-V3-671B模型时,采用标准推理服务和采用KV Cache卸载加速方案的两种模式下的性能差异,分别构建10K和30K的文本输入,模拟实际应用场景中的多轮对话推理过程,以确保测试结果具有实际参考价值。经多轮验证,采用KV Cache卸载加速方案的推理核心指标显著优化:
•并发用户数提升200%:在相同TPOT(每个Token生成的平均延迟,ms)限制下,同样的算力资源可支持的并发数显著提升,保障用户体验的同时支持服务更多的用户。
•推理延迟大幅降低:TTFT(首Token生成的延迟,ms)降低70%,TPOT(每个Token生成的平均延迟,ms)降低30%,大幅缩短响应延迟,提升用户体验。

场景适配·全域覆盖:贴合企业GenAI落地需求
•交互式应用(多轮对话):如聊天机器人、智能客服等。这类应用中,用户与模型的交互是多轮的,后续轮次的输入通常依赖于前序对话的上下文。通过快速加载存储历史 KV Cache,能够大幅缩短响应延迟,提升用户体验。
•长上下文处理:对于需要处理数千甚至数万Tokens上下文的任务(如长文档问答、代码生成、复杂指令理解),GPU内存容量往往成为瓶颈。本方案提供的PB级KV Cache扩展能力,使得处理这类长上下文任务更为从容,避免了因GPU内存不足导致的性能下降或任务失败。
•高并发推理服务:在面向大量用户的在线推理服务中,系统需要同时处理多个并发请求。本方案通过高效的KV Cache管理,能够支持更多并发会话,显著提高系统的整体吞吐量(RPS),从而在相同的GPU资源下服务更多用户。
随着模型规模的扩大和用户基数的扩张,大模型推理效率正成为AI基础设施性能的关键指标。新华三凭借多年来在AI领域的技术创新与实践探索推出推理加速方案,并进行精心的调优实践,充分验证了该方案在提升推理效率方面的显著优势,进一步加速GenAI应用的发展。
GenAI时代,推理加速注定是一条持续提升、永无止境的创新之路。面向未来,新华三将持续在AI Infra领域深耕,提供更多针对不同场景,设计基于不同加速层级、不同加速介质等技术路线的推理加速方案,帮助企业和开发者更轻松地应对大模型落地应用的复杂性和规模挑战,推动AI技术在更多领域的应用和创新。
相关攻略
IT之家 3 月 7 日消息,全新新华三 MegaBook 二合一笔记本近日现身 Geekbench 跑分数据库,搭载英特尔“Panther Lake”架构处理器。Geekbench 数据显示,新华
新华三将持续在AI Infra领域深耕,提供更多针对不同场景,设计基于不同加速层级、不同加速介质等技术路线的推理加速方案,帮助企业和开发者更轻松地应对大模型落地应用的复杂性和规模挑战,推动AI技术在
在国产化安全能力建设的新阶段,新华三以深度自主研发与全栈产业协同为基础,搭建了产品、技术与服务三位一体的国产化安全体系,实现了从网络边界、应用防护到统一管理的全栈产品覆盖,为百行百业数字化转型提供了
来源:环球网摘 要:面对万亿级大模型训练与推理中日益凸显的通信墙与算力利用率难题,紫光股份旗下新华三集团推出H3C UniPoD S80000超节点产品,基于“算力×联接”技术理念,通过Scale-
12 月 9 日消息,新华三 H3C 现已推出 LinSeer MegaCube 桌面 AI 超算工作站,机身通体金色,配备英伟达 GB10 Grace Blackwell 芯片,可提供 1 pe
热门专题
热门推荐
```html 2025年9月ADA将剑指何方?一文读懂Cardano突破1美元的关键战役 2025年9月,加密市场的目光再次聚焦于Cardano及其原生代币ADA。随着价格在0 80美元关键支撑位附近盘整,一个核心议题浮出水面:ADA能否借助生态里程碑与宏观转向的东风,在本月一举攻克并站稳1美元大
什么是币安矿池?全面解读主流矿池的核心优势 当人们谈论加密货币挖矿时,脑海中浮现的往往是巨大的矿机和轰鸣的机房。然而,一个更具效率与稳定性的选择正成为全球矿工的新宠——币安矿池。作为全球领先的加密货币交易所币安旗下的核心服务之一,币安矿池本质上是一个聚合全球算力的去中心化矿池平台。它允许矿工将个人算
《洛克王国:世界》灵魂环印使用攻略 灵魂环印是《洛克王国:世界》中提升魔法师耐力的核心道具,千万别舍不得使用。它能为你的角色快速“充电”,显著增强魔法师的续航能力。耐力属性直接影响实战中的操作流畅度与技能释放频率,无论是PVP竞技还是挑战高难度BOSS,充足的耐力条都能带来截然不同的游戏体验。使用灵
OKX鲨鱼鳍:一款兼顾本金安全与潜在高收益的结构化理财产品 在加密货币理财的世界里,你是否也常纠结于如何在控制风险的同时,追求比普通活期、定期更高的收益?OKX交易所推出的“鲨鱼鳍”结构化产品,或许提供了一个巧妙的解决方案。 简单来说,这是一款保本型理财产品。你只需选定一个币种,并对其未来1到7天的
角色一:小萤 谈及机动性与灵活走位,小萤无疑是游戏中的顶尖代表。其核心优势在于无与伦比的战场穿梭能力,得益于独特的轻盈步伐,闪避各类攻击对她而言游刃有余。她的标志性技能“微光闪烁”,可提供短时爆发性移速加成,无论是用于切入战场先手开团,还是关键时刻脱离险境,都能起到决定性作用。 精通小萤的关键,在于





