新华三发布推理场景加速方案，破局大模型显存焦虑

时间：2026-02-03 19:37

新华三将持续在AI Infra领域深耕，提供更多针对不同场景，设计基于不同加速层级、不同加速介质等技术路线的推理加速方案，帮助企业和开发者更轻松地应对大模型落地应用的复杂性和规模挑战，推动AI技术在

新华三将持续在AI Infra领域深耕，提供更多针对不同场景，设计基于不同加速层级、不同加速介质等技术路线的推理加速方案，帮助企业和开发者更轻松地应对大模型落地应用的复杂性和规模挑战，推动AI技术在更多领域的应用和创新。

据多家权威研究机构最新研判，2026年核心存储供应链的结构性短缺已成行业刚性现实，供需缺口持续扩大且很可能延续至2027年。不仅是存储部件的单点问题，当前，生成式AI正从技术尝鲜全面走向规模化落地，大模型技术的应用场景正在从训练为主转向训推并重和轻量推理，PD分离、KVCache等技术的规模化应用在持续提升推理效率的同时，对高带宽、大容量的GPU内存提出了极致严苛的要求，显存资源紧张带来的行业焦虑正在持续蔓延。叠加存储部件供应短缺与价格跳升的双重压力，AI产业发展面临严峻的资源与成本挑战，单纯依靠“力大砖飞”的硬件堆叠，不仅会大幅推高每token成本，更受供应链产能制约难以为继，严重影响产业良性发展。

因此，通过软硬件协同优化提升GPU等关键部件的使用效率，成为破解内存供应链短缺焦虑、降低总体拥有成本的核心路径。

破局困境·架构解密：新华三打造智算推理新引擎

当前，大模型推理面临的发展困境已不可回避：模型对算力与显存的需求呈指数级增长，然而堆叠GPU硬件所带来的成本与能效压力，严重制约技术的可持续发展。尤其在处理长文本、多轮对话等场景时，模型为保存上下文而生成的KV Cache（键值缓存）会急剧膨胀，不仅大量占用宝贵的GPU显存，更导致大量重复计算，成为制约响应速度、推高运营成本的瓶颈。

直面成本与效率的核心痛点，紫光股份旗下新华三集团打造出效能兼备的大模型推理场景加速方案。通过其自研的定制化ASIC芯片提供硬件级加速，将KV Cache从GPU内存卸载到指定存储节点，构建专为AI设计的“下一代内存层”，减轻GPU显存的压力，从而在系统层面实现了存算资源的新平衡。新华三凭借自身强大的硬件集成与全栈优化能力，驱动业内前沿科技与自研AI服务器的创新耦合，经过深度的测试调优最终形成了大模型推理加速的最佳实践，为业界提供了一条性能与成本兼顾的全新推理范式。

从部署形态来看，本方案既支持单机形态部署，直接提高单台AI服务器的推理性能。也支持通过外置存储节点的方式同时对接多台AI服务器，提高集群的推理性能。

实测验证·性能跃升：核心指标翻倍，推升深度推理新速度

为深入探究本方案中KV Cache卸载对推理性能的提升，新华三基于自研高性能AI服务器进行基准测试，重点关注在同一机型上，运行DeepSeek-V3-671B模型时，采用标准推理服务和采用KV Cache卸载加速方案的两种模式下的性能差异，分别构建10K和30K的文本输入，模拟实际应用场景中的多轮对话推理过程，以确保测试结果具有实际参考价值。经多轮验证，采用KV Cache卸载加速方案的推理核心指标显著优化：

•并发用户数提升200%：在相同TPOT（每个Token生成的平均延迟，ms）限制下，同样的算力资源可支持的并发数显著提升，保障用户体验的同时支持服务更多的用户。

•推理延迟大幅降低：TTFT（首Token生成的延迟，ms）降低70%，TPOT（每个Token生成的平均延迟，ms）降低30%，大幅缩短响应延迟，提升用户体验。

场景适配·全域覆盖：贴合企业GenAI落地需求

•交互式应用（多轮对话）：如聊天机器人、智能客服等。这类应用中，用户与模型的交互是多轮的，后续轮次的输入通常依赖于前序对话的上下文。通过快速加载存储历史 KV Cache，能够大幅缩短响应延迟，提升用户体验。

•长上下文处理：对于需要处理数千甚至数万Tokens上下文的任务（如长文档问答、代码生成、复杂指令理解），GPU内存容量往往成为瓶颈。本方案提供的PB级KV Cache扩展能力，使得处理这类长上下文任务更为从容，避免了因GPU内存不足导致的性能下降或任务失败。

•高并发推理服务：在面向大量用户的在线推理服务中，系统需要同时处理多个并发请求。本方案通过高效的KV Cache管理，能够支持更多并发会话，显著提高系统的整体吞吐量（RPS），从而在相同的GPU资源下服务更多用户。

随着模型规模的扩大和用户基数的扩张，大模型推理效率正成为AI基础设施性能的关键指标。新华三凭借多年来在AI领域的技术创新与实践探索推出推理加速方案，并进行精心的调优实践，充分验证了该方案在提升推理效率方面的显著优势，进一步加速GenAI应用的发展。

GenAI时代，推理加速注定是一条持续提升、永无止境的创新之路。面向未来，新华三将持续在AI Infra领域深耕，提供更多针对不同场景，设计基于不同加速层级、不同加速介质等技术路线的推理加速方案，帮助企业和开发者更轻松地应对大模型落地应用的复杂性和规模挑战，推动AI技术在更多领域的应用和创新。

来源：https://server.51cto.com/article/835717.html

新华三

上一篇马斯克联手SpaceX，打造xAI太空母舰 下一篇迎广W31 ATX机箱评测：热弯玻璃与四风扇全景设计

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

OpenClaw手机App上线，结果翻车了

OpenClaw 官方宣布，已正式推出 iOS 和 Android 原生移动 App，用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接：把 Agent 放进口袋里，让用户可以在移动端处理频道消息、任务和回复。从功能上看，OpenClaw 移动端并

科技数码 · 2026-07-01

优必选CEO周剑：家庭机器人生态核心投入过半精力

先说几个核心判断：优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上，直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进，现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景，另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间，技术路线尚未收敛

6月30日，申银万国在光连接系列研报中重点指出，MPO光连接器领域的投资机会值得高度关注。通俗来说，随着AI算力集群持续扩张，光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件，如今它直接决定着链路插损、可

科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上，区级部门一次性推出了7个AI“龙搭子”。其中，名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解，依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”，已在今年五一假期发布了内测版本。经过一个月市场验证后，该项目正式启动面向全社会的

科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日，南下资金持续大举买入港股，单日净流入金额高达58 95亿港元。接下来，我们直接盘点哪些个股获得资金青睐、哪些遭到减持：净买入方面，中芯国际领跑全场，单日吸金19 33亿港元；建滔积层板紧随其后，净买入10 59亿港元；腾讯控股获得7 65亿港元净流入；智谱（02513 HK）也有6 5