破解万卡集群低利用率，TaaS平台如何杜绝算力空转？

时间：2026-03-30 15:01

当AI产业从模型能力竞争逐步转向规模化应用竞争，围绕“Token推理效率”进行系统性优化成为行业的核心命题。“随着智能体、AI Coding等应用的爆发式增长，Token消耗量呈百倍、千倍级跃升，2

当AI产业从模型能力竞争逐步转向规模化应用竞争，围绕“Token推理效率”进行系统性优化成为行业的核心命题。

“随着智能体、AI Coding等应用的爆发式增长，Token消耗量呈百倍、千倍级跃升，2026年已成为名副其实的‘Token爆发元年’。AI产业的核心关注焦点，正从模型参数规模、模型可用性全面转向稳定、低成本、高质量交付的Token产能。”郑纬民院士表示。

但与此同时，国内算力利用率正深陷结构性困境。

首先，资源配比严重失衡，Token生成过度绑定GPU，高端内存、集群SSD、IB互联等昂贵闲置资源利用率不足10%，整机综合利用率不及20%，造成巨额智算成本空耗。

软硬协同样存在短板，硬件算力持续迭代，但软件优化与分布式并行组合稳定性不足，超80%理论算力被浪费，粗放调度又隐形损耗超50%算力。

面对大量行业痛点，雷峰网获悉，3月27日2026中关村论坛期间，趋境科技发布全新一代AI推理平台——趋境ATaaS高效能AI Token生产服务平台（Approaching.AI Token as a Service），为破解算力投入与Token产出失衡难题提供了系统性解决方案。

这一产品落地，也折射出AI基础设施产业的演进趋势：行业竞争不再单纯比拼算力规模，而是转向综合衡量Token生产核心指标，涵盖首包响应时延（TTFT）、Token吞吐效率（TPS）与全域资源利用率等关键维度。

那么，趋境ATaaS通过哪些底层技术优化，破解行业算力利用的结构性矛盾？又将如何通过生态共建，系统性打通产业割裂痛点？

万亿Token稳态产出、GPU开销直降 90%，TaaS平台重构智算底座

过去两年，行业焦点高度集中在基础模型竞赛：各家疯狂堆叠参数、冲刺榜单、追逐SOTA性能，模型厂商一度成为资本追捧的热点。

但随着产业主线从大模型训练转向规模化落地应用，深层供需失衡开始显性暴露：个人重度使用“小龙虾”等AI智能体单日Token成本可达千元，服务供给端却深陷亏损经营，大量智算资源长期低效空转、得不到合理利用。

TaaS成为调和产业矛盾、重构Token生产效率的核心解法，为行业打通降本、提效、提质的关键通路。

对此，郑纬民院士锚定产业趋势，明确了TaaS落地演进的三大核心技术底座：一是全系统异构协同，通过将不同计算任务合理分配至GPU、CPU、内存和SSD，打破算力瓶颈；二是存算协同实现“以存换算”，通过前置KV Cache等技术，大幅降低重复计算量，提升推理效率；三是面向SLO的智能调度，精准地将用户业务需求“翻译”为底层资源决策。

立足这套底层技术逻辑，趋境ATaaS平台以极致高效能Token生产为核心锚点，可承载万级并发AI推理业务，支撑集群实现日均万亿级稳态Token产出落地。

作为全球首创的大模型计算逻辑重构技术，异构推理2.0技术“六合”深度融合CPU与GPU、国产及非国产异构算力，实现任务智能分流，能将万卡级智算集群运营成本压降20%以上。

以存换算2.0“月饼”，凭借超体量KV Cache缓存技术，将存储空间拓展百倍至千倍，最高实现90%缓存命中率，直接削减90%的GPU算力开销。

“双仪”虚实同构技术，依托算子级SLO仿真能力，完成算力资源智能预规划与动态调优，精准切分异构算力，让万卡级集群硬件综合利用率实现数倍提升。

“万象”极致弹性技术，则打通了规模化量产的最后一道壁垒，支持万亿参数大模型7秒极速拉起、动态配置变更，以及数百节点超大规模EP弹性调度，为万卡级集群高性能横向扩展筑牢根基。

趋境ATaaS平台的发布为AI基础设施的建设和运营提供了新的思路和行业标准，使每单位算力和能耗投入都能够数倍转化为更稳定、更可衡量的Token价值产出，更标志着AI基础设施发展焦点从单纯的算力规模竞争，转向对Token生产效率的综合衡量，推动算力基础设施从“数据中心”向“Token工厂”全面演进。

集群性能翻倍背后：TaaS生态协同「重写」Token经济学

面对国产推理基础设施“可用”与“好用”之间的鸿沟，技术优化之外，生态协同的紧迫性正在凸显。

从底层硬件厂商，到模型厂商，再到最贴近终端用户的云服务平台，趋境ATaaS平台正逐步嵌入产业链的每一个关键环节，以生态协同模式发挥聚合效应，推动国产AI推理基础设施的发展。

华为昇腾计算业务副总裁、首席产品规划师叶耀荣表示，趋境与昇腾展开了全方位的技术和商业化合作，部分项目中在昇腾AI集群上实现了2倍以上性能提升。

九源智能计算系统生态联合体副秘书长王豪杰表示，Token时代竞争转向单位成本产出，国产卡面临“生态驱动”困局。九源联合体打造国产智能计算生态，全国产化方案适配多款GPU、串行代码高效并行的九源领域编程语言“九齿”、支撑Mooncake推理加速系统、基于国产芯片的高效智能体，并与KTransformers等框架深度联动。

云上算力服务的深度融合同样是破局关键。

并行科技董事长陈健表示，并行MaaS服务得到趋境科技的大力支持，双方合作将高质量Token的生产成本大幅优化，并将特定场景下的集群性能提升50%，共同为智谱、Kimi、MiniMax、DeepSeek等头部大模型客户提供优质服务。

京东云同样与趋境科技达成合作，双方联合打造推理引擎，推动Mooncake开源生态发展。

基于一系列产业实践，行业各方进一步沉淀形成三大共识。

首先，软硬深度协同是释放国产算力潜能的关键，需通过系统级优化弥合硬件性能与业务需求之间的鸿沟。

生态统一与标准建设同样至关重要，打破“百花齐放”带来的适配难题，才能实现规模化应用。

最后，人才培养是产业根基，需通过开源社区、技术竞赛等方式，培育兼具理论与工程能力的AI Infra人才。

来源：https://www.163.com/dy/article/KP95IQ8U05118HA4.html

万卡集群 taas平台算力基础设施

上一篇UniPat发布EchoZ-1.0：全球通用智能预测系统登上AI榜单 下一篇善治驱动发展：AI内容规范主题论坛郑州开幕

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-04

理想新车布局预测：L9L与i9上半年发布

1月23日消息，综合权威公开信息与行业趋势研判，理想汽车2026年度新车布局规划正式曝光。此番产品线布局，不仅持续深耕SUV市场，同时加速补齐全场景覆盖的拼图。理想L9旗舰SUV 在增程动力领域，理想L系列将迎来一位新成员——L9L，预计2026年上半年正式上市，预估售价区间为45万至55万元。与

科技数码 · 2026-07-04

三星消息应用7月停用部分旧设备可继续使用

6月29日，多家海外媒体援引三星官方消息证实，三星消息（Samsung Messages）应用将于2026年7月正式终止服务。随着这个截止日期越来越近，依然在使用该应用的Galaxy用户需要尽快迁移到新的默认信息工具。其实过去两年里，三星一直在悄悄引导用户转向谷歌信息（Google Messages

科技数码 · 2026-07-04

吉利发布2030战略：年销650万辆全面迈向全球前五

1月22日，吉利控股集团在北京召开战略解析大会，正式发布“一个吉利，全面领先”的2030战略蓝图。战略目标清晰明确：到2030年，全球总销量（含乘用车与商用车）突破650万辆，稳居全球车企前五。其中，新能源车型占比预计达到75%左右，海外销量占比超过三分之一。尤为关键的是，依托全新全球化架构，单车型

科技数码 · 2026-07-04

OPPO Find X9系列旗舰手机累计销量突破250万部Ultra版超12万部

OPPO Find X9 Ultra 旗舰机型回顾产品发布背景：Find X9系列于2025年10月正式登场，作为OPPO年度旗舰产品线，涵盖标准版、Pro版与Ultra版三大版本。该系列的核心竞争力十分明确——影像系统与综合性能的双重显著提升。上市以来，凭借芯片算力、屏幕显示素质、续航表现以及影

科技数码 · 2026-07-04

IntelliJ IDEA 2025.3.2 版本正式发布

IntelliJ IDEA 2025 3 2 版本现已正式发布。除了常规的漏洞修复与功能完善，本次更新有几个修复点值得格外关注——特别是如果你经常使用终端工具执行命令，或者正在采用远程开发工作流。终端工具窗口的闪烁问题终于得到彻底解决。此前在调用支持同步输出的命令行工具（例如 Claude Code