破解万卡集群低利用率,TaaS平台如何杜绝算力空转?
当AI产业从模型能力竞争逐步转向规模化应用竞争,围绕“Token推理效率”进行系统性优化成为行业的核心命题。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
“随着智能体、AI Coding等应用的爆发式增长,Token消耗量呈百倍、千倍级跃升,2026年已成为名副其实的‘Token爆发元年’。AI产业的核心关注焦点,正从模型参数规模、模型可用性全面转向稳定、低成本、高质量交付的Token产能。”郑纬民院士表示。

但与此同时,国内算力利用率正深陷结构性困境。
首先,资源配比严重失衡,Token生成过度绑定GPU,高端内存、集群SSD、IB互联等昂贵闲置资源利用率不足10%,整机综合利用率不及20%,造成巨额智算成本空耗。
软硬协同样存在短板,硬件算力持续迭代,但软件优化与分布式并行组合稳定性不足,超80%理论算力被浪费,粗放调度又隐形损耗超50%算力。
面对大量行业痛点,雷峰网获悉,3月27日2026中关村论坛期间,趋境科技发布全新一代AI推理平台——趋境ATaaS高效能AI Token生产服务平台(Approaching.AI Token as a Service),为破解算力投入与Token产出失衡难题提供了系统性解决方案。
这一产品落地,也折射出AI基础设施产业的演进趋势:行业竞争不再单纯比拼算力规模,而是转向综合衡量Token生产核心指标,涵盖首包响应时延(TTFT)、Token吞吐效率(TPS)与全域资源利用率等关键维度。
那么,趋境ATaaS通过哪些底层技术优化,破解行业算力利用的结构性矛盾?又将如何通过生态共建,系统性打通产业割裂痛点?
万亿Token稳态产出、GPU开销直降 90%,TaaS平台重构智算底座
过去两年,行业焦点高度集中在基础模型竞赛:各家疯狂堆叠参数、冲刺榜单、追逐SOTA性能,模型厂商一度成为资本追捧的热点。
但随着产业主线从大模型训练转向规模化落地应用,深层供需失衡开始显性暴露:个人重度使用“小龙虾”等AI智能体单日Token成本可达千元,服务供给端却深陷亏损经营,大量智算资源长期低效空转、得不到合理利用。
TaaS成为调和产业矛盾、重构Token生产效率的核心解法,为行业打通降本、提效、提质的关键通路。
对此,郑纬民院士锚定产业趋势,明确了TaaS落地演进的三大核心技术底座:一是全系统异构协同,通过将不同计算任务合理分配至GPU、CPU、内存和SSD,打破算力瓶颈;二是存算协同实现“以存换算”,通过前置KV Cache等技术,大幅降低重复计算量,提升推理效率;三是面向SLO的智能调度,精准地将用户业务需求“翻译”为底层资源决策。
立足这套底层技术逻辑,趋境ATaaS平台以极致高效能Token生产为核心锚点,可承载万级并发AI推理业务,支撑集群实现日均万亿级稳态Token产出落地。

作为全球首创的大模型计算逻辑重构技术,异构推理2.0技术“六合”深度融合CPU与GPU、国产及非国产异构算力,实现任务智能分流,能将万卡级智算集群运营成本压降20%以上。
以存换算2.0“月饼”,凭借超体量KV Cache缓存技术,将存储空间拓展百倍至千倍,最高实现90%缓存命中率,直接削减90%的GPU算力开销。
“双仪”虚实同构技术,依托算子级SLO仿真能力,完成算力资源智能预规划与动态调优,精准切分异构算力,让万卡级集群硬件综合利用率实现数倍提升。
“万象”极致弹性技术,则打通了规模化量产的最后一道壁垒,支持万亿参数大模型7秒极速拉起、动态配置变更,以及数百节点超大规模EP弹性调度,为万卡级集群高性能横向扩展筑牢根基。
趋境ATaaS平台的发布为AI基础设施的建设和运营提供了新的思路和行业标准,使每单位算力和能耗投入都能够数倍转化为更稳定、更可衡量的Token价值产出,更标志着AI基础设施发展焦点从单纯的算力规模竞争,转向对Token生产效率的综合衡量,推动算力基础设施从“数据中心”向“Token工厂”全面演进。

集群性能翻倍背后:TaaS生态协同「重写」Token经济学
面对国产推理基础设施“可用”与“好用”之间的鸿沟,技术优化之外,生态协同的紧迫性正在凸显。
从底层硬件厂商,到模型厂商,再到最贴近终端用户的云服务平台,趋境ATaaS平台正逐步嵌入产业链的每一个关键环节,以生态协同模式发挥聚合效应,推动国产AI推理基础设施的发展。
华为昇腾计算业务副总裁、首席产品规划师叶耀荣表示,趋境与昇腾展开了全方位的技术和商业化合作,部分项目中在昇腾AI集群上实现了2倍以上性能提升。
九源智能计算系统生态联合体副秘书长王豪杰表示,Token时代竞争转向单位成本产出,国产卡面临“生态驱动”困局。九源联合体打造国产智能计算生态,全国产化方案适配多款GPU、串行代码高效并行的九源领域编程语言“九齿”、支撑Mooncake推理加速系统、基于国产芯片的高效智能体,并与KTransformers等框架深度联动。
云上算力服务的深度融合同样是破局关键。
并行科技董事长陈健表示,并行MaaS服务得到趋境科技的大力支持,双方合作将高质量Token的生产成本大幅优化,并将特定场景下的集群性能提升50%,共同为智谱、Kimi、MiniMax、DeepSeek等头部大模型客户提供优质服务。
京东云同样与趋境科技达成合作,双方联合打造推理引擎,推动Mooncake开源生态发展。

基于一系列产业实践,行业各方进一步沉淀形成三大共识。
首先,软硬深度协同是释放国产算力潜能的关键,需通过系统级优化弥合硬件性能与业务需求之间的鸿沟。
生态统一与标准建设同样至关重要,打破“百花齐放”带来的适配难题,才能实现规模化应用。
最后,人才培养是产业根基,需通过开源社区、技术竞赛等方式,培育兼具理论与工程能力的AI Infra人才。
相关攻略
机房内风扇的轰鸣声日夜不息,上万张GPU设备整齐排列。在这里,每张芯片每秒执行上万亿次运算,它们两天汇聚的能量,相当于三峡水电站一台机组整整一小时的发电量。这幅震撼景象,来自上海松江的一座万卡集群—
算力是人工智能的底座,而算力集群好比AI世界的“发电机”,其高效调度与稳定运维,直接决定了大模型等产业的发展速度。在上海仪电,一支平均年龄仅32岁的智算科技万卡集群青年突击队,从零起步、边干边学,不
当AI产业从模型能力竞争逐步转向规模化应用竞争,围绕“Token推理效率”进行系统性优化成为行业的核心命题。“随着智能体、AI Coding等应用的爆发式增长,Token消耗量呈百倍、千倍级跃升,2
雷递网 乐天 1月28日范式智能CEO戴文渊日前表示,当下几千个不同的应用的落地都是在帮助英伟达的生态,99%以上的AI的工作都是做在英伟达的体系下。“中美之间的AI竞争是99%都是在中国的中国人和
12月20日上午,刚刚登陆科创板的GPU新秀摩尔线程,召开了首届MUSA开发者大会(MDC 2025)。会上,摩尔线程公布了新一代GPU架构“花港”,AI训推一体芯片“华山”,用于游戏和图形渲染等场
热门专题
热门推荐
对于初次接触Binance(币安)的用户,寻找官方入口是首要任务。本文介绍了如何通过官方网站与官方应用商店下载App来确保安全访问。随后,指南详细说明了注册验证、基础交易操作如现货买卖,以及资金安全管理等核心上手步骤,帮助用户稳妥地开始使用这一全球领先的数字资产交易平台。
注册币铵时,邀请码为选填项,主要用于关联推荐人,部分活动可能提供额外奖励。注册页面的邮箱 手机验证、创建密码等步骤是完成账户安全设置的必要流程。了解每个按钮的作用,如验证、提交等,能帮助用户更顺畅地完成注册,建议仔细阅读相关提示信息。
EnumMap专为枚举键设计,在性能、内存和语义上全面优于HashMap。其底层使用数组直接索引枚举序号,免去哈希计算与冲突处理,访问更快且内存占用更少。EnumMap在构造时锁定键类型,禁止null键并提供稳定的枚举定义顺序迭代。它适用于键为固定、已知枚举类的场景,能提升代码效率与可预测性。
小米17系列自上市以来,其市场反响与后续产品规划持续引发业界与消费者的高度关注。最新销售数据显示,截至2026年第18周,该系列全球累计销量已突破473万台,其中定位更为高端的17 Ultra机型贡献了约20 7万台的销量。这一成绩在当前竞争激烈的旗舰智能手机市场中,无疑彰显了其强大的产品力与用户认
iQOO官方已正式宣布,iQOO 15T即将发布,并已开启全渠道预约。这意味着,又一款主打极致性能的硬核旗舰手机即将与消费者见面。 从官方发布的预热海报来看,全新的iQOO 15T采用了利落的直角立边设计,搭配金属中框,整体造型硬朗而精致。电源键和音量键目测均集中在机身右侧,便于用户进行单手操作。





