2026年5月8日,在移动云大会主论坛上,中国移动正式发布其一站式移动模型服务平台——MoMA。此次发布不仅是推出一款新的AI工具,更标志着AI服务模式的一次重要升级。该平台已集成超过300个业界主流AI模型,在模型丰富性与多样性上处于行业前列。尤为引人注目的是,平台创新性地采用了Token集约化运营模式,其核心愿景是让AI能力如同水电般基础便利,实现“随时可得、随处可用”,从而加速人工智能技术普惠化,赋能千行百业数字化转型。

开放与普惠:降低AI应用门槛
MoMA平台的设计核心理念是构建一个“一次接入、智能优选、普惠可用、安全可信”的模型服务生态。其根本目标是显著降低人工智能技术的使用门槛,让广大企业与开发者能够更便捷、更经济地获取和调用AI能力。
如何实现这一目标?首先,平台提供了统一的API网关。用户仅需完成一次接入,即可调用平台上集成的所有模型资源。目前,资源池已涵盖中国移动自研的“九天”系列大模型,以及DeepSeek、通义千问、豆包、Kimi、GLM等市场主流优质模型。这些模型覆盖文本生成、代码编写、语音识别、多模态理解等多种任务,能够充分满足政务、金融、工业、医疗、教育等复杂场景的智能化需求。
面对众多模型选项,用户如何高效选择?MoMA平台首创了智能路由引擎。该引擎可自动解析用户请求,并支持用户根据业务目标设定“成本优先”、“效果优先”或“均衡优先”等策略,从而动态匹配并推荐最优模型。该智能调度能力同样体现在服务高可用保障上:当主选模型出现响应超时、流量限制或服务异常时,系统能在秒级内自动切换至备用模型,确保用户业务连续稳定运行。
成本控制是企业关注的重点。MoMA平台基于国产算力部署了自研的高效推理引擎,结合智能路由对长尾模型资源的灵活调度,实现了单位Token处理成本降低约30%,同时资源利用率提升超过50%。此外,通过智能缓存、上下文复用、Token压缩等多项技术的综合运用,进一步优化了整体使用成本。平台秉持的中立路由原则,旨在帮助用户在模型效果与算力开销之间找到最佳平衡点。
安全与可信是普惠服务的基石。针对政务、金融等高敏感数据场景,MoMA特别提供“机密模型”服务。该服务将模型部署于硬件级加密的机密计算容器中,通过可信执行环境(TEE)等技术实现计算过程的数据安全隔离,确保业务数据“可用不可见”,为高安全等级需求提供全链路可靠保障。
集约化运营:实现Token高效管理与优化
如果说“开放普惠”解决了AI“用得起、用得上”的问题,那么“集约化运营”则致力于实现“用得好、管得住”的精细化目标。MoMA围绕Token的使用全生命周期,构建了涵盖精准计量、风险管控与经营分析的完整运营体系,旨在推动算力资源实现规范化、可追溯、高效率的集约利用。
在计费模式上,平台实现了革新。它支持流式实时计费,用户Token消耗的计费端到端时延控制在1分钟以内,真正做到了“按需使用,即用即付”。这种模式有效避免了传统预付费资源包可能产生的资源闲置与浪费,使得每一笔消费都清晰透明。
在风险控制层面,MoMA建立了完备的监控与审计机制,确保Token计费全流程可追溯、可审计、可闭环。这从根本上防范了资源被恶意占用、费用异常超支或服务意外中断的风险,保障了用户资源使用的稳定与可控。
更重要的是,平台提供了全景式的可观测能力。它能实时采集并分析接口时延、请求吞吐量、Token消耗量、GPU利用率等关键指标,将监控、预警、诊断功能整合为一体化运营仪表盘。这套体系覆盖客户管理、服务订购、资源使用、成本分析等多个维度,使AI投入产出比(ROI)一目了然,为用户的成本优化与战略决策提供坚实的数据支撑。

展望未来,中国移动表示将持续迭代升级移动模型服务平台MoMA的服务能力与效能。通过携手更广泛的产业合作伙伴,共同挖掘算力网络潜能,开拓智能化应用新场景,最终目标是推动人工智能技术更广泛、更高效、更安全地融入经济社会发展全局,释放数字新质生产力。
