算力调度：AI卖铲人的盈利核心与向量数据库刚需

时间：2025-12-24 12:49

随着生成式AI应用加速渗透，AI基础设施软件（AI Infra）正成为应用落地的关键“卖铲人”，算力调度能力已成为决定模型推理盈利水平的核心变量。近期，申万宏源研究黄忠煌团队发布了深度报告《AI I

随着生成式AI应用加速渗透，AI基础设施软件（AI Infra）正成为应用落地的关键“卖铲人”，算力调度能力已成为决定模型推理盈利水平的核心变量。

近期，申万宏源研究黄忠煌团队发布了深度报告《AI Infra：应用渗透下的又一卖铲》，报告指出基础设施软件正迎来黄金发展期。与模型训练阶段被巨头垄断不同，推理和应用部署环节为独立软件厂商打开了新的商业空间。当前两类产品最为关键：算力调度软件和数据类软件。

算力调度能力直接决定模型推理服务的盈利水平。根据测算，在单日10亿查询量下，若使用H800芯片，单卡吞吐能力每提升10%，毛利率能够提升2-7个百分点。

数据层面，向量数据库已成刚需，Gartner预测2025年企业RAG技术采用率将达68%。海外数据厂商如MongoDB在2024年二季度收入增速出现明显拐点，验证了这一趋势。

算力调度：推理盈利的核心变量

AI Infra指的是专门为AI工作负载的设计、构建、管理和优化的底层硬件与软件系统。它的核心目标是高效、大规模地完成AI模型的训练和推理任务。如果将开发大模型比做是 “造房子”，那 AI Infra 就是“工具箱”，包括构建、部署和维护人工智能 (AI) 系统所需的硬件、软件和服务的组合。

国内模型价格战背景下，成本控制成为生死攸关的问题。Deepseek V3最新定价仅为每百万token输入2元、输出3元，而海外同类产品价格普遍在1.25-5美元之间。这种显著的价格差异使得国内厂商对成本的敏感度远超海外。

大厂算力调度能力对比：

华为Flex:ai实现了异构算力统一调度，支持英伟达、昇腾及第三方算力，通过芯片级切分技术（精准至10%粒度），在无法充分利用整卡算力的场景下，可将平均利用率提升30%。
阿里巴巴Aegaeon更进一步，实现了token级动态调度。通过token粒度的精细化调度、阶段化计算、缓存复用和弹性扩缩容，Aegaeon将10个模型所需GPU数量从1192张锐减至213张，资源节约率高达82%。这种"按token分拣"的实时调度方式，类似将快递分拣从"按批次"升级为"按单个包裹"。

报告数据表明，算力调度软件已成为提升毛利率的隐形杠杆：

毛利率敏感性分析显示，假设模型推理服务商使用H800芯片，在单日10亿查询量场景下（日收入约440万元，年收入16.06亿元），当单卡吞吐从基准值的0.6倍提升至1.4倍时，毛利率可从52%提升至80%。这意味着算力调度优化每提升10%的单卡吞吐，就能带来约2-7个百分点的毛利率改善。

这也解释了为何海外三大云厂商的云业务毛利率差异显著：2025年三季度，谷歌云毛利率为43.3%，微软智能云为34.6%，而亚马逊AWS仅为23.7%。随着AI大模型云收入占比持续提升，硬件调度能力对毛利率的影响将愈发关键。

向量数据库：RAG应用的刚需基础

大模型幻觉问题催生了RAG（检索增强生成）技术的快速普及。由于大模型无法直接记住大量企业私有知识，且缺乏外部知识时容易产生幻觉，RAG成为企业部署AI应用的标配。Gartner数据显示，2024年全球已有45%的企业在智能客服、数据分析等场景中部署RAG系统，预计2025年这一比例将突破68%。

报告指出，向量数据库的核心价值在于支撑海量数据的毫秒级检索。在RAG应用推理流程中，系统需要先将用户查询转化为向量，然后在向量数据库中检索最相似的知识片段，最后将检索结果与用户问题一起输入大模型生成答案。这要求向量数据库能在亿级数据规模下保持高QPS（每秒查询数）的实时检索能力。

OpenRouter统计数据显示，从2024年四季度开始，从API接口接入各类大模型的Token消耗量快速增长，一年时间内翻了近10倍，直接拉动了向量数据库需求。

数据库格局重塑：OLTP反攻，实时性为王

生成式AI时代，数据架构正从"分析优先"转向"实时运营+分析协同"。传统数据仓库/湖仓架构设计目标是批量处理和事后洞察，但AI应用需要毫秒级响应，Agent更需要持续获取实时数据并快速决策。这种高频、小批量、低延迟的实时事务处理需求，正是OLTP（在线事务处理）数据库的核心优势。

报告指出，AI时代数据架构从‘分析优先’转向‘实时运营 + 分析协同’...MongoDB 凭借‘低门槛 + 高弹性’，契合中小客户低成本 AI 落地需求，增长弹性突出。Snowflake 与 Databricks...需应对CSP跨界竞争与实时能力短板。

具体来看：

MongoDB：低门槛切入中小客户市场
MongoDB作为文档型NoSQL数据库，天然适配非结构化数据存储与高频实时CRUD操作。其收入增速在2024年二季度出现拐点，2026财年一至三季度，核心产品Atlas收入增速分别为26%、29%、30%，显著高于总体收入增速。
MongoDB的竞争优势体现在三个方面：首先，其文档型设计摒弃了预定义表结构，以类似JSON格式存储数据，契合AI原生应用需求；其次，通过2025年2月以2.2亿美元收购Voyage AI，补齐了向量检索能力，Voyage的嵌入模型在HuggingFace RTEB测评中霸榜第一、第四和第五；第三，新推出的AMP（应用现代化平台）帮助客户从传统关系型数据库迁移至现代文档数据库。
2026财年三季度，MongoDB毛利率达到76%，预计年底经营利润率将达到18%，全年营收增长率约21%-22%，几乎接近Rule of 40标准（收入增长率+利润率≥40%）。
Snowflake与Databricks：向全栈工具延伸
以OLAP为核心的Snowflake和Databricks选择了不同的应对策略——向上下游纵向拓展。Snowflake在2025年通过Iceberg Tables实现数据湖仓兼容，推出Snowpark支持Python等多语言，并提供Cortex AI和Snowflake ML等AI工具链。2025财年收入达36.26亿美元，同比增长29.21%，预计2026财年收入44.46亿美元。
Databricks则在2025年5月以10亿美元收购无服务器Postgres解决方案提供商Neon，补齐OLTP能力，随后推出AI原生数据库Lakebase和Agent Bricks。其2025年年化收入超48亿美元，同比增长55%，数据湖仓产品年化收入超10亿美元，净留存率超140%。
两家公司凭借全流程工具链和客户粘性，占据金融、医疗等数据密集型行业核心场景。截至2026财年三季度，Snowflake年消费超100万美元的高价值客户达688家，福布斯全球2000强企业中已有766家成为其客户。

GPU主导存储架构：技术升级进行时

AI推理进入实时化、PB级数据访问的新阶段，存储IO正从"幕后支撑"变成"性能命脉"。LLM推理的KV缓存访问粒度仅8KB-4MB，向量数据库检索更是低至64B-8KB，且需要支持数千条并行线程的并发请求。

英伟达推出的SCADA（加速数据访问扩展）方案实现了GPU直连SSD，将IO延迟从毫秒级降至微秒级。该方案采用"GPU-交换机-SSD"直连架构，测试数据显示，1颗H100 GPU的IO调度效率是Gen5 Intel Xeon Platinum CPU的2倍以上。

这要求向量数据库进行技术升级：采用GPU适配的列式存储、将检索算法改为GPU并行版本、自主管理GPU显存分配。这些技术演进正在重塑数据基础设施的竞争格局。

来源：https://www.163.com/dy/article/KHHTDT8K05198NMR.html

向量推理算法 mongodb

上一篇原地平线CEO谈9988元家用智能机器人：一年体验如何？ 下一篇OpenAI千亿融资新动向：下一笔资金可能来源解析

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

算力调度：AI卖铲人的盈利核心与向量数据库刚需

相关推荐

同类最新

年国家能源局充换电服务业用电量增速48.8%

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

三星Galaxy Watch8用户反馈谷歌后台组件异常

罗永浩批苹果iOS 27创新不足盼新CEO改进

年国产车出口710万辆，两家车企销量破百万

算力调度：AI卖铲人的盈利核心与向量数据库刚需

相关推荐

同类最新

年国家能源局充换电服务业用电量增速48.8%

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

三星Galaxy Watch8用户反馈谷歌后台组件异常

罗永浩批苹果iOS 27创新不足 盼新CEO改进

年国产车出口710万辆，两家车企销量破百万

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

罗永浩批苹果iOS 27创新不足盼新CEO改进