Agent时代，为何多模态数据湖是核心基建？

首页

热心网友

转载

2026-01-15

编辑｜冷猫、Panda

「2025 年，注定被铭记为 AI 工业时代的黎明。」

回望这一年，吴恩达教授曾这样感慨。

这一年，大量企业你追我赶，投身于 AI 应用及 Agent 建设。然而，许多企业或许尚未意识到：如果 AI 竞速只停在应用层，可能连这场竞争的「起跑线」都尚未站上。

AI 时代，数智化表面是模型的狂欢，底层是基建的深耕。

唯有能支撑 AI 应用规模化落地的数据基座，才能构筑企业真正的竞争力。

近来， AI 行业普遍认为我们正在进入所谓的「AI 下半场」，而此时行业面临的一大关键问题是「究竟应该让 AI 去做什么？又该如何衡量真正的进展？」

而这个问题的答案也基本已有共识：要想在这下半场脱颖而出，我们需要及时转变思维方式，应当用 AI 的思维，把该做的事情重新做一遍。

与上一阶段不同，这一阶段的企业数据，不再等待人来解读，而是被模型直接「消费」。

以音频数据应用为例，AI 时代，音频数据不应只是一份录音数据存档，还应成为可查询和交互的信息源，比如应该支持查找「录音中的人是客户 A ，上周在另一业务有投诉记录」这类关联信息。这种跨模态的关联性，是实现模型复杂推理的基础。

推及其他行业：

在智能驾驶中，道路视频、点云与传感器数据需要被实时送入智能体，支撑感知、规划与异常检索；在游戏行业，需要将对话、行为与世界观等多模态数据沉淀为长期记忆，用于沉浸式 NPC 与自动化资产生成；在传媒行业，需要使用视频、音频与用户互动数据来驱动内容生成与精准分发；在电商领域，商品图文与交易数据直接喂给模型，实现智能选品与个性化推荐。

因此，对多种模态数据的处理与使用的能力，正在影响各行业商业竞争的形态与上限

接下来的风口要踏在哪里？我们关注到了火山引擎近期发布的《AI 时代企业数据基建升级路线图》。

它在开篇写到：AI 时代，数据基建已经成为决定企业竞争高度的战略资产

笔者深以为然。

企业要发展可以处理多模态数据的底层基建。因为 AI 时代最深的红利，并不在于「拥有」SOTA 的模型，而在于能否持续「驾驭」并「滋养」它。更进一步，可以说构建多模态数据湖已经成为企业参与这场 Agent 竞赛的必选项。

传统数据湖与多模态数据湖对比，图像由 AI 生成。

Agent 时代，这是你不能错过的风口

智能的涌现扎根于坚实、鲜活且可进化的数据土壤。

尤其在 Agent 时代的到来之际，企业竞速也正由数据基建分野：领先者正将沉睡的非结构化数据转化为可用的竞争力，而落后者由于非结构化数据资产仍处于休眠状态，而只得徘徊在 Agent 应用的起点。

当行业的聚光灯都投向大模型或智能体本身时，真正的竞争已转入水下，即底层的、支撑多模态数据的数据工程

唤醒数据，化「沉睡库存」为核心资产

IDC 预测，2025 年企业超过 80% 的数据将是非结构化的。

这些长期堆积的视频、音频、图像和传感器数据，曾被视为「数字负债」。然而，多模态与大模型技术的成熟，正让它们焕发前所未有的价值。

以制造业为例，以往无人问津的历史故障录像，经大模型解析与标注，即可成为「智能知识库」。新员工用自然语言提问，便能精准调取同类故障的处理记录 —— 沉寂数据瞬间转化为实战生产力。

本质上，AI 时代的数据基建，正通过向量化等处理能力，让非结构化数据真正「活」起来，使其从被动存储的负担，变为可随时调用、持续学习的战略资源。

唤醒这 80% 的数据，是在 Agent 时代构建竞争力的工程前提。

让数据资产驱动业务，启动飞轮

强大的数据基建能构建数据、模型与业务深度耦合的闭环，真正「让模型自主成长」，为 Agent 赋予更多智能。

一个优秀的数据架构，需在企业数据平台、MaaS（模型即服务）平台、Agent 开发工具与应用之间建立高效的数据流通管道，否则数据会停留于「孤岛」，智能难以落地。

典型的例子是传统智能客服：尽管不断采集用户的语音、文本、截图与操作轨迹，却因模型与业务间数据不通，导致客服模型始终重复犯错、体验停滞，陷入「千人一面」的困境。

我们发现，火山引擎通过多模态数据湖与 AgentKit、火山方舟等产品的联动，已验证了数据、模型、业务打通的可行性。在零售行业中，完善的多模态数据湖不仅能分析销售报表，还可实时捕捉顾客行为、评论与画像。这些鲜活数据持续回流，使企业 AI 能力能随业务不断演进。

这种「业务滋养模型、模型反哺业务」的闭环，使企业 AI 能力可伴随业务持续进化，这正因为此，多模态数据湖成为了 Agent 时代构建智能护城河的必选项。

让业务拥有锚点，获得未来的确定性

新一代数据基建通过统一的数据与计算底座，以同一平台支撑多模态数据，并持续适配技术演进。

以某安防企业为例，传统数据管理体系下，如果从视频监控扩展至智能识别，往往需为不同算法供应商重建独立的计算平台与数据库，导致内部数据不互通、烟囱林立。巨大的管理和技术成本，会拖累企业创新动力。

而统一的多模态数据湖体系，能以统一元数据管理结构化和非结构化数据，提供面向 AI 的灵活数据集能力，支持数据快速探查与调用。通过标准化存储与可扩展接口，系统能在上层屏蔽底层模型的频繁迭代，使数据始终以对模型友好的形态稳定输入。

这意味着，当该企业未来业务从「视频监控」拓展至「自动巡检」、「人流预测」等领域时，可低成本接入新算法模块，无需颠覆底层架构。

「基建不动，技术常新」，在追求敏捷响应速度的 Agent 时代，这种具备工程确定性的多模态基座正在成为架构的必选项。

升级三部曲：积累，重构，融合

火山的这份「数据基建升级路线图」之所以值得展开聊聊，是因为它在行业内率先为企业提供了一套从「拥有模型」到「驾驭智能」的数据基建进化蓝图。在 Agent 时代，它为企业提供一套实现多模态数据湖的清晰演进路径。

这个蓝图可作为重要的参考框架，企业可结合业务特点与发展阶段，衍生出适合自身的基建升级路径，进而在 Agent 时代构筑自己的核心竞争力。

具体而言，火山引擎将企业数据基建的演进分为了三步渐进式过程。

异构算力与分布式引擎阶段

这一阶段的核心是突破算力瓶颈。为应对大规模数据处理与大模型训练的需求，传统仅依赖 CPU 的架构已难以满足 AI 时代对存储与计算的高实时性要求。企业需转向为 AI 任务量身打造的 CPU+GPU 异构架构，实现灵活调度。

这一阶段的核心目标是：数据「进得来，跑得快」，并原生支持 AI 服务。在异构算力的支撑下，企业能在技术快速迭代中平衡性能与成本，真正让算力服务于业务与模型增长。整体来说，这一阶段可为多模态数据湖这一必选项提供坚实的物理支撑。

模型即引擎与多模态重构阶段

在算力基础就绪后，需进一步推动数据基建与 AI 的深度融合。本阶段的关键在于将预训练大模型嵌入数据流水线，实现文本、图像、音频等多模态数据向统一语义向量与高价值知识标签的自动转换。

Agent 时代，数据价值不在于「存量」，而在于能被 AI 调用的「流量」。通过向量化处理，企业的多模态资产第一次真正实现通用「可读、可感、可交互」。该过程直接发生于数据基建层，从源头确保企业数据对大模型友好，使其可随时被检索、推理与学习，赋能全感官业务洞察。

因此，这一阶段可使多模态数据湖成为 Agent 识别与推理的逻辑重心，进一步确立了其作为基建必选项的地位。

全域数据治理与平台融合阶段

目标是在管理层面对数据资产进行统一管控，推动全域数据的治理、价值激活与安全合规。

这意味着 AI 能力可深度融入每一条业务流程，激活分散在不同系统与形态中的数据资产，并将其持续转化为增长动能。统一的数据治理体系不仅能显著降低安全与合规风险，还可大幅提升数据复用效率，助力企业将技术优势系统化、可持续地转化为长期竞争力。

这一阶段标志着多模态数据湖从单一的技术底座演变为全域的智能中枢，完成了其作为 Agent 时代必选项的最后拼图。

Agent 时代数据基建的选型指南

国内云厂商都在积极拥抱 Agent 时代的技术升级，从各大厂商的进度来看，对多模态数据的「存、算、管」重视度在持续提升。其中，我们观察到火山引擎「多模态数据湖」在行业内的进展最快，能够提供数据统一入湖与治理能力，在算子体系、性能优化、异构算力调度以及与大模型生态的无缝协同方面形成了更完整的一体化方案。

同时通过观察行业内其他厂商面向多模态数据的方案方向，我们也在思考：AI 和 Agent 时代的企业需要的数据基建，到底应该是什么样的？

综合起来，我们认为企业应将以下特质列为 AI 数据基建的必选项。

从「存储中心」到「价值中心」

在 AI 浪潮下，企业首先撞上的，是数据体系的根本性变革。

一方面，数据规模动辄 PB 级，非结构化格式复杂，处理流程高度碎片化，还要同时承载 CPU + GPU 混合负载与复杂作业调度；另一方面，大量数据分散存储、难以统一检索，无法被模型高效消费，数据准备周期越来越长，成本却持续上升。

真正有价值的数据，是能被快速获取、被模型理解、能转化为 Token 并直接参与推理与训练的数据。而那些无法被向量化、无法进入模型工作流的数据，正在从资产变成沉重的存储负担。

AI 时代的数据底座，是从「存储中心」转向「价值中心」的底座。

业务优先，回归实用主义

在技术变革快速的当下，除去技术复杂性之外，企业更大的挑战是：数据基建与业务脱节。

当前很多企业同时面临多模态数据分散、训练与生产割裂、血缘与版本缺失、质量评估与数据反馈闭环不足的问题。结果是数据冗余高、问题排查难、准备周期长，而业务决策却越来越依赖实时与精准。

在这种背景下，盲目堆算力、追求极限性能，反而成了负担。AI 时代最昂贵的基建，是那些无法转化为业务价值的闲置能力。

衡量一套数据基建是否先进，在于它是否能以最低成本、最快速度完成从数据输入到业务决策的闭环，并持续驱动数据飞轮运转。