大数据基建如何迈向AI基础设施（下）

时间：2026-06-11 16:47

数据团队应提前构建业务对象清单、指标归属、对象关系、经营问题集及语义权限等语义资产，而非急于建设全能AI助手。语义层作为控制面，可隔离Agent错误根因。离线数仓等底座仍需保留，但需将结构化数据资产升级为可被Agent理解的业务世界，以支撑深度经营分析。

上一篇我们探讨了大数据基建向AI Infra演进的逻辑，本篇则聚焦于落地环节：具体该如何实施、从哪些切入点入手、哪些准备工作越早启动越有利。

我们直接进入核心主题。

一、数据负责人当前应着手准备哪些事项

有一个值得关注的现象值得探讨。

不少团队一听说“本体化语义层”，第一反应就是开始产品选型：该购买哪个平台？是否需要引入知识图谱？要不要搭建图数据库？能否依赖大模型自动完成建模？是不是需要一次性把所有业务对象都梳理清楚？

这些问题不妨先缓一缓。

对于大多数数据部门而言，眼下的当务之急是打好基础。只要基础工作做得扎实，后续无论是自主研发、采购成品还是混合模式，都能游刃有余。反之，如果准备不足，再强大的智能体也会被糟糕的数据口径、混乱的数据关系、不完善的权限和劣质数据所拖累。

1. 从表清单升级为业务对象清单

目前，许多企业都拥有表清单、字段清单和数据目录，但唯独缺少一项关键资产——业务对象清单。

表清单回答的是“系统中存在哪些表”，而业务对象清单则需要回答“企业经营中有哪些核心对象值得AI去理解和分析”。

建议先从一条业务线切入，不必一开始就覆盖全企业。例如，零售企业可以从客户、订单、商品、门店、库存、营销活动开始；制造企业可以从订单、物料、设备、工单、产线、质量事件开始；ToB企业则可以从客户、商机、合同、项目、回款、服务工单入手。

每个对象至少需要整理以下信息：

对象名称与业务定义
对象主键及跨系统身份映射
对象来源系统与主要事实表
对象的关键属性
对象的生命周期状态
对象关联的核心指标
对象关联的高频经营问题

业务对象清单是整个本体化语义层的入口。缺少这个入口，后续涉及的指标、关系、事件和动作都将缺乏根基。

2. 将指标从公式升级为“对象上的经营含义”

很多企业已建立了指标平台，但指标定义仍停留在简单的公式层面：销售额等于什么，毛利等于什么，活跃用户等于什么，退款率等于什么。公式准确固然重要，但仅有公式还远远不够。

当AI参与经营分析时，它还需要明确指标归属于哪个对象、适用于哪些业务场景、能解释哪些问题。以销售额为例，它可能归属于订单、门店、商品、区域、客户群或渠道。对于“活跃”一词，运营、产品、销售、客服的理解也可能各不相同。同样，毛利在财务口径、经营口径、商品口径下也可能存在差异。

因此，在指标梳理工作中，建议额外补充以下维度：

指标归属对象
指标适用的业务场景
指标粒度与时间窗口
指标依赖的事件或状态
指标的互斥口径与近似口径
指标是否允许跨部门复用
指标异常时常见的归因方向

这项工作是指标治理的升级版，它为后续的智能体分析提供了关键约束。否则，模型只知道“这个指标怎么算”，却无法理解“这个指标在经营上该怎么用”。

3. 梳理对象关系，避免让模型猜测join路径

数据团队最容易低估的一项工作是关系建模。

在传统的SQL开发中，许多join路径都依赖经验来完成。资深同事知道客户表如何关联订单表，订单表如何关联商品表，商品表如何关联库存表，门店表如何关联区域表。然而，对于智能体来说，这些经验如果没有被资产化，就等于不存在。

因此，数据部门应当将高频的对象关系显式地梳理出来。至少需要明确：

对象A和对象B之间的业务关系是什么
关系是一对一、一对多、多对多，还是时间相关关系
关系依赖于哪些字段或中间表
哪些关系路径适合分析，哪些只适合明细追踪
哪些join会导致口径膨胀或重复计算
哪些关系需要权限或租户隔离

举个例子，客户到订单、订单到商品看似是自然的关系。但如果客户ID在多个系统中不统一，订单中既有下单人又有支付人，商品有SKU、SPU、类目多层结构，区域归属可能按收货地址、门店地址、销售组织分别计算——此时，join路径就变得复杂了。

智能体会被两类问题拖累：没有数据，以及关系路径看似存在但实际含义不清。后者的隐蔽性更强。这类问题越早梳理，后续的AI数据应用就越稳定。

4. 建立经营问题集，而不仅仅是SQL样例库

很多团队会收集历史上的SQL，作为AI生成SQL的参考。这固然有用，但还不够。

SQL样例只记录了某次取数的技术实现，却未必包含当时的业务问题、口径选择、边界条件和解释方式。更有价值的是经营问题集。

例如：本月销售额为何低于目标？哪些门店近期毛利异常？哪些客户复购率下降值得关注？哪些商品库存周转变慢？哪些项目回款风险上升？哪些区域的活动投入产出不匹配？

每个问题最好补充以下内容：

问题所属的业务场景
需要涉及哪些对象
需要涉及哪些指标
可能的归因路径
必须避免的误解
需要返回的证据
适用的角色与权限边界

这套经营问题集，未来可以成为语义层的测试集、智能体的回归集以及业务的验收集。如果企业只能沉淀SQL样例，AI会越来越像一个会写SQL的外包；如果企业能沉淀经营问题集，AI才有机会真正融入经营分析工作流。

5. 将权限从数据权限升级为语义权限

传统的数据权限主要围绕库、表、字段和行级规则展开，这些仍需保留。但在智能体场景中，权限问题会更加复杂。

用户能否看到某个字段，这只是第一层。更复杂的问题包括：用户能否看到某类经营对象？能否看到对象之间的关系？能否看到聚合后的敏感指标？能否获得AI的归因解释？能否让智能体给出行动建议？能否触发后续任务或写回流程？

例如：区域经理可以查看自己区域的销售额，但可能无法查看全国所有区域的门店明细。门店店长可以查看本店客户的复购情况，但可能无法查看客户跨门店的行为。财务角色可以查看毛利和费用，而运营角色可能只能查看脱敏后的经营指标。

如果权限只停留在表和字段层面，智能体很容易在解释、归因和总结时跨越业务边界。因此，数据部门需要提前构建语义权限的视角：哪些对象对哪些角色可见，哪些关系可见，哪些指标可见，哪些解释可见，哪些建议可见。

AI数据应用的权限治理，不能只管理“查到了什么”，还要管理“它理解了什么、解释了什么、建议了什么”。

6. 为语义资产建立版本、审核与回滚意识

许多企业在指标治理中，最痛苦的环节往往出现在定义之后——指标变了，组织如何保持一致？本体化语义层也是如此。

业务对象会变，关系会变，指标口径会变，权限策略会变，经营问题也会变。如果这些变化没有版本管理，智能体的回答将逐渐变得不可追踪。

因此，团队需要提前建立几个意识：语义模型要有版本，语义发布要经过审核，高频问题要做回归测试，错误回答要能追踪到语义路径，口径变更要能解释影响范围，发布后要能支持回滚。

这听起来像是研发流程，但数据语义资产进入AI场景后，本身就应当具备工程化治理能力。过去，一个指标口径错了，影响的可能只是一张报表。在智能体场景中，一个语义定义错了，可能影响问答、归因、报告、建议、任务触发和管理动作。语义资产一旦成为智能体的工作底座，就必须从“文档资产”升级为“可发布、可回归、可审计的工程资产”。

7. 让业务专家参与建模流程，不要幻想完全自动建模

大模型确实可以完成许多建模辅助工作。它能阅读PRD，整理访谈纪要，归类业务问题，生成候选对象，总结指标口径，发现字段命名差异，将散落的规则整理成草案。

但业务语义不能完全交由模型决定。原因很简单：模型可以从文本和数据中推断模式，却不能替企业承担业务责任。哪些指标采用哪个口径，哪些关系在经营上成立，哪些字段属于敏感信息，哪些动作需要审批，哪些结论可以对外展示——这些都需要业务专家和数据负责人共同确认。

因此，本体化语义层的建设，天然需要人机协同。模型负责加速候选生成、文档整理、差异发现和问题聚类；人负责定义边界、审核口径、签署发布、处理争议。AI能够降低语义建模的体力成本，但不能取消语义责任。

这也是数据部门负责人必须提前设计的组织机制。如果没有语义资产的负责人，没有审核流程，没有变更记录，没有争议处理机制，后续的AI数据系统很难进入核心经营场景。

二、先别急于打造全能经营助手，优先铺稳结构化数据的语义地基

许多企业一谈到AI，就希望打造全能经营助手——能够查数据、做分析、写报告、制作PPT、拉群沟通、发送任务、触发审批、写回系统。愿景固然美好，但落地的顺序不能乱。

特别是对于数据部门而言，如果结构化数据的语义地基没有铺好，直接构建全能智能体，会将所有问题混为一谈。回答错了，究竟是模型理解错了，还是指标口径错了？查不出来，是权限问题，还是关系路径缺失？解释不清，是业务对象没有建模，还是RAG没有召回？建议不靠谱，是归因逻辑不完整，还是行动边界没有定义？

没有语义层作为控制面，这些问题很难被拆解开来。

更稳妥的顺序是，先选择一个结构化数据相对清晰、经营问题频繁、业务负责人愿意配合的场景。例如销售经营分析、门店经营分析、客户增长分析、库存周转分析、项目回款分析、财务费用分析。

围绕这个场景，先将五类资产准备到位：业务对象、指标归属、对象关系、经营问题集、语义权限。这五类资产准备好之后，再考虑让智能体进行问答、归因、解释、报告和任务建议。

这样做的好处是，团队可以将AI的能力限制在一个清晰的语义空间内。它不会一开始就被全企业的所有表、字段、口径和权限拖垮。更重要的是，团队可以积累一套可复用的方法。第一个场景完成后，第二个场景就可以复用对象建模方法、指标治理方法、关系梳理方法、问题集方法、权限策略方法和回归测试方法。

本体化语义层的建设，不适合用“大干快上”的方式一口吃成胖子。它更适合从高价值场景入手，将业务对象和经营问题逐步资产化。数据负责人当前需要争取的，是一个可以持续扩展的语义建模方法，全面覆盖系统则可以排在后续。

三、Data Infra 团队的角色将被重新定义

AI对数据部门的影响，不会仅停留在工具层面。它将改变Data Infra团队在企业中的角色。

过去，数据平台团队常被视为支撑部门。业务提出需求，数据团队负责建表、跑任务、做报表、保稳定、保性能、保质量。随着发展，数据团队开始构建指标平台、数据治理、数据服务，逐步从交付团队转变为平台团队。

随着AI经营管理的推进，数据团队还将承担一类新职责：为智能体定义企业的业务世界。这个职责比写SQL更靠前，也比做报表更贴近经营。它要求数据团队理解业务对象、经营问题、指标口径、系统关系、权限边界，同时也要求团队具备工程化治理能力。

未来，一个优秀的数据负责人可能需要同时管理三类资产。

第一类是数据资产：表、字段、任务、分层模型、数据质量、血缘、成本、性能。

第二类是语义资产：对象、关系、事件、状态、指标、规则、权限、问题集、解释路径。

第三类是智能体可用资产：工具、技能、语义计划、问题回归、回答证据、运行轨迹、异常复盘。

这三类资产如果分散在不同团队、不同文档、不同系统中，AI数据应用很难稳定。如果能够被统一组织起来，数据团队将从“数据供给者”升级为“AI经营基座建设者”。

下一阶段Data Infra的价值，不仅在于将数据计算出来，还在于将企业经营世界构建成智能体可以理解、验证和治理的结构。这也是为什么说，本体化语义层将成为结构化数据方向上非常值得提前准备的技术路线。它的目的不是追逐概念，而是回答一个非常现实的问题：当AI要进入企业日常经营管理时，现有的数据基建还缺少哪一部分表达能力。

写在最后：先别急着替换数仓，先将数仓资产升级为语义资产

如果要将这篇文章浓缩成一个判断，可以这样表达：

AI时代的数据基建升级，应当沿着一条更稳健的主线推进——保留离线数仓、实时数仓和湖仓一体的事实供给能力，同时让沉淀下来的结构化数据资产生长出可供智能体使用的业务语义控制面。

离线数仓仍然需要建设，实时数仓仍然需要建设，湖仓一体仍然有其价值，OLAP仍然需要承担性能和交互查询。这些基础底座不会因为AI的出现而失去意义。

但如果数据部门只停留在表、字段、任务、指标和报表层面，AI数据应用将长期卡在问答和演示阶段。

下一阶段更值得提前准备的是：业务对象清单、指标与对象的归属关系、对象之间的关系路径、事件与状态模型、高频经营问题集、语义权限边界、语义版本发布、回归与审计机制。

这些准备工作短期内或许不如打造一个炫酷的智能体那样引人注目，但它们的价值将决定企业AI数据应用能够走多远。因为企业经营管理中的AI，最终要面对的是一个包含对象、关系、状态、规则、权限和责任的完整业务世界，这远比一堆孤立的表格复杂得多。

如果数据负责人能够提前将这一层业务世界构建起来，AI给数据部门带来的将不仅仅是岗位压力，而是Data Infra团队重新定义自身价值的一次重要机遇。

来源：https://cloud.tencent.com.cn/developer/article/2685505

大数据

上一篇Spring Boot配置加载过程详解 下一篇Linux exportfs命令详解：管理NFS文件系统挂载

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。