在数据的采集方式、使用环境以及不同组织之间的语义差异影响下,数据碎片化问题日益凸显。随着大模型技术的兴起,企业数据治理正迎来深刻变革——自然语言有望成为全新的“数据语言”,帮助用户更便捷地访问数据,而无需费力应对那些导致碎片化的技术障碍。

就当前阶段而言,大模型与数据治理的融合仍处于早期探索期。尤其是对中国大多数企业来说,数据治理的基础相对薄弱,短期内大模型带来的变革幅度有限。但从长远来看,这一趋势不可忽视,企业应当提前布局,思考它可能带来的深远影响。
01 大模型对数据治理工作的影响
大模型正通过自然语言改变数据治理活动的执行模式,使这些操作更加易于上手。例如,与元数据管理工具的深度集成,以及基于行业或企业语料库训练的大语言模型,结合语义工具和知识图谱,正在推动数据治理走向“对话化”。未来,企业或许只需通过自然语言指令,就能完成大量数据治理任务。这不仅降低了技术门槛,也显著提升了数据治理专家的工作效率,同时优化了运营成本。
大模型对数据治理的影响主要体现在两个方向:一是让模型学习数据语义,通过元数据的发现、构建与上下文语义维护,帮助模型“理解”新数据;二是利用大模型修正并生成代码,从而强化数据探索、数据工程、数据操作与管理的能力。
不过,目前这些活动仍需要人工干预与管控——例如确保元数据的一致性、处理异常情况,或验证生成代码的准确性。
从业务价值来看,大模型赋能数据治理后,企业有望实现以下目标:提升数据治理团队的工作效率;优化整体成本;降低非技术用户的使用门槛,使他们能够更快获取数据洞察。
02 大模型在数据治理领域的应用场景
(1)元数据发现与知识图谱生成
发现并记录元数据,进而基于这些元数据构建知识图谱,正在成为企业的一项核心能力。这也是通过大模型增强的“数据编织”来解决数据碎片化问题的第一步。尽管许多数据治理工具已提供数据目录功能以实现元数据管理的自动化,但能够展示元数据使用情况的知识图谱功能仍然较为稀缺。
大模型为增强型元数据管理提供了全新思路。它可以通过类似于内容管理的策略,提取数据语义,识别数据使用的上下文。虽然语义差异——例如销售部门与营销部门对“客户”的定义方式不同——可能无法彻底消除,但通过上下文能够有效缓解。营销部门使用一套术语,销售部门使用另一套,两者之间的关系记录在知识图谱中,便能在跨部门业务场景中缩小理解上的偏差。
(2)代码生成与代码校正
代码生成意味着用户可以通过自然语言来创建数据管道,这不仅提升了数据工程师的生产力,也有望降低数据工程的技术门槛,让非技术用户也能参与其中。不过,用户仍需对生成的代码进行检查,找出并修正其中可能存在的逻辑错误。因此,数据工程师依然需要理解大模型生成的代码,并熟悉底层的数据表示,以确保代码的准确性。
代码校正与维护——例如为代码添加注释说明——则是另一种利用大模型改进数据工程、数据质量和治理活动的方式。大模型能够帮助识别数据上下文中的错误,比如在查询时选错了表的场景。此外,它还可用于检测语义差异,例如不同概念使用了同一术语,或同一术语被用于不同的计算逻辑。这些能力在数据质量规则的异常检测、或自动应用数据质量规则方面,也具有广阔的应用前景。
(3)用于部署与管理的对话式界面
大模型还可用于数据管道或系统健康监测——包括成本监控——的简单操作指令。这些功能将显著降低用户的操作难度和成本,但从根本上来说,并不会改变数据管理的操作方式。随着时间的推移,结合其他AI技术与代码生成能力后,更多管理和部署工作将走向自动化,系统甚至有可能实现自我修复、自我调整以及成本优化。
03 大模型用于数据治理领域的风险
大模型在改变数据治理市场与实践的同时,也会给企业带来几项需要额外关注的风险:
第一,与其他应用场景类似,大模型在数据治理领域也容易出现“幻觉”。生成的查询或代码可能包含错误,数据发现的过程也可能不够准确。
第二,当大模型连接到企业数据时,会带来与安全性、隐私性甚至元数据泄露相关的风险,这可能给企业带来新的挑战。
第三,企业数据负责人可能会面临技术上的额外支出和复杂度增加的问题。
第四,大模型带来的易用性和生产力提升,并不能解决数据本身的质量问题。如果企业希望获得准确可靠的数据,就必须扎实完善数据治理,加强元数据管理。
第五,使用嵌入大模型或RAG的数据管理技术,可能会导致计算成本显著上升。企业需要在投入成本与预期收益之间找到平衡点。
第六,在模型尚未达到足够准确度之前,可能需要反复进行人工培训和修正模型输出,这反而会给员工带来额外的负担。
第七,在将大模型应用于数据治理之前,企业需要进行专门的技能培训。所有员工——包括业务人员——都需要更深入地理解数据相关知识,才能更好地把握大模型对数据治理的影响。而负责数据治理的员工,则要掌握更多大模型相关技术,例如提示工程。数据管理员、数据架构师、数据工程师和运营人员,都需要承担起培训、验证和测试大模型的工作。
