游乐游手机版
首页/AI热点日报/热点详情

瓴羊Dataphin AI驱动数据治理标准先行

类型:热点整理2026-06-04
尽管AI项目呈现爆发式增长,但在具体业务落地时,许多项目却难以避免“雷声大雨点小”的窘境。其中一个关键原因绕不开数据质量。Gartner的预测也印证了这一点:到2025年,国内至少三分之二的生成式AI项目,或将因数据质量短板而面临“烂尾”风险。 那么,在AI时代,如何将数据治理这一老问题重新抓起,使

尽管AI项目呈现爆发式增长,但在具体业务落地时,许多项目却难以避免“雷声大雨点小”的窘境。其中一个关键原因绕不开数据质量。Gartner的预测也印证了这一点:到2025年,国内至少三分之二的生成式AI项目,或将因数据质量短板而面临“烂尾”风险。

那么,在AI时代,如何将数据治理这一老问题重新抓起,使其真正服务于业务发展?

这正是瓴羊「数据荟」数据Meet Up第3站的核心议题。会上,瓴羊高级技术专家周鑫围绕“AI驱动数据治理”分享了实践与思考,重点从数据治理的固有难点出发,探讨AI能够带来哪些实质性突破,尤其是瓴羊Dataphin在效率提升方面的具体方案。

数据标准:数据治理“化零为整”的核心抓手

先来看一个根本问题:数据治理,为什么如此艰难?

症结究竟在哪里?简而言之,治理过程涉及的点多面广,始终缺乏一个核心抓手。周鑫在分享中指出,大多数企业在开展数据治理时,都需经历现状评估、目标制定、计划执行与持续监控等环节。每一步的工作量都相当可观,导致治理动作十分零散,稍有不慎就容易偏离最初目标。更棘手的是,即便咬牙完成了第一轮治理,后续的迭代过程也异常痛苦——业务变化导致目标需调整,但增量式迭代难以实现,往往需要从零开始重新评估;已完成的治理项,变更影响仍需全量评估,成本高得惊人。

解决问题的关键,在于找到一个能将所有碎片串联起来的核心——数据标准

近两年,国家层面持续发力,从《“数据要素x”三年行动计划》到国家数据标准体系,再到全国数据标准化技术委员会的成立,都在不断强化数据标准的战略地位。周鑫的观点十分明确:企业只要将数据标准梳理清晰,大部分数据治理工作便可顺势完成。

以瓴羊Dataphin的实践为例,企业在完成业务与数据盘点后,统一进入Data Catalog,再在此基础上梳理数据标准。Dataphin在建立数据标准的过程中,会自动生成元数据与内容的监控,使数据标准贯穿数据整个生命周期,实现事前、事中、事后的标准落标稽核。

举个例子,在设置身份证号的标准时,系统会根据用户填写标准属性,自动生成一系列元数据、内容监控和安全分级。这样一来,用户在治理过程中只需紧盯那些不满足标准的数据即可。数据标准的落标情况,便成为衡量数据质量好坏的“晴雨表”——标准覆盖越全面,数据质量自然越高。

AI激活一池春水,数据治理的提效之道

AI的爆发,为数据治理这池春水注入了新的活力。具体机会体现在哪里?周鑫将其归纳为三个层次。

首先,AI能够有效理解结构化与非结构化数据,自动完成业务梳理,大幅提升数据标准建设的效率。其次,标准建立之后,AI可以接手自动治理工作——构建质量规则、实现分类分级与特征识别,全面管控数据生命周期。最后,数据治理动作完成后,AI还能自动评估治理效果,并据此优化治理策略,形成数据治理的良性内循环。

Dataphin解决方案:让“好数据”成就“好业务”

落到具体场景,问题就更加直观了。

“我是电商业务负责人,今年大促目标是GMV提升20%,数据能帮我做什么?”

“我正在准备做运营外投,对于圈选母婴群,希望从数据上结合知识库,有什么建议?”

“我是产品运营,我想了解产品的销量指标定义是什么?”

这些问题,在AI助力下,都能通过对话的方式直接获得回应。承载这一能力的平台,名为“智能小D”。

周鑫解释道,智能小D在Dataphin中扮演的是数据PD与数据架构师的角色。它依托阿里云百炼平台与开源Dify提供支持,擅长数据的梳理与应用。未来,智能小D还将进一步支持非结构化知识与智能体管理,用户甚至可以通过挂载自定义智能体,实现个性化的功能拓展。

借助智能小D,用户可以直接从业务需求出发寻找数据。例如,“我要找客户表”、“我要做客户分层,需要哪些表?”、“销量下降明显,可能的原因有哪些?”——大模型会进行分解与联想,直接给出对应的数据资产表,用户完全无需绞尽脑汁将需求拆解成资产关键词。

除了数据查找,Dataphin还在资产上架环节引入了AI能力,使流程大幅简化。以往,一张表上架到目录,需要经历以下步骤:逐一描述表及字段的名称与含义;理解目录结构,制定便于搜索的标签;若发现表中还有指标需上架,还得返回重做。一套几百个字段下来,至少需半小时才能完整上架。引入AI后,Dataphin可以智能生成所有描述,规划目录,自动识别潜在指标,用户确认无误后一键上架,几十秒即可完成。

特征识别方面,AI同样降低了门槛。例如识别性别字段,过去需要编写SQL能识别的正则表达式,且要穷举各种表达方式(男/女、Male/Female、Sex/性别),很难一次性枚举全面。引入AI后,Dataphin可以自动生成所有正则表达式,几十秒内完成一次特征识别。

周鑫透露,目前Dataphin的数据治理AI计划正处于提效阶段。下一步将引入更多行业与业务知识,增强对非结构化数据的理解,辅助生成质量规则。完成提效后,数据治理将进入自动化阶段,平台能自动生成质量规则、自动处理分类分级与敏感数据识别。最终,在更高阶的智能化阶段,Dataphin将基于对业务流程的深度理解,自动生成数据标准,全面提升数据治理的智能化水平。

著名信息技术领域思想领袖J. Ladley在《数据治理》一书中曾指出,数据治理的最终目标是使其不再是一项孤立计划,而是成为业务核心的组成部分。瓴羊Dataphin的目标,正是将数据治理融入业务环节,推动其从支撑性工具走向核心驱动力,用智能化手段赋能企业战略决策与创新实践。

来源:https://www.53ai.com/news/zhishiguanli/2025011546915.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。