DataWorks Data Agent助力菜鸟人工智能数据研发实现SuperETL实践落地

时间：2026-06-03 18:58

聊到数据研发，大家第一反应往往是“写SQL、做报表、调优运维”。但菜鸟在深度拥抱AI之后，发现这套传统流程正在被重新定义。作为DataWorks DataAgent的首批深度共创用户，菜鸟集团结合自身在物流行业十余年的数仓建设经验，自研了一套名为SuperETL的智能体系统。这套系统通过精细化的Sk

聊到数据研发，大家第一反应往往是“写SQL、做报表、调优运维”。但菜鸟在深度拥抱AI之后，发现这套传统流程正在被重新定义。作为DataWorks DataAgent的首批深度共创用户，菜鸟集团结合自身在物流行业十余年的数仓建设经验，自研了一套名为SuperETL的智能体系统。这套系统通过精细化的Skill编排、生产级的安全阻断机制，以及结构化的知识沉淀，将数据研发效率直接拉高了2-3倍。在一些核心场景里，AI的自动完成率甚至超过了80%。这不仅仅是工具层面的优化，更像是一次从“工具辅助”到“智能体主导”的范式跃迁。

那么，具体是怎么做到的？我们从头拆解。

研发现状与核心痛点：为什么传统链路难以为继？

菜鸟的数据研发流程，其实跟多数企业大同小异。从需求到交付，大致可以拆成6个阶段，精力分布接近3:5:2——30%花在需求调研上，50%用于同步、建模、开发与运维，剩下的20%才是数据应用。这套链路本身并不新鲜，但真正的问题在于它横跨了多个技术栈：需求管理用Aone，离线开发用DataWorks，实时计算靠Flink，湖仓存储选Paimon，最终报表又落到FBI。链路过长，平台割裂，协同成本自然居高不下。

系统性复盘后，团队总结了三大瓶颈，直指传统模式的硬伤：

流程割裂。 多引擎架构导致链路被拆得七零八落。从需求管理到任务开发，再到流计算、湖仓和数据应用，每跳过一个平台，信息就要重新对齐一次，沟通成本远高于技术成本。

规范虚设。 物流领域沉淀下来的表命名规则、字段标准、分层架构等规范，按理说应该是指南针。但人员一流动，执行机制一缺失，这些规范就沦为了躺在文档里的字。实际执行率到底有多少？无从量化。

质量难控。 数据测试覆盖不全、DQC配置不合理、代码评审流于形式——这些问题带来的后果，直接体现在运维负担上。模型一旦发布，下游可能牵扯十层依赖、几百个任务。出了问题，修复成本是一路狂飙的指数级增长。

破局思路：结合DataWorks DataAgent构建SuperETL智能体系统

DataWorks DataAgent本身并不是一个简单的SQL生成器。它的定位是“懂业务的智能体”。覆盖数据集成、开发、运维、治理、分析全链路，能通过自然语言完成复杂的数据开发任务。关键是，它可以深度适配用户的业务逻辑，成为真正“懂行”的AI同事。

基于这个底座，菜鸟构建了SuperETL智能体系统。这个系统的核心理念，是实现三个维度的转变：

开发方式转变： 从“工具辅助”到“智能体驱动”。AI不再只是帮写代码的辅助角色，而是研发流程的主导者；人类专家则退居幕后，负责规则制定和质量把关。
业务深度融合： 注入物流领域的“行业Know-how”。包括数仓规范、表命名标准、指标口径定义等，全部通过结构化方式沉淀为AI可执行的Skills。
价值显著体现： 部分场景的开发效率提升2-3倍。特别是在采购领域的数据建设上，AI能自动完成大部分工作，几乎是“从需求到交付”的全流程闭环。

DataWorks DataAgent提供了完整的底座支撑。交互层支持CLI、IDE、IM、OpenAPI多入口统一负载；资源层通过Serverless Resource Group实现弹性伸缩；执行层则有Code Agent Sandbox代码沙箱、Claw运维服务、MCP/Skill Runtime工具执行。最终构成的是一个免运维、可弹性、强隔离的企业级全托管体系。

SuperETL核心架构：九大精细化Skill编排体系

SuperETL本质上是一个集成了菜鸟物流行业经验的中间层研发Skill编排体系。那么问题来了：为什么不把全链路打包进一个Skill？

原因很直接——数据规范、Checklist、运维经验构成的上下文实在是太庞大了。如果你试图把所有这些信息一股脑塞进一个Skill里，大模型很难精确控制每一步操作。参考开源Superpower模式，菜鸟的做法是把数据研发场景拆成了9个独立的Skill，再加上铁律约束。这样就能实现“意图路由→分步执行→安全拦截”的精细化管理。

九大技能体系的精细编排：

using-superetl（元技能）： 入口路由器，负责意图识别。铁律：禁止直跳子技能。
etl-deepresearch（检索）： 先搜后答。将行业经验沉淀为MD文档检索。铁律：先搜索后回答，禁止先问用户。
etl-debugging（诊断）： 处理数据问题。铁律：无数据证据前绝不提修复方案。
etl-brainstorming（需求沟通）： 压制AI幻觉。铁律：设计未确认前禁止发布。
etl-writing-plans（计划编写）： 输出MD格式的实施计划。铁律：计划确认前禁止写SQL。
etl-validated-coding（验证式开发）： 边探查边编写，包含单元测试。铁律：没有验证证据的SQL禁止发布。
etl-review-and-release（评审与发布）： 人工与AI审查结合。铁律：未通过检查项禁止发布，没有例外。
etl-dispatch-parallel（并行分派）： 处理独立任务。铁律：有依赖时禁止并行。
etl-subagent-driven（子袋里驱动）： 独立子袋里，再加两阶段审查。

执行流程从需求接入开始，强制注入using-superetl元技能进行场景判断。如果走数据需求，就进入etl-deepresearch深度检索；如果是诊断巡检，就走etl-diagnosis；如果是数据异常，则走etl-debugging。deepresearch还有一个置信度评估机制：30%-90%置信度的，精准提问1-2个问题；低于30%的，直接进入头脑风暴；超过90%的，直接回答。之后依次经过计划编写、验证式编程、评审发布，步步为营。

六大知识资源库：

目录	内容示例	作用
spec/	数仓架构、表设计、字段标准	提供AI检索的权威依据
checklists/	模型设计Checklist、发布前Checklist	强制质量卡点
templates/	DDL模板、ETL SQL模板	保障代码风格统一
guides/	离线建模理论、Medallion架构	补充领域知识
techniques/	SQL优化、运维排障经验	沉淀实战Know-how
wiki/	原始业务文档、实体关系	构建知识图谱基座

Hooks机制：生产安全的核心保障

Hooks机制是整个系统的安全核心。它定义了四个触发时机：SessionStart（会话启动）、PreToolUse（工具调用前）、PostToolUse（工具调用后）、SessionEnd（会话结束）。通过hooks.json路由配置，使用matcher正则匹配来选择合适的hook脚本，由run-hook.cmd负责执行。

典型能力场景包括：会话启动时注入using-superetl、规范读取追踪、数据上报、DataWorks发布阻断、wiki整合等。其中最关键的莫过于发布阻断机制。当检测到写操作或发布命令时，Hook会直接拦截，并给出提示：“检测到发布/写操作，必须先完成发布前检查清单。”只有逐项验证通过，且命令前携带了CHECKLIST_VERIFIED=1前缀，才能放行。这个设计彻底杜绝了“带病上线”的可能性。

CLI工具与未来研发范式

为了支撑SuperETL，菜鸟构建了cn-odpscmd统一CLI工具。它覆盖了ODPS、DataWorks、元数据、FBI报表等所有核心能力。特别强调一点：工具严格区分开发环境（带_dev后缀）和生产环境。所有SQL查询，都必须在开发环境执行。

核心能力包括：权限初始化与登录、SQL查询执行（query执行SQL，query--file从脚本执行，query--output导出CSV）、DataWorks脚本管理（createnode创建、updatenode更新、deploynode发布）、元数据查询（tablemeta查表结构、tablelineage查血缘、tasklogs查日志）、FBI报表查询以及项目空间权限查询。

实战推演：物流单量汇总表新增字段

理论说完了，来看一个真实的例子。假设有个需求：为物流单量汇总表dws_lgt_order_1d新增一个“签收及时率”字段。整个流程被拆成了六步，每一步都展示了SuperETL的实战价值。

第一步：意图路由。 using-superetl读取请求“新增签收及时率字段”。匹配触发词后，路由到deepresearch。SessionStart时注入9个技能，最终输出分类结果为“新增字段需求”。Hook在SessionStart时注入skillsystem，确保using-superetl始终作为入口。

第二步：拉取检索。 etl-deepresearch检索表结构dws_lgt_order_1d，读取规范spec/02、03，再通过dataworksskills检索任务和下游。评估置信度低于90%后，将任务转交给brainstorming。Hook通过spec-tracker记录规范读取情况，track-skill-invocation记录技能调用。

第三步：明确逻辑。 etl-brainstorming明确业务逻辑：签收及时率=及时签收/总单量。确定数据类型为DECIMAL[10,4]，字段命名为sign_on_time_rate，数据来源是ods_logistics_order。最终由用户确认设计方案。Hook记录技能调用并读取DDL template。

第四步：生成计划。 etl-writing-plans编写实施计划：ALTER TABLE ADD COLUMN，修改ETL SQL增加计算，数据测试比对计算结果，制定回刷方案重算历史数据。最终输出计划到docs/plans/目录。Hook推荐checklist并将计划输出到指定位置。

第五步：验证开发。 etl-validated-coding编写DDL+ETL SQL变更。单元测试通过后，进行数据验证和SQL性能优化。最后由etl-code-reviewer Agent进行审查。Hook在PostToolUse阶段通过spec-tracker持续追踪。

第六步：安全发布。 etl-review-and-release完成功能验证（数据测试通过），准备回刷回退脚本，配置DQC+SLA监控，完善注释。在CHECKLIST_VERIFIED=1确认后，才能发布到生产环境。Hook在deploy-check时通过flag判断是否放行。

这个案例完整展示了SuperETL如何将一个看似简单的字段新增需求，通过标准化的技能编排、规范检索、交互式确认、计划编写、验证式开发、checklist审查，最终安全发布到生产环境。整个过程有条不紊，AI的角色从“执行者”变成了“流程主导者”。

展望AI时代的数据研发范式

那么，未来的研发范式会变成什么样？

不变的是数据分层架构（ODS-CDM-ADM）和维度建模方式。每个数据域依然包含ODS贴源层、CDM公共模型（DWD/DWS/DIM）、ADM分析域。这些是数据工程的基石，不会因为AI的介入而改变。

变化的是组织方式与交付物。从项目制数仓走向数据网格/数据域，按业务域拆分（比如交易、物流、LLM数据域）。知识层（WIKI/知识图谱）被空前强化，表知识定义、概念实体、指标层次关系都将作为核心资产纳入研发范式。

应用层会全面AI化。传统BI看板之外，会出现AI Skills（自然语言知识检索）、AI Reports（自动生成经营分析）和System Apps（数据驱动业务动作）。LLM数据域被显式纳入，大模型调用、成本、时效都成为数据平台治理的一部分。

交付物也从报表转向AI分析Skill、分析思路及深度分析报告。数据研发不再是“建表—出数—做报表”的循环，而是“源系统采集→域化建模→知识化沉淀→AI可用→应用自动化”的完整闭环。

总结一下：菜鸟SuperETL的实践证明，这场AI时代的数据研发升级，本质上就是将DataWorks DataAgent与行业知识、研发规范、质量标准有机结合，并系统性地转化为AI可执行的技能体系。通过九大Skill的精细编排、Hooks的安全阻断、CLI工程的支撑与知识资产的沉淀，才能最终实现从“人写代码”到“人定规则、AI执行交付”的真正跨越。这条路，可复制、可落地，值得所有在数据领域深耕的团队认真参考。

来源：https://juejin.cn/post/7646404763681062975