游乐游手机版
首页/AI教程/文章详情

DataWorks Data Agent助力菜鸟人工智能数据研发实现SuperETL实践落地

时间:2026-06-03 18:58
聊到数据研发,大家第一反应往往是“写SQL、做报表、调优运维”。但菜鸟在深度拥抱AI之后,发现这套传统流程正在被重新定义。作为DataWorks DataAgent的首批深度共创用户,菜鸟集团结合自身在物流行业十余年的数仓建设经验,自研了一套名为SuperETL的智能体系统。这套系统通过精细化的Sk

聊到数据研发,大家第一反应往往是“写SQL、做报表、调优运维”。但菜鸟在深度拥抱AI之后,发现这套传统流程正在被重新定义。作为DataWorks DataAgent的首批深度共创用户,菜鸟集团结合自身在物流行业十余年的数仓建设经验,自研了一套名为SuperETL的智能体系统。这套系统通过精细化的Skill编排、生产级的安全阻断机制,以及结构化的知识沉淀,将数据研发效率直接拉高了2-3倍。在一些核心场景里,AI的自动完成率甚至超过了80%。这不仅仅是工具层面的优化,更像是一次从“工具辅助”到“智能体主导”的范式跃迁。

那么,具体是怎么做到的?我们从头拆解。

研发现状与核心痛点:为什么传统链路难以为继?

菜鸟的数据研发流程,其实跟多数企业大同小异。从需求到交付,大致可以拆成6个阶段,精力分布接近3:5:2——30%花在需求调研上,50%用于同步、建模、开发与运维,剩下的20%才是数据应用。这套链路本身并不新鲜,但真正的问题在于它横跨了多个技术栈:需求管理用Aone,离线开发用DataWorks,实时计算靠Flink,湖仓存储选Paimon,最终报表又落到FBI。链路过长,平台割裂,协同成本自然居高不下。

系统性复盘后,团队总结了三大瓶颈,直指传统模式的硬伤:

流程割裂。 多引擎架构导致链路被拆得七零八落。从需求管理到任务开发,再到流计算、湖仓和数据应用,每跳过一个平台,信息就要重新对齐一次,沟通成本远高于技术成本。

规范虚设。 物流领域沉淀下来的表命名规则、字段标准、分层架构等规范,按理说应该是指南针。但人员一流动,执行机制一缺失,这些规范就沦为了躺在文档里的字。实际执行率到底有多少?无从量化。

质量难控。 数据测试覆盖不全、DQC配置不合理、代码评审流于形式——这些问题带来的后果,直接体现在运维负担上。模型一旦发布,下游可能牵扯十层依赖、几百个任务。出了问题,修复成本是一路狂飙的指数级增长。

破局思路:结合DataWorks DataAgent构建SuperETL智能体系统

DataWorks DataAgent本身并不是一个简单的SQL生成器。它的定位是“懂业务的智能体”。覆盖数据集成、开发、运维、治理、分析全链路,能通过自然语言完成复杂的数据开发任务。关键是,它可以深度适配用户的业务逻辑,成为真正“懂行”的AI同事。

基于这个底座,菜鸟构建了SuperETL智能体系统。这个系统的核心理念,是实现三个维度的转变:

  • 开发方式转变: 从“工具辅助”到“智能体驱动”。AI不再只是帮写代码的辅助角色,而是研发流程的主导者;人类专家则退居幕后,负责规则制定和质量把关。
  • 业务深度融合: 注入物流领域的“行业Know-how”。包括数仓规范、表命名标准、指标口径定义等,全部通过结构化方式沉淀为AI可执行的Skills。
  • 价值显著体现: 部分场景的开发效率提升2-3倍。特别是在采购领域的数据建设上,AI能自动完成大部分工作,几乎是“从需求到交付”的全流程闭环。

DataWorks DataAgent提供了完整的底座支撑。交互层支持CLI、IDE、IM、OpenAPI多入口统一负载;资源层通过Serverless Resource Group实现弹性伸缩;执行层则有Code Agent Sandbox代码沙箱、Claw运维服务、MCP/Skill Runtime工具执行。最终构成的是一个免运维、可弹性、强隔离的企业级全托管体系。

SuperETL核心架构:九大精细化Skill编排体系

SuperETL本质上是一个集成了菜鸟物流行业经验的中间层研发Skill编排体系。那么问题来了:为什么不把全链路打包进一个Skill?

原因很直接——数据规范、Checklist、运维经验构成的上下文实在是太庞大了。如果你试图把所有这些信息一股脑塞进一个Skill里,大模型很难精确控制每一步操作。参考开源Superpower模式,菜鸟的做法是把数据研发场景拆成了9个独立的Skill,再加上铁律约束。这样就能实现“意图路由→分步执行→安全拦截”的精细化管理。

九大技能体系的精细编排:

  1. using-superetl(元技能): 入口路由器,负责意图识别。铁律:禁止直跳子技能。
  2. etl-deepresearch(检索): 先搜后答。将行业经验沉淀为MD文档检索。铁律:先搜索后回答,禁止先问用户。
  3. etl-debugging(诊断): 处理数据问题。铁律:无数据证据前绝不提修复方案。
  4. etl-brainstorming(需求沟通): 压制AI幻觉。铁律:设计未确认前禁止发布。
  5. etl-writing-plans(计划编写): 输出MD格式的实施计划。铁律:计划确认前禁止写SQL。
  6. etl-validated-coding(验证式开发): 边探查边编写,包含单元测试。铁律:没有验证证据的SQL禁止发布。
  7. etl-review-and-release(评审与发布): 人工与AI审查结合。铁律:未通过检查项禁止发布,没有例外。
  8. etl-dispatch-parallel(并行分派): 处理独立任务。铁律:有依赖时禁止并行。
  9. etl-subagent-driven(子袋里驱动): 独立子袋里,再加两阶段审查。

执行流程从需求接入开始,强制注入using-superetl元技能进行场景判断。如果走数据需求,就进入etl-deepresearch深度检索;如果是诊断巡检,就走etl-diagnosis;如果是数据异常,则走etl-debugging。deepresearch还有一个置信度评估机制:30%-90%置信度的,精准提问1-2个问题;低于30%的,直接进入头脑风暴;超过90%的,直接回答。之后依次经过计划编写、验证式编程、评审发布,步步为营。

六大知识资源库:

目录内容示例作用
spec/数仓架构、表设计、字段标准提供AI检索的权威依据
checklists/模型设计Checklist、发布前Checklist强制质量卡点
templates/DDL模板、ETL SQL模板保障代码风格统一
guides/离线建模理论、Medallion架构补充领域知识
techniques/SQL优化、运维排障经验沉淀实战Know-how
wiki/原始业务文档、实体关系构建知识图谱基座

Hooks机制:生产安全的核心保障

Hooks机制是整个系统的安全核心。它定义了四个触发时机:SessionStart(会话启动)、PreToolUse(工具调用前)、PostToolUse(工具调用后)、SessionEnd(会话结束)。通过hooks.json路由配置,使用matcher正则匹配来选择合适的hook脚本,由run-hook.cmd负责执行。

典型能力场景包括:会话启动时注入using-superetl、规范读取追踪、数据上报、DataWorks发布阻断、wiki整合等。其中最关键的莫过于发布阻断机制。当检测到写操作或发布命令时,Hook会直接拦截,并给出提示:“检测到发布/写操作,必须先完成发布前检查清单。”只有逐项验证通过,且命令前携带了CHECKLIST_VERIFIED=1前缀,才能放行。这个设计彻底杜绝了“带病上线”的可能性。

CLI工具与未来研发范式

为了支撑SuperETL,菜鸟构建了cn-odpscmd统一CLI工具。它覆盖了ODPS、DataWorks、元数据、FBI报表等所有核心能力。特别强调一点:工具严格区分开发环境(带_dev后缀)和生产环境。所有SQL查询,都必须在开发环境执行。

核心能力包括:权限初始化与登录、SQL查询执行(query执行SQL,query--file从脚本执行,query--output导出CSV)、DataWorks脚本管理(createnode创建、updatenode更新、deploynode发布)、元数据查询(tablemeta查表结构、tablelineage查血缘、tasklogs查日志)、FBI报表查询以及项目空间权限查询。

实战推演:物流单量汇总表新增字段

理论说完了,来看一个真实的例子。假设有个需求:为物流单量汇总表dws_lgt_order_1d新增一个“签收及时率”字段。整个流程被拆成了六步,每一步都展示了SuperETL的实战价值。

第一步:意图路由。 using-superetl读取请求“新增签收及时率字段”。匹配触发词后,路由到deepresearch。SessionStart时注入9个技能,最终输出分类结果为“新增字段需求”。Hook在SessionStart时注入skillsystem,确保using-superetl始终作为入口。

第二步:拉取检索。 etl-deepresearch检索表结构dws_lgt_order_1d,读取规范spec/02、03,再通过dataworksskills检索任务和下游。评估置信度低于90%后,将任务转交给brainstorming。Hook通过spec-tracker记录规范读取情况,track-skill-invocation记录技能调用。

第三步:明确逻辑。 etl-brainstorming明确业务逻辑:签收及时率=及时签收/总单量。确定数据类型为DECIMAL[10,4],字段命名为sign_on_time_rate,数据来源是ods_logistics_order。最终由用户确认设计方案。Hook记录技能调用并读取DDL template。

第四步:生成计划。 etl-writing-plans编写实施计划:ALTER TABLE ADD COLUMN,修改ETL SQL增加计算,数据测试比对计算结果,制定回刷方案重算历史数据。最终输出计划到docs/plans/目录。Hook推荐checklist并将计划输出到指定位置。

第五步:验证开发。 etl-validated-coding编写DDL+ETL SQL变更。单元测试通过后,进行数据验证和SQL性能优化。最后由etl-code-reviewer Agent进行审查。Hook在PostToolUse阶段通过spec-tracker持续追踪。

第六步:安全发布。 etl-review-and-release完成功能验证(数据测试通过),准备回刷回退脚本,配置DQC+SLA监控,完善注释。在CHECKLIST_VERIFIED=1确认后,才能发布到生产环境。Hook在deploy-check时通过flag判断是否放行。

这个案例完整展示了SuperETL如何将一个看似简单的字段新增需求,通过标准化的技能编排、规范检索、交互式确认、计划编写、验证式开发、checklist审查,最终安全发布到生产环境。整个过程有条不紊,AI的角色从“执行者”变成了“流程主导者”。

展望AI时代的数据研发范式

那么,未来的研发范式会变成什么样?

不变的是数据分层架构(ODS-CDM-ADM)和维度建模方式。每个数据域依然包含ODS贴源层、CDM公共模型(DWD/DWS/DIM)、ADM分析域。这些是数据工程的基石,不会因为AI的介入而改变。

变化的是组织方式与交付物。从项目制数仓走向数据网格/数据域,按业务域拆分(比如交易、物流、LLM数据域)。知识层(WIKI/知识图谱)被空前强化,表知识定义、概念实体、指标层次关系都将作为核心资产纳入研发范式。

应用层会全面AI化。传统BI看板之外,会出现AI Skills(自然语言知识检索)、AI Reports(自动生成经营分析)和System Apps(数据驱动业务动作)。LLM数据域被显式纳入,大模型调用、成本、时效都成为数据平台治理的一部分。

交付物也从报表转向AI分析Skill、分析思路及深度分析报告。数据研发不再是“建表—出数—做报表”的循环,而是“源系统采集→域化建模→知识化沉淀→AI可用→应用自动化”的完整闭环。

总结一下:菜鸟SuperETL的实践证明,这场AI时代的数据研发升级,本质上就是将DataWorks DataAgent与行业知识、研发规范、质量标准有机结合,并系统性地转化为AI可执行的技能体系。通过九大Skill的精细编排、Hooks的安全阻断、CLI工程的支撑与知识资产的沉淀,才能最终实现从“人写代码”到“人定规则、AI执行交付”的真正跨越。这条路,可复制、可落地,值得所有在数据领域深耕的团队认真参考。

来源:https://juejin.cn/post/7646404763681062975
上一篇AI时代品牌可见性:从被搜索到被引用的转型 下一篇GitHub Copilot与Cursor对比如何选择AI编程工具
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
手把手教你免费获取小米MiMo百万亿Token及Claude Code配置全流程
AI教程 · 2026-06-04

手把手教你免费获取小米MiMo百万亿Token及Claude Code配置全流程

前言:百万亿Token免费额度领取指南 近期,小米MiMo大模型推出了重磅福利——百万亿Token的免费额度,申请流程极为简便,额度也十分充足,并且支持直接接入Claude Code等主流工具。本文将完整演示从注册申请、获取API密钥,到最终在Claude Code中完成配置的全流程,跟着操作即可轻

Sentinel-3B OLCI L3全球降分辨率叶绿素数据2022.0版
AI教程 · 2026-06-04

Sentinel-3B OLCI L3全球降分辨率叶绿素数据2022.0版

Sentinel-3B OLCI Level-3 Global Mapped Earth-observation Reduced Resolution (ERR) Chlorophyll (CHL) Data, version 2022 0 叶绿素a浓度全球网格化数据集简介 叶绿素a浓度是衡量海洋浮

我每月省千元组建一支全天候云端AI团队
AI教程 · 2026-06-04

我每月省千元组建一支全天候云端AI团队

先说个有意思的现象。 前两天,我的视频生成团队“入职腾讯”了。在WorkBuddy专家团里,不少伙伴已经开始用这个工具做短视频。本来以为这事儿就这么定了,结果这两天,反而开始疯狂返工——我发现它只能生成文字驱动的视频,还不能像真正的视频团队那样,把配图的活儿也给干了。 于是,继续优化。 先给你看个好

如何编写合格的AI工作流指令:提升编辑技能
AI教程 · 2026-06-04

如何编写合格的AI工作流指令:提升编辑技能

如何编写一个合格的 Skill:AI 工作流核心指令集指南 在 AI 工作流的实际应用中,Skill(技能指令)常常被误解。许多人将其与普通提示词(Prompt)混淆,导致写出的指令过于宽泛或模糊,AI 难以精准执行。实际上,Skill 的本质是一套结构化的行为指令集,它引导 AI 助手在特定场景下

TRAE AI编程入门第三讲:Rules、Memory、MCP与Skills突破边界
AI教程 · 2026-06-04

TRAE AI编程入门第三讲:Rules、Memory、MCP与Skills突破边界

最近几天我会逐步公开自己策划的系统化 AI 编程入门课程大纲,欢迎各位提出宝贵建议。 这套课程暂定 4+1 节:4 节主课以 TRAE 为载体,带领大家零基础入门 AI 编程;外加 1 节扩展课,专门为非技术背景的学员补充软件工程基础知识。具体安排如下: 第一节:TRAE AI 编程入门——Vibe