Aquarium华人CEO解读自动驾驶机器学习落地关键在数据管道而非模型
从学术界踏入工业界,很多人会带着对机器学习模型的深刻理解,却对如何让模型在真实世界中持续、可靠地工作感到陌生。这种感受,在自动驾驶、医疗影像等关键领域尤为深刻。模型部署上线,往往只是万&里长征的第一步。

本文作者 Peter Gao 是 Aquarium 公司的联合创始人兼首席执行官,该公司专注于开发和提供用于发现、修复深度学习数据集问题的工具。在创立 Aquarium 之前,Peter 曾在 Cruise 等公司从事自动驾驶汽车、教育和社交媒体领域的机器学习工作,积累了丰富的工业界实战经验。本文正是他结合多年生产实践,对深度学习部署核心要点的深度总结。

图注:作者团队开发第一个部署在汽车上的机器学习模型
1 将ML模型部署到自动驾驶车上的故事
在 Cruise 开发并部署第一个用于自动驾驶汽车的机器学习模型时,整个工作流程起初与研究阶段并无二致:在开源数据上训练开源模型,集成到产品软件栈,然后部署上车。几周后,代码合并,模型开始运行,团队一度以为“任务完成”。
然而,真正的挑战才刚刚开始。
模型投入生产后,质量保证团队很快发现了性能问题。但由于其他任务紧迫,团队并未立即处理。三个月后,当回头审视时,发现训练和验证脚本早已因代码库变更而崩溃。修复代码花了一周,但更关键的问题是:生产环境中暴露的许多故障,单纯修改模型代码无法解决。症结在于数据——我们需要的是从自家车辆上收集、标注的新数据,而非通用的开源数据集。
这意味着必须建立一套完整的标注流程,包括工具、操作和基础设施。又过了三个月,基于新车载数据训练的模型上线了。这时,一个更深刻的模式浮现出来:大约90%的性能问题,是通过对困难或罕见场景的数据进行精心整理来解决的,而非依赖复杂的模型架构调整或超参数优化。
例如,模型在雨天表现不佳(这在旧金山相对罕见),于是团队标注了更多雨天数据,重新训练后性能得到改善。同样,模型对绿色交通锥的识别不如橙色交通锥,针对性补充绿色交通锥数据后,问题也迎刃而解。
核心结论是,必须建立一个能够快速识别并解决此类数据问题的流程。第一个模型的1.0版本组装只用了数周,但推出一个显著改进的版本却花了六个月。随着在标注基础设施、云数据处理、训练流水线和部署监控等方面的投入,模型重新训练和部署的频率从每月逐步提升到每周。当我们将这些经验应用到新的模型管道时,构建更好、更可靠的模型变得更快、更省力。
2 保持迭代学习


图注:许多不同的自动驾驶深度学习团队,其模型管道的迭代周期都相当相似。从上到下: Waymo,Cruise 和 Tesla。
过去常有人认为机器学习的核心是模型本身。但在工业生产中,机器学习的核心其实是管道。成功最关键的一个预测指标,是团队在模型管道上有效迭代的能力。这不仅意味着“快”,更意味着“聪明”,否则管道很快会产出糟糕的模型。
与传统软件类似,机器学习系统面对的数据输入领域极其庞大。不同之处在于,模型质量不仅取决于代码实现,更依赖于其所训练的数据。这种数据依赖性使得机器学习可以通过构建和管理数据集来“探索”输入领域,让模型理解任务需求并持续适应,而无需频繁修改核心代码。
为了利用这一特性,需要引入“持续学习”的概念,强调对数据和代码的双重迭代。一个高效的机器学习团队必须能够:
- 发现数据或模型性能中的问题
- 诊断问题根源
- 通过修改数据或模型代码来解决问题
- 验证重新训练后的模型确实有所改进
- 部署新模型并重复上述循环
团队应努力做到至少每月经历一次完整周期,表现优异的团队甚至可以做到每周一次。大型公司可能在一天内就能完成部署周期,但对大多数团队而言,快速自动化地构建此类基础设施仍非常困难。如果更新频率低于此阈值,很可能导致“代码腐化”(因代码库变更导致管道中断)或“数据域偏移”(模型无法泛化到随时间变化的数据)。
然而,一旦流程理顺,团队就能进入良性节奏,持续将改进后的模型部署到生产环境。
3 建立反馈回路

有效迭代的一个关键是集中精力解决最具影响力的问题。为此,你需要知道模型在哪里出错,并能根据业务优先级对问题进行排序。建立反馈回路的方法多种多样,首要任务是发现并分类错误。
利用特定领域的反馈回路。 如果条件允许,这可能是获取模型反馈最强大、最有效的方式。例如,某些预测任务可以利用历史发生的真实数据作为“免费”标签,从而持续输入大量新数据并实现相当自动化的适应。
设置人工审查工作流。 让人工审查模型的输出,并在发现错误时进行标记。这在人类审查者能轻松从大量模型推断中捕捉错误时尤其有效。最常见的形式是客户发现错误后向团队投诉。这个渠道不容小觑,它能将客户反馈直接纳入开发周期。更进一步,可以设置专人复查客户可能遗漏的错误,例如产线上的质检员在发现分拣错误时按下按钮。
设置自动复查。 当模型运行频率过高,人工无法跟随时,可以考虑自动化复查。这在能为模型输出编写有效的“健全性检查”规则时特别有用。例如,当激光雷达目标检测器与2D图像检测器的结果不一致,或帧间检测与时间跟踪系统不一致时进行标记。如果设置得当,它能提供大量有用的故障反馈;即使效果不佳,也只会暴露检查系统本身的缺陷,属于低风险高回报的尝试。
分析模型的不确定性。 这是更通用但也更困难的解决方案。一个简单的例子是检查模型在生产中输出置信度低的样本。这能揭示模型不确定的领域,但并非百分之百精确。模型可能“自信地犯错”,也可能因输入数据噪声过大(连人类都难以理解)而不确定。校准模型不确定性是一个活跃的研究领域。
利用模型对训练集的反馈。 例如,检查模型在训练/验证集上表现不一致的样本(即高损失样本),可能揭示高置信度失败或标签错误。神经网络嵌入分析有助于理解训练/验证集中的故障模式,并能发现训练数据与生产数据在原始分布上的差异。
4 自动化和委托

图注:大多数人的时间很容易从一个典型的再训练周期中移除。即使这样做的代价是降低机器时间的效率,它也消除了许多手工操作的痛苦。
加快迭代的核心在于减少完成一个周期所需的工作量。可以从两个维度考量这种投入:时钟时间和人工时间。
时钟时间指运行计算任务所需的时间,如数据ETL、模型训练、推理、指标计算等。人工时间则指需要人工主动介入管道运行的时间,例如手动检查结果、运行命令或触发脚本。
一个常见的低效模式是:多个脚本需要人工在步骤间移动文件并按顺序手动运行。粗略估算一下:如果一位机器学习工程师时薪90美元,每周因此浪费2小时,那么每人每年就将损失9360美元。将这些脚本和人工中断整合成全自动流水线,不仅能更快、更容易地运行模型管道,节省大量成本,也能让工程师更专注于创造性工作。
相比之下,时钟时间通常只需“合理”即可(例如能在一夜之间完成)。除非工程师在进行大量实验,或面临极端的成本/规模约束,因为时钟时间通常与数据规模和模型复杂度成正比。从本地处理转向分布式云处理能显著减少时钟时间,之后的水平扩展也能解决大多数团队的规模问题。
然而,并非所有任务都能完全自动化。绝大多数生产级机器学习应用都属于监督学习,严重依赖一定量的人机交互来“教导”模型。在某些领域(如社交媒体推荐),这种交互几乎是免费的;而在另一些领域(如需要专业放射科医生标注CT扫描),人工时间则非常有限且昂贵。
无论如何,最小化改进模型所需的人工时间及其他成本至关重要。早期团队可能依赖机器学习工程师管理数据集,但更经济的做法(有时是必要的)是让不具备机器学习知识的操作员或领域专家来承担数据管理的繁重工作。这时,使用良好的软件工具建立一套用于标注、检查、改进和版本控制数据集的操作流程,就变得极为重要。
5 鼓励ML工程师“健身”

图注:ML工程师在举重时,也在提升他们的模型学习的权重
为支持新领域或新用户组构建足够的工具可能需要大量投入,但如果做得好,回报会非常可观。
在 Cruise 就有这样一个典型案例。一位工程师建立了一个高效的迭代循环:结合操作反馈和元数据查询,自动从模型性能薄弱的场景中采样数据并提交标注。随后,一个离岸团队完成标注,并将新数据加入训练集的新版本中。这位工程师还构建了基础设施,允许他在电脑上运行一个脚本,自动在云端启动一系列任务,对新加入的数据进行模型重训练和验证。
于是,每周他只需运行一次重训练脚本。在模型自行训练和验证的几个小时里,他可以去健身房锻炼。等他健身、晚餐归来,结果也已出炉。通常情况下,新增的优质数据会带来模型性能的提升。经过快速复核确保一切正常后,他便将新模型部署到生产环境,车辆的驾驶性能随之改善。而在一周的其他时间里,他可以专注于改进基础设施、尝试新模型架构或构建新的模型管道。
结果是,这位工程师不仅在本季度末获得了晋升,还保持了极佳的身体状态。这完美诠释了特斯拉的 Andrej Karpathy 所提出的理想终态——“假期行动”。其核心是建立一个工作流,让你的机器学习工程师能去健身房,而让机器学习管道来完成繁重的计算工作。
6 结语
总结而言,在研究和原型阶段,重点是构建并发布一个模型。但当系统进入生产阶段,核心任务就转变为建立一个能够以最小努力定期发布改进模型的系统。这方面做得越好,能构建的模型就越多。
为此,需要重点关注以下方面:
- 保持规律的迭代节奏: 专注于持续交付比之前更好的模型。目标是每周或更短时间就能有一个改进版模型投入生产。
- 建立强大的反馈回路: 构建从模型输出到开发过程的顺畅反馈通道。准确找出模型表现不佳的样本,并将其更多地添加到训练数据集中。
- 实现自动化与专业化分工: 自动化管道中特别繁重的任务,并建立团队结构,让成员能专注于其专业领域。最终目标是实现“假期行动”,让工程师从重复劳动中解放出来。
最后需要强调的是,根据经验,绝大多数模型性能问题可以通过数据来解决,只有少数问题必须通过修改模型代码。这些代码修改通常高度依赖于特定模型架构。例如,在图像目标检测领域深耕数年后,人们可能花费大量时间研究如何为特定长宽比优化先验框分配,或如何提高特征图对小物体的分辨率。
然而,随着 Transformer 架构展现出成为多种深度学习任务通用架构的潜力,可以预见,许多此类技巧的重要性将下降,机器学习发展的重点将进一步转向数据集的改进。
相关攻略
在数据驱动决策的时代,企业如何从海量信息中快速提炼关键洞察,成为赢得市场竞争的核心能力。传统的数据报表和可视化图表虽然能够反映基础状况,但在处理复杂业务逻辑、预测未来趋势以及提供行动指引方面,往往存在局限。面对动态变化的市场环境,企业管理者需要更智能、更前瞻的决策支持工具。 此时,决策智能报告应运而
从学术界踏入工业界,很多人会带着对机器学习模型的深刻理解,却对如何让模型在真实世界中持续、可靠地工作感到陌生。这种感受,在自动驾驶、医疗影像等关键领域尤为深刻。模型部署上线,往往只是万&里长征的第一步。 本文作者 Peter Gao 是 Aquarium 公司的联合创始人兼首席执行官,该公司专注于开
2026年3月,机器学习预印本平台arXiv上出现了一篇编号为arXiv:2603 21342v1的论文,它来自法国巴黎高等统计学院与英国帝国理工学院的联合研究。这项研究为离散扩散模型领域带来了一个关键突破:首次构建了一个能够支持任意噪声过程的通用框架。 当前AI文本生成的主流技术路径,大致可以分为
这项由普林斯顿大学、康奈尔大学、哥伦比亚大学及爱荷华州立大学共同主导的突破性研究,为我们揭示了人工智能高效学习的内在机制。相关论文(编号:arXiv:2603 11178v1)已公开发布,为深入探索AI训练优化提供了关键理论依据。 回顾人类的学习过程,我们总能找到一个“恰到好处”的难度区间:过于简单
这项由耶鲁大学、谷歌云、斯坦福大学、加州大学伯克利分校、麻省理工学院、Meta以及IIT孟买联合开展的前沿研究,已于2026年3月7日发表在权威的arXiv预印本论文库,论文编号为arXiv:2603 07300v1。 想象一下,一个不知疲倦的科研助手,能够全天候地改进机器学习模型,如同一位园丁在持
热门专题
热门推荐
在麒麟操作系统上配置SSH公钥登录,不仅能免去每次输入密码的繁琐,更能显著增强远程连接的安全性。整个过程并不复杂,核心步骤围绕密钥生成、公钥部署和服务端配置展开。本文将详细介绍几种主流方法,涵盖从自动化部署到手动配置,助你轻松完成麒麟系统SSH密钥登录设置。 一、使用ssh-keygen与ssh-c
登录循环闪退应先删 Xauthority和 ICEauthority文件、修复 tmp权限为1777、重置ukui mate dconf配置、清理磁盘空间、重装lightdm并重新配置。 在银河麒麟操作系统中输入密码后,屏幕一闪又回到登录界面,这种“登录循环”问题确实令人困扰。这通常并非硬件故障,而
GUSD是一种与美元1:1锚定的合规稳定币,由Gemini交易所发行并受纽约州金融服务部监管。其核心价值在于为加密世界提供透明、受监管的美元等价物,主要应用于交易、支付和价值存储。投资者需关注其中心化托管风险、监管政策变化及智能合约潜在漏洞,理解其作为传统金融与加密市场桥梁的定位与局限。
在Windows 11系统中,确保系统音频稳定输出到指定设备(如已连接的耳机或已配对的蓝牙音箱),核心在于正确配置默认音频输出设备。您可以通过任务栏快速设置、系统设置应用、控制面板声音对话框、音量混合器下拉菜单或Win+Ctrl+V快捷键这五种主流方案,实现即时切换或永久性配置,彻底解决声音输出错乱
宏胜集团近期发生重要人事与业务调整。总裁办主任叶雅琼、销售总经理吴汀燕、法务部部长周卓盈及生产管理科科长吴潘潘等多位高管已离职,该消息已获接近集团人士证实。与此同时,集团启动了部分非生产业务的外包运作,显示出其正在优化内部结构与运营模式。这一系列变动可能意味着公司正处于战略调整期,旨在聚焦核心业务并





