Aquarium华人CEO解读自动驾驶机器学习落地关键在数据管道而非模型

首页

热心网友

转载

2026-05-15

从学术界踏入工业界，很多人会带着对机器学习模型的深刻理解，却对如何让模型在真实世界中持续、可靠地工作感到陌生。这种感受，在自动驾驶、医疗影像等关键领域尤为深刻。模型部署上线，往往只是万&里长征的第一步。

本文作者 Peter Gao 是 Aquarium 公司的联合创始人兼首席执行官，该公司专注于开发和提供用于发现、修复深度学习数据集问题的工具。在创立 Aquarium 之前，Peter 曾在 Cruise 等公司从事自动驾驶汽车、教育和社交媒体领域的机器学习工作，积累了丰富的工业界实战经验。本文正是他结合多年生产实践，对深度学习部署核心要点的深度总结。

图注：作者团队开发第一个部署在汽车上的机器学习模型

1 将ML模型部署到自动驾驶车上的故事

在 Cruise 开发并部署第一个用于自动驾驶汽车的机器学习模型时，整个工作流程起初与研究阶段并无二致：在开源数据上训练开源模型，集成到产品软件栈，然后部署上车。几周后，代码合并，模型开始运行，团队一度以为“任务完成”。

然而，真正的挑战才刚刚开始。

模型投入生产后，质量保证团队很快发现了性能问题。但由于其他任务紧迫，团队并未立即处理。三个月后，当回头审视时，发现训练和验证脚本早已因代码库变更而崩溃。修复代码花了一周，但更关键的问题是：生产环境中暴露的许多故障，单纯修改模型代码无法解决。症结在于数据——我们需要的是从自家车辆上收集、标注的新数据，而非通用的开源数据集。

这意味着必须建立一套完整的标注流程，包括工具、操作和基础设施。又过了三个月，基于新车载数据训练的模型上线了。这时，一个更深刻的模式浮现出来：大约90%的性能问题，是通过对困难或罕见场景的数据进行精心整理来解决的，而非依赖复杂的模型架构调整或超参数优化。

例如，模型在雨天表现不佳（这在旧金山相对罕见），于是团队标注了更多雨天数据，重新训练后性能得到改善。同样，模型对绿色交通锥的识别不如橙色交通锥，针对性补充绿色交通锥数据后，问题也迎刃而解。

核心结论是，必须建立一个能够快速识别并解决此类数据问题的流程。第一个模型的1.0版本组装只用了数周，但推出一个显著改进的版本却花了六个月。随着在标注基础设施、云数据处理、训练流水线和部署监控等方面的投入，模型重新训练和部署的频率从每月逐步提升到每周。当我们将这些经验应用到新的模型管道时，构建更好、更可靠的模型变得更快、更省力。

2 保持迭代学习

图注：许多不同的自动驾驶深度学习团队，其模型管道的迭代周期都相当相似。从上到下: Waymo，Cruise 和 Tesla。

过去常有人认为机器学习的核心是模型本身。但在工业生产中，机器学习的核心其实是管道。成功最关键的一个预测指标，是团队在模型管道上有效迭代的能力。这不仅意味着“快”，更意味着“聪明”，否则管道很快会产出糟糕的模型。

与传统软件类似，机器学习系统面对的数据输入领域极其庞大。不同之处在于，模型质量不仅取决于代码实现，更依赖于其所训练的数据。这种数据依赖性使得机器学习可以通过构建和管理数据集来“探索”输入领域，让模型理解任务需求并持续适应，而无需频繁修改核心代码。

为了利用这一特性，需要引入“持续学习”的概念，强调对数据和代码的双重迭代。一个高效的机器学习团队必须能够：

发现数据或模型性能中的问题
诊断问题根源
通过修改数据或模型代码来解决问题
验证重新训练后的模型确实有所改进
部署新模型并重复上述循环

团队应努力做到至少每月经历一次完整周期，表现优异的团队甚至可以做到每周一次。大型公司可能在一天内就能完成部署周期，但对大多数团队而言，快速自动化地构建此类基础设施仍非常困难。如果更新频率低于此阈值，很可能导致“代码腐化”（因代码库变更导致管道中断）或“数据域偏移”（模型无法泛化到随时间变化的数据）。

然而，一旦流程理顺，团队就能进入良性节奏，持续将改进后的模型部署到生产环境。

3 建立反馈回路

有效迭代的一个关键是集中精力解决最具影响力的问题。为此，你需要知道模型在哪里出错，并能根据业务优先级对问题进行排序。建立反馈回路的方法多种多样，首要任务是发现并分类错误。

利用特定领域的反馈回路。 如果条件允许，这可能是获取模型反馈最强大、最有效的方式。例如，某些预测任务可以利用历史发生的真实数据作为“免费”标签，从而持续输入大量新数据并实现相当自动化的适应。

设置人工审查工作流。 让人工审查模型的输出，并在发现错误时进行标记。这在人类审查者能轻松从大量模型推断中捕捉错误时尤其有效。最常见的形式是客户发现错误后向团队投诉。这个渠道不容小觑，它能将客户反馈直接纳入开发周期。更进一步，可以设置专人复查客户可能遗漏的错误，例如产线上的质检员在发现分拣错误时按下按钮。

设置自动复查。 当模型运行频率过高，人工无法跟随时，可以考虑自动化复查。这在能为模型输出编写有效的“健全性检查”规则时特别有用。例如，当激光雷达目标检测器与2D图像检测器的结果不一致，或帧间检测与时间跟踪系统不一致时进行标记。如果设置得当，它能提供大量有用的故障反馈；即使效果不佳，也只会暴露检查系统本身的缺陷，属于低风险高回报的尝试。

分析模型的不确定性。 这是更通用但也更困难的解决方案。一个简单的例子是检查模型在生产中输出置信度低的样本。这能揭示模型不确定的领域，但并非百分之百精确。模型可能“自信地犯错”，也可能因输入数据噪声过大（连人类都难以理解）而不确定。校准模型不确定性是一个活跃的研究领域。

利用模型对训练集的反馈。 例如，检查模型在训练/验证集上表现不一致的样本（即高损失样本），可能揭示高置信度失败或标签错误。神经网络嵌入分析有助于理解训练/验证集中的故障模式，并能发现训练数据与生产数据在原始分布上的差异。

4 自动化和委托

图注：大多数人的时间很容易从一个典型的再训练周期中移除。即使这样做的代价是降低机器时间的效率，它也消除了许多手工操作的痛苦。

加快迭代的核心在于减少完成一个周期所需的工作量。可以从两个维度考量这种投入：时钟时间和人工时间。

时钟时间指运行计算任务所需的时间，如数据ETL、模型训练、推理、指标计算等。人工时间则指需要人工主动介入管道运行的时间，例如手动检查结果、运行命令或触发脚本。

一个常见的低效模式是：多个脚本需要人工在步骤间移动文件并按顺序手动运行。粗略估算一下：如果一位机器学习工程师时薪90美元，每周因此浪费2小时，那么每人每年就将损失9360美元。将这些脚本和人工中断整合成全自动流水线，不仅能更快、更容易地运行模型管道，节省大量成本，也能让工程师更专注于创造性工作。

相比之下，时钟时间通常只需“合理”即可（例如能在一夜之间完成）。除非工程师在进行大量实验，或面临极端的成本/规模约束，因为时钟时间通常与数据规模和模型复杂度成正比。从本地处理转向分布式云处理能显著减少时钟时间，之后的水平扩展也能解决大多数团队的规模问题。

然而，并非所有任务都能完全自动化。绝大多数生产级机器学习应用都属于监督学习，严重依赖一定量的人机交互来“教导”模型。在某些领域（如社交媒体推荐），这种交互几乎是免费的；而在另一些领域（如需要专业放射科医生标注CT扫描），人工时间则非常有限且昂贵。

无论如何，最小化改进模型所需的人工时间及其他成本至关重要。早期团队可能依赖机器学习工程师管理数据集，但更经济的做法（有时是必要的）是让不具备机器学习知识的操作员或领域专家来承担数据管理的繁重工作。这时，使用良好的软件工具建立一套用于标注、检查、改进和版本控制数据集的操作流程，就变得极为重要。

5 鼓励ML工程师“健身”

图注：ML工程师在举重时，也在提升他们的模型学习的权重

为支持新领域或新用户组构建足够的工具可能需要大量投入，但如果做得好，回报会非常可观。

在 Cruise 就有这样一个典型案例。一位工程师建立了一个高效的迭代循环：结合操作反馈和元数据查询，自动从模型性能薄弱的场景中采样数据并提交标注。随后，一个离岸团队完成标注，并将新数据加入训练集的新版本中。这位工程师还构建了基础设施，允许他在电脑上运行一个脚本，自动在云端启动一系列任务，对新加入的数据进行模型重训练和验证。

于是，每周他只需运行一次重训练脚本。在模型自行训练和验证的几个小时里，他可以去健身房锻炼。等他健身、晚餐归来，结果也已出炉。通常情况下，新增的优质数据会带来模型性能的提升。经过快速复核确保一切正常后，他便将新模型部署到生产环境，车辆的驾驶性能随之改善。而在一周的其他时间里，他可以专注于改进基础设施、尝试新模型架构或构建新的模型管道。

结果是，这位工程师不仅在本季度末获得了晋升，还保持了极佳的身体状态。这完美诠释了特斯拉的 Andrej Karpathy 所提出的理想终态——“假期行动”。其核心是建立一个工作流，让你的机器学习工程师能去健身房，而让机器学习管道来完成繁重的计算工作。

6 结语

总结而言，在研究和原型阶段，重点是构建并发布一个模型。但当系统进入生产阶段，核心任务就转变为建立一个能够以最小努力定期发布改进模型的系统。这方面做得越好，能构建的模型就越多。

为此，需要重点关注以下方面：

保持规律的迭代节奏： 专注于持续交付比之前更好的模型。目标是每周或更短时间就能有一个改进版模型投入生产。
建立强大的反馈回路： 构建从模型输出到开发过程的顺畅反馈通道。准确找出模型表现不佳的样本，并将其更多地添加到训练数据集中。
实现自动化与专业化分工： 自动化管道中特别繁重的任务，并建立团队结构，让成员能专注于其专业领域。最终目标是实现“假期行动”，让工程师从重复劳动中解放出来。

最后需要强调的是，根据经验，绝大多数模型性能问题可以通过数据来解决，只有少数问题必须通过修改模型代码。这些代码修改通常高度依赖于特定模型架构。例如，在图像目标检测领域深耕数年后，人们可能花费大量时间研究如何为特定长宽比优化先验框分配，或如何提高特征图对小物体的分辨率。

然而，随着 Transformer 架构展现出成为多种深度学习任务通用架构的潜力，可以预见，许多此类技巧的重要性将下降，机器学习发展的重点将进一步转向数据集的改进。

来源:https://www.leiphone.com/category/academic/EZiaeUa90gcLDAMv.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：斯坦福李飞飞团队Nature子刊研究揭示可信AI三大数据要素下一篇：深度学习与统计学的本质差异及其发展路径解析