自动学习项目工作方式深入探讨_AI热点日报

自动学习项目工作方式深入探讨

类型：热点整理2026-06-30

来源 | 数据派THU | 作者 | Francesca Lazzeri | 翻译 | 王琦 | 责编 | Carol 去年11月，有一篇关于使用自动机器学习实现AI民主化的文章引发了不少讨论。这次，我们用一套完整的用例来展示自动机器学习到底能做什么——尤其是对零售商场景下的数据科学家、项目经理和业

来源 | 数据派THU | 作者 | Francesca Lazzeri | 翻译 | 王琦 | 责编 | Carol

去年11月，有一篇关于使用自动机器学习实现AI民主化的文章引发了不少讨论。这次，我们用一套完整的用例来展示自动机器学习到底能做什么——尤其是对零售商场景下的数据科学家、项目经理和业务主管而言，如何借助Azure机器学习服务缓解库存过剩的难题。整套代码已经开源在GitHub上，可以直接跑。

库存过剩这个问题，说大不大，说小不小。多余的库存很快会变成流动性问题，除了靠折扣和促销来压低利润，它几乎没法快速变&现。更糟的是，如果它被转到经销店等渠道，销售周期还会进一步拉长。所以，提前识别哪些产品不会有预期的周转水平，再根据销售预测精准控制补货，才是真正帮零售商实现投资回报率的关键。下面我们就来看看，一个团队如何用自动机器学习来应对这个挑战，以及这种技术如何让整个公司的AI能力铺展开来。

为公司确定正确的业务目标

产品组合和库存水平如果搭配得当，销售额和利润自然水到渠成。但要实现这种理想状态，必须拥有最新、最准确的库存信息。手工处理不仅耗时，还会导致信息延迟，而且增加出错概率。库存过剩、库存不足、缺货这些头疼事儿，往往就是由这些延迟和错误引发的。

库存过剩还会占用宝贵的仓库空间，以及本应用于采购新库存的现金。即便通过清算模式甩货，也会带来声誉受损、冲击现有同类产品销量等一系列连锁反应。

作为数据科学和业务运营之间的桥梁，项目经理需要和业务主管坐下来沟通，讨论使用内部历史销售数据来解决库存过剩的可能性。项目经理和业务主管会通过不断追问和精炼业务相关的具体问题，来定义项目目标。

这一阶段主要有两个任务：

一是定义目标。项目经理和业务主管需要识别业务问题，最关键的是，提出能够被数据科学技术直接针对的业务目标。二是识别数据源。项目经理和数据科学家得一起找到能帮助回答这些问题的数据。

寻找正确的数据和流水线

一切从找数据开始。项目经理和数据科学家要找出那些包含业务问题答案的已知示例的数据源。他们会重点寻找以下类型的数据：

与问题直接相关的数据——是否有针对目标的指标以及与目标相关的特征？能够准确衡量模型目标和感兴趣特征的数据。

到了这个阶段，数据科学家需要解决三个主要任务：把数据应用到目标的分析环境中；探索数据，判断质量是否足以回答问题；建立数据流水线，对新数据或定期刷新的数据进行评分。

当数据从源位置移动到可以进行分析的目标位置后，数据科学家开始处理原始数据，生成干净、高质量的数据集，并充分理解其与目标变量的关系。在训练机器学习模型之前，必须对数据有透彻的了解——通过创建数据摘要和可视化来审核质量，并在准备好建模前弄清楚需要如何处理这些数据。

此外，数据科学家还要负责开发数据流水线解决方案的架构，让数据能定期被刷新和评分。

通过自动机器学习预测橙汁销售

数据科学家和项目经理决定选用自动机器学习，理由很直接：它能让不同专业背景的客户——不管有没有数据科学知识——都能为任何问题找到端到端的机器学习流水线，在减少时间投入的同时还能提高准确性。而且它还能并行跑大量实验，大大加快生产就绪型智能经验的迭代速度。

我们以橙汁销售预测为例，看看这个过程如何落地。

在业务目标确定、内部历史数据选型完成后，数据科学家会创建一个工作区。这个工作区是服务的顶级资源，给数据科学家提供了一个集中管理所有工件的地方。在Azure机器学习服务中创建工作区时，如果资源在区域内可用，会自动添加以下组件：Azure容器注册表、Azure存储、Azure应用程序洞见、Azure密钥保管库。

要运行自动机器学习，还需要创建一个实验。实验是工作区内的命名对象，代表一个预测性任务，输出结果是训练好的模型以及一组评估指标。

数据科学家接下来会加载历史橙汁销售数据，用pandas把CSV文件读入DataFrame。CSV中的时间列叫WeekStarting，会被专门解析为日期时间类型。

DataFrame每一行代表某个商店中某个橙汁品牌的每周销量。数据还包括销售价格、是否在商店中做过广告的标记，以及基于商店位置的一些客户人口统计信息。出于历史原因，数据里还包含了销售数量的对数。

当前任务是为“数量”列构建时间序列模型。需要注意的是，该数据集由许多单独的时间序列组成——每个时间序列对应一个商店和品牌的唯一组合。为了区分这些序列，定义了grain，即能够确定时间序列边界的列。

为了后续评估预测效果，数据被分为训练集和测试集。然后数据科学家开始建模，执行预测任务，自动机器学习会自动调用时间序列专用的预处理和估计步骤。具体包括：检测时间序列的频率（例如每小时、每天、每周），为不存在的时间点创建新记录使序列规律化；通过正向填充（forward-fill）和特征列的列中位数来估算目标中的缺失值；创建基于grain的特征来实现不同序列之间的固定效应；创建基于时间的特征来辅助季节性模式的学习；将分类变量编码为数字量。

对于自动机器学习训练任务，AutoMLConfig对象定义了设置和数据。以下是用于训练橙汁销售预测模型的自动机器学习配置参数概要（完整代码见GitHub上的notebook）。每次迭代都跑在实验中，并存储来自自动机器学习迭代的序列化流水线，直到找到在验证集上表现最佳的流水线为止。

评估完成后，数据科学家、项目经理和业务主管再次碰头检查预测结果。项目经理和业务主管需要解读输出，并基于这些结果决定下一步行动。业务主管则要确认最佳模型和流水线是否能满足业务目标。此外，机器学习解决方案要以可接受的准确性，回答是否能把系统部署到生产环境供内部销售预测应用程序使用。

微软在自动机器学习上的投资

自动机器学习源于微软Research部门的一项突破。该方法结合了协同过滤和贝叶斯优化的思想，能够智能、高效地搜索可能的机器学习流水线的巨大空间。

现在，它作为Azure机器学习服务的一部分开放给用户。正如我们看到的，无论是否有数据科学专业知识，自动机器学习都能帮助客户确定端到端机器学习流水线，解决任何问题，同时提升准确率、节省时间。它还能运行大量实验并加快迭代速度。这种技术能让你的组织受益吗？你的团队是否能借助机器学习更紧密地协作，实现业务目标？

作者简介

Francesca Lazzeri是一位机器学习科学家、作家和演讲者。她领导着一支由微软的云倡导者、数据科学家和开发人员组成的国际团队。加入微软之前，她是哈佛大学技术与运营管理部门的研究员。她还是微软“Women@NERD”协会的董事会成员、麻省理工学院和哥伦比亚大学的数据科学导师以及AI社区的活跃成员。

来源：https://m.elecfans.com/article/1262367.html

微软

延伸阅读

补充最近整理过的热点入口。