人工智能(AI)的热潮已经持续多年,但坦率地说,大多数企业项目仍停留在实验阶段。造成这一局面的深层原因主要有两点:其一,机器学习项目天生具备实验探索的特性;其二,机器学习架构的成熟度远远跟不上实际业务需求的增长。尤其在大型企业环境中,现代机器学习解决方案的全新应用生命周期管理实践,常常与公司现有的规章制度及合规要求产生冲突。
那么,在将机器学习方案真正落地时,组织究竟需要搭建哪些关键架构模块?答案并不简单。不过,近期研究实验室和AI数据科学领域已经开始有所行动,逐渐为大规模机器学习解决方案勾勒出参考架构的雏形。

构建大规模机器学习参考架构面临的主要挑战,源自两个核心因素:
- 机器学习框架与底层基础设施的迭代速度,远高于主流生产环境对它们的采纳速度。
- 机器学习解决方案的生命周期,与传统软件工程学科存在本质差异。
先看第一点。机器学习生态圈大致可分为四个领域:研究、开发框架、基础架构和应用程序架构。过去几年,前三个领域取得了飞速进展,而第四个领域却进展缓慢,这直接导致新架构在主流环境中落地时面临巨大的摩擦与阻力。
第二点更为隐蔽,除非你亲自踩过坑,否则很难体会。机器学习程序的开发流程与传统软件截然不同——敏捷开发、瀑布模型、持续集成/持续交付这些成熟的方法论,套用在机器学习项目上基本都水土不服。
当然,这些挑战是真实存在的,但我们也已经开始看到第一批能够落地的架构方案。有趣的是,与TensorFlow、PyTorch等流行机器学习框架,或AWS SageMaker、Azure ML等平台相比,这些参考架构在社区中并未获得太多关注。
下面列举五个最值得关注的机器学习参考架构,它们正在让现实世界中的机器学习解决方案变得更为简单易行。
斯坦福DAWN
DAWN项目由斯坦福大学发起,背后获得了英特尔、谷歌、微软等巨头的支持。其核心理念在去年的一篇研究论文中提出,本质上是一套涵盖工具、框架和架构参考的集合,目标就是简化机器学习工作流程。目前的DAWN技术栈包括负责训练处理的Snorkel、持续分析的MacroBase、数据计算的Weld等多个环节的项目。
优步米开朗基罗(Michelangelo)
米开朗基罗是优步在机器学习领域最著名的成果之一,其运行时支撑着优步数百个生产级机器学习工作流。从实验阶段到模型服务,米开朗基罗利用主流技术将机器学习应用的整个生命周期串联起来,并且与Horovod、PyML、Pyro等优步自研技术配合得十分默契。
DataBricks MLflow
MLflow是一个开源平台,专门为机器学习解决方案的生命周期自动化而设计。它聚焦三个关键环节:训练、项目打包和模型服务。该平台与主流开发框架以及运行时基础设施都有良好的集成能力,适用场景非常广泛。
Facebook FBLearner Flow
FBLearner Flow是Facebook机器学习应用的背后支柱。它能够自动处理机器学习工作流中的特征提取、训练、模型评估和推理等环节,并且与Facebook自家的Caffe2、PyTorch、ONNX等框架和工具深度绑定。
Google TFX
谷歌同样打造了自己的机器学习工作流运行时——TFX。它基于一篇近期的研究论文构建,旨在简化TensorFlow程序的落地部署。TFX包含学习器(基于训练数据生成模型)、分析与验证数据和模型的模块,以及生产环境中模型服务所需的底层基础设施。
这些都是新近涌现的项目,目标都是让机器学习在真实业务场景中更容易落地。随着这项技术不断演进,相信会有越来越多的参考架构和框架成为全球企业软件栈中不可或缺的组成部分。
