先说几个核心判断:恩智浦最近在MCU的机器学习领域搞了个大动作——他们把Facebook开源的Glow神经网络编译器,成功集成到了自家的eIQ机器学习软件开发环境中。而且,作为首家在MCU上实现比标准版Glow性能提升2到3倍的半导体供应商,这事的含金量确实不小。
Glow这个编译器,原本是Facebook在2018年推出的开源项目,初衷是给各种硬件做神经网络性能优化。和传统的即时编译不同,Glow是一种真正的编译器,能直接生成优化代码——这意味着不需要在运行时一边跑一边编译,处理器的负担和存储器的占用都能大幅降低。恩智浦这一步,相当于把Glow的功能做了“移植优化”,让它能在Cortex-M内核和Cadence Tensilica HiFi 4 DSP上高效运行,尤其是i.MX RT685、i.MX RT1050和RT1060这几款跨界MCU。更重要的是,这项能力被直接打包进了eIQ环境,在MCUXpresso SDK里免费提供。

Glow如何发挥MCU的架构优势
Glow本质上是一个“Graph Lowering”编译器,它把神经网络模型层层“降级”,最终生成针对特定硬件的优化代码。这种做法的好处,是绕过了典型神经网络推理中那套即时编译带来的资源消耗。恩智浦在此基础上,又加了一层自己的优化——用神经元算子库去充分压榨MCU里的每一个计算单元。结果是什么?性能直接翻了2到3倍。这一点,Facebook的软件工程经理Dwarak Rajagopal也指出了,标准版Glow虽然灵活,但恩智浦的做法证明了,只要配上合适的专用库,Glow在低成本的嵌入式平台上同样大有可为。
优化机器学习框架:边缘竞争的关键
数据说明趋势:TIRIAS Research预测,到2025年,98%的边缘设备都会用上某种形式的机器学习。另一个数字更直观:届时将有180亿到250亿台设备嵌入机器学习功能,而它们根本不需要专门的AI翻跟斗。这意味着什么?消费电子和物联网的开发者,必须找到一种能在MCU上低成本、低功耗跑机器学习的方法。
按照恩智浦边缘处理业务总经理Ron Martino的说法,eIQ软件框架的目标,就是在i.MX应用处理器和i.MX RT系列MCU之间搭一座桥。Glow加入后,开发者可以把深度神经网络直接编译到这些MCU上——这已经不只是在“跑AI”,而是在为自己的产品创造竞争力。
恩智浦的“边缘智能”方案更像是一个整体工具包:从模型选择、编译优化到最终部署,每个环节都提供现成的积木块。Glow被整合进eIQ后,它的覆盖范围从i.MX RT跨界MCU一直延伸到i.MX 8应用处理器。语音识别、人脸检测、物体分类这些应用,从此有了更灵活的选择。
性能数据的背后:Glow实施的真实威力
光说不练假把式。恩智浦拿CIFAR-10这个标准神经网络模型做了测试,对比的是TFLite等常见方案。具体来看:i.MX RT1060(600MHz Cortex-M7)、i.MX RT1170(1GHz Cortex-M7)和i.MX RT685(600MHz Cadence Tensilica HiFi 4 DSP)都实现了大幅提升。
其中最亮眼的是HiFi 4 DSP上的表现——借助Cadence提供的NNLib神经网络库,这块DSP本身就能提供4.8GMAC的算力。加上Glow的优化,在CIFAR-10上的性能直接拉升了25倍。Cadence Tensilica IP的Sanjive Agarwala对此表示,HiFi 4 DSP最初是为音频应用设计的,但后来发现,它其实特别适合MCU级的机器学习推理,尤其是关键词检测、降噪、异常检测这类场景。Glow的加入,算是彻底把这块DSP的潜能释放出来了。
Arm这边也不甘示弱。机器学习营销副总裁Dennis Laudick指出,恩智浦把Arm的CMSIS-NN库也用进了eIQ中。在CIFAR-10上,CMSIS-NN实现的性能提升是1.8倍。在他看来,这充分证明了优化算子库加上高性能编译器能产生多么实在的效果。
上线时间
目前,集成Glow编译器的eIQ软件已经可以获取,恩智浦通过MCUXpresso SDK为i.MX RT600、i.MX RT1050和RT1060系列提供支持。后续还会陆续覆盖其他MCU型号。有兴趣的可以自己去翻翻SDK的更新日志。
