DeepMind果蝇登Nature 强化学习AI模拟飞行逼真到腿毛颤抖

时间：2026-06-26 15:32

谷歌DeepMind与HHMI合作，利用高分辨率成像和MuJoCo物理引擎构建逼真的虚拟果蝇模型。通过深度强化学习和模仿学习，模型能自主模拟飞行和行走，具备视觉导航能力，相关代码和文档已开源。

一只小小的果蝇，究竟如何在空中完成优雅的飞舞，又怎样在地面上灵活爬行？这些看似简单的动作背后，蕴藏着极为复杂的神经与生物机制。为了破解这一谜题，谷歌DeepMind团队携手HHMI Janelia研究所，借助人工智能与物理模拟技术，成功打造了一个栩栩如生的虚拟果蝇模型。这个模型绝不简单——它不仅能够模拟果蝇的飞行与行走，还能通过观察真实果蝇的行为，自主学习如何精准控制身体动作。研究团队首先利用高分辨率体视显微镜，对一只雌性果蝇进行了精细扫描，每一根腿、每一片翅膀，甚至每一个关节都被精确记录并建模。

获取数据后，团队在MuJoCo物理引擎中搭建了一个精确的三维果蝇模型。MuJoCo是谷歌DeepMind开发的开源物理模拟器，广泛应用于机器人学与生物力学模拟。然而，仅有模型还不够，果蝇的运动离不开空气与地面的相互作用。

为此，研究人员在MuJoCo中新增了关键功能：模拟翅膀扇动时与空气的流体作用，并设计了黏附执行器，以模仿果蝇脚部抓握地面时的力。这些改进使虚拟果蝇不仅能稳稳站立，还能像真实果蝇一样飞起来。最终呈现的数字果蝇拥有橙色的身体、透明的翅膀，以及那对标志性的红色大眼睛。

模型构建完成后，下一步便是教会果蝇运动。研究团队训练了一个人工神经网络，并收集了大量真实果蝇行为的视频——包括如何行走、如何起飞、如何调整方向。通过深度强化学习与模仿学习，神经网络逐步掌握了果蝇的运动模式。

在模拟中，虚拟果蝇的表现令人惊艳。它能沿着复杂的自然飞行轨迹移动——例如研究人员设置的蓝色轨迹点，果蝇精准地跟随这些点飞行，翅膀拍动的频率与角度与真实果蝇无异。更令人惊叹的是，它还具备视觉导航能力，能感知周围环境，并根据视觉信息调整自身行为。为了让更多研究者从中受益，谷歌DeepMind与HHMI Janelia研究所将整个果蝇模型开源，不仅提供了代码，还附上了详细的技术文档。 ## 深度强化学习模拟行为拥有逼真的身体模型与物理环境后，如何让模型生成真实的运动行为？研究团队采用了深度强化学习技术。他们训练了一个人工神经网络，使其扮演果蝇的神经系统，形成闭环的感觉运动控制器。训练过程中，MuJoCo模拟感觉系统产生的信号输入神经网络，神经网络据此计算控制信号，驱动模型执行器动作。为了引导模型学习真实运动行为，团队使用了模仿学习法。他们收集了大量真实果蝇飞行与行走的轨迹数据，让模型照着这些真实运动模式进行模仿。

在飞行任务方面，研究团队利用此前收集的海德氏果蝇自由飞行高速视频数据，训练了一个可转向的飞行控制器。该控制器由固定的翅膀拍打模式生成器（WPG）与一个可训练的全连接多层感知器（MLP）组成。WPG负责产生接近真实果蝇悬停时的翅膀拍打模式，为模型提供稳定基础；MLP则通过学习微调WPG的输出，使模型能根据不同的飞行需求——如转弯、加速、减速——做出相应的翅膀运动。最终，飞行模型的网络运动命令是MLP与WPG输出的总和。为了提高训练效率，团队还采用了分布式强化学习方法，借助Ray分布式计算框架，在多个CPU与GPU上并行训练模型，显著缩短了训练时间。

*分布式RL训练架构：多个MuJoCo环境中的演员副本收集经验，输入到单一的重放缓冲区。DMPO学习器从中抽取经验，更新策略与评论家网络的权重，并将更新后的权重发送到演员的策略副本。* 为了让训练出的轨迹能够泛化到新的运动场景，团队还训练了“可转向”的低层控制器。这些神经网络类似于果蝇中枢神经系统的腹神经索（VNC），负责将来自中央大脑的高层命令信号，转化为低层次的运动控制信号。

*左图为果蝇中枢神经系统示意图，包含大脑与腹神经索。右图为腹神经索横截面，粉色为传出信号的运动神经元，绿色为传入信号的感觉神经元。* 研究者训练了两个可转向的神经网络控制器——一个控制飞行，一个控制行走。在行走任务中，鉴于果蝇步态模式复杂多样，团队直接使用一个全连接的MLP作为控制器，通过学习大量行走轨迹数据，模型学会了根据不同环境与目标调整腿部运动，实现稳定行走与灵活转向。 ### 模拟飞行利用此前收集的高速视频数据，研究者通过模仿学习训练了一个可转向的飞行控制器。这些数据集包含272条单独的轨迹（约53秒的实际飞行时间），记录了飞行过程中身体质心与翅膀的运动学信息，涵盖了转弯、速度与高度变化、直飞、侧飞、倒飞与悬停等多种行为。研究者还训练了一个单一的控制器网络，模仿训练数据集中所有216条飞行轨迹。这个可转向的控制器能够保持稳定飞行，并推动果蝇穿越新的飞行轨迹。

*图2：飞行模拟（具体方法与细节，请参阅原文）* ### 模拟爬行同样采用模仿学习，研究者训练了一个用于行走的可转向闭环控制器。他们对一组自由爬行并在圆形竞技场中相互作用的果蝇进行了高速俯视视频拍摄（150 fps）。利用自动化姿态追踪技术，追踪了雌性果蝇的2D位置，标记了13个关键点，分别位于头部、胸部、腹部和6个腿部尖端。仅凭2D关键点位置，无法明确推断出所有身体自由度的3D姿态。因此，研究者采用了一种正则化的逆运动学方法，推断出所有自由度的完整3D姿态轨迹近似值。由于步态变异显著，研究者无法像飞行模仿那样使用简单的模式生成器。因此，控制器由一个单一的全连接MLP组成，训练时没有强制执行任何特定结构。研究者在所有约13,000条训练集的行走轨迹上训练了一个单一的MLP策略网络。

*图3：爬行模拟* 通过展示沿着复杂自然轨迹的真实运动，研究者验证了身体模型与物理模拟的准确性。 ## 逼真的全身模型研究者使用高分辨率共聚焦显微镜成像，构建了雌性果蝇的模型。通过荧光染色几丁质的方法，便于分割体节形状并识别所有关节的枢轴点。为实现全身无像差的高分辨率成像，需将样本分解为多个部分，通过化学方法清除软组织并进行色素脱色处理。

*图1：从共聚焦数据构建雌性果蝇的3D模型* (a) 整合代表单只果蝇的6组数据集：共聚焦图像最大强度投影显示头部、胸腹联合体及腿部结构。(b) 中腿共聚焦图像局部投影（左，红色三角标记腿节-胫节与跗节间关节），从中提取的三维网格（中）及低多边形腿部模型（右）。(c) 分解展示的简化模型（约2万面）呈现体节结构。(d) 静息姿态下的完整解剖模型。(e) MuJoCo环境中身体模型的侧视图。(f，g) 用于高效碰撞检测与物理模拟的体节几何基元近似：蓝色为常规碰撞几何体，淡紫色为带黏附驱动器的几何体，赭石色为高级流体模型中实现飞行的翼椭球体。(h) 模型倒挂时驱动器力场可视化：前右腿、中左腿、后右腿的黏附驱动器（橙色）与唇瓣黏附器处于激活状态，其余驱动器未激活（白色）；箭头表示与施加黏附力（扣除重力影响后）成比例反向的接触力。(i) 夸张姿态展示腹节外展与右后跗节屈曲驱动器激活效果：腹关节与跗关节均通过单一驱动器（「肌腱」）耦合驱动多自由度。(j) 腿部收拢的飞行姿态模型。(k) 半透明可视化几何体的底视图，浅蓝箭头指示关节：立方体为6自由度自由关节（模拟器中自由质心运动所需，非果蝇内在自由度），箭头为铰链关节（指向正向旋转方向），三铰链关节组等效形成球关节。 ## MuJoCo功能上新为了准确模拟果蝇的飞行与行走等行为，研究者为MuJoCo物理引擎增加了新功能。

*MuJoCo是一款通用物理引擎，旨在为机器人学、生物力学、图形动画、机器学习等领域的研究与开发提供支持* 首先，开发了一个新的计算高效的现象学流体模型，用于模拟果蝇翅膀拍动时在空气中产生的力。其次，开发了附着驱动器，用于模拟昆虫脚抓握表面时产生的力。

*现象学流体模型：马格努斯力｜烟雾流过旋转的圆柱体。由于粘性，旋转的圆柱体使得进入的流体向上偏转，并且受到一个向下的力* 在视觉传感器建模方面，研究团队利用MuJoCo相机传感器模拟果蝇复眼，渲染出特定分辨率与视野的图像，为视觉引导的飞行任务奠定了基础。 ## 意义是什么科学家为何要花费如此大的精力去模拟一只小小的果蝇？果蝇虽小，大脑结构却相当复杂，拥有约20万个神经元。通过这个果蝇模型，科学家能够更深入地探索大脑、身体与环境之间的关联。例如，果蝇如何通过视觉判断方向？它又是如何协调翅膀与腿部的运动，以实现平稳飞行？这些问题在实验室中往往难以直接测量，而虚拟模型则提供了一个绝佳的实验平台。科学家可以在模拟环境中随意调整参数，观察果蝇的行为变化，去寻找那些隐藏的规律。谷歌DeepMind团队已用类似方法模拟了啮齿动物，现在正计划将这项技术应用到斑马鱼身上。斑马鱼是一种与人类有70%蛋白质编码基因相似的生物，广泛用于遗传学研究。未来，模拟技术还可能拓展到狗、鸵鸟等更多动物。