通用飞行智能爆发前夜微分智飞高飞GAIR 2025

首页

热心网友

转载

2026-05-16

过去两年，具身智能的热度持续攀升，背后有一个共同的期待：大语言模型展现出的强大能力有目共睹，如果能将其与机器人结合，无疑能为机器人装上更聪明的“大脑”，从而为整个行业打开全新的想象空间。然而，热闹了两年之后，关于具身智能的终极形态依然没有标准答案，反倒是催生出了许多细分赛道。其中，智能飞行机器人正成为一个备受关注的重要分支。

浙江大学控制学院长聘副教授、博士生导师高飞，便是这一领域里一位杰出的年轻学者。他的研究方向聚焦于空中机器人、自主导航、集群协同与具身智能，曾提出国际首个非结构化场景下的自主飞行集群系统，在Science Robotics、TRO等顶级期刊和会议上发表了多篇论文，并创立了“微分智飞”。作为国家优青基金获得者，他的工作曾获IEEE TRO、IROS等多项最佳论文提名，并入选了2023-2024全球前2%顶尖科学家榜单及2025年《麻省理工科技评论》“35岁以下科技创新35人”亚太区榜单。

在近期举行的GAIR 2025大会上，高飞教授以《智能飞行机器人研究进展及产业应用》为题做了一场分享。他的演讲极具画面感：用《普罗米修斯》中无人机编队自主穿梭的镜头，描绘了“分布式集群”的终极形态；又用《流浪地球》里中心控制器被拔除后无人机群集体坠落的混乱场景，对比强调了“去中心化”架构的至关重要性。

以下内容基于其演讲整理。

飞行机器人的愿景与技术演进之路

为什么要投身于“智能飞行机器人”这个赛道？一个核心判断是，通用的飞行智能正处在爆发的前夜。许多人童年时都有过飞翔的梦想，虽然并非人人都能成为飞行员，但通过人工智能打造出聪明、安全、能自主决策的飞行平台，让机器在复杂多变的环境中完成任务，正让这个梦想以另一种方式照进现实。

大众最熟悉的飞行平台莫过于旋翼无人机。回顾其发展，2015年是一个分水岭。在此之前，无人机更像是一种高级遥控玩具，高度依赖人工操控。2015年之后，机器人学技术的注入开始为无人机赋能，跟踪避障、自主导航乃至集群飞行等技术相继涌现。而下一个里程碑，普遍被认为是“具身智能”。

具身智能强调拥有物理实体的智能体，通过AI的持续学习与信息迭代，实现对环境的理解、任务的执行以及跨场景的泛化能力。对应到地面的人形机器人，业界也期待能有一个通用的飞行载体，在空中完成多样化任务。这让人想起电影《普罗米修斯》中的场景：小型智能飞行器在复杂洞xue中自如穿梭——这正是许多研究团队的长期愿景。

在群体层面，目标则是打造分布式、去中心化的无人机集群。其核心在于让集群能够灵活、自适应地完成大规模协同任务。《流浪地球》中的场景恰恰揭示了中心化架构的致命缺陷：一旦中心节点失效，整个系统便瞬间崩溃。因此，未来的方向是构建无需中心节点也能高效协同的分布式系统。让每一个微小的智能飞行载体，都能在复杂环境中自主判断去向、规划飞行、感知环境；让群体具备规模化、分布式化和高灵活性，以应对各种大规模作业需求。

天空端具身智能面临的四大独特挑战

将具身智能应用于飞行平台，与地面端相比，面临着几项尤为突出的挑战。

首先是数据稀缺。数据是AI的燃料，但无人机的高质量飞行数据获取异常困难。不可能雇佣大量专业飞手去进行高精度操控来采集数据，这不仅因为飞手技能门槛高，更因为实际采集过程中设备损毁和安全事故的风险与成本都难以控制。

其次是场景复杂。无人机生来就要在天空翱翔，应用场景横跨室内、室外等各种环境，跨度大、差异显著。这就要求其算法，无论是端到端架构还是模块化感知方案，都必须具备强大的跨场景泛化能力。其核心在于实现对环境语义的抽象建模——从差异巨大的具体场景中，提炼出通用的环境表征规律，这本身就是一个难题。

第三是易受干扰与零容错。无人机飞行依赖于与空气的高频交互，极易受到气流等扰动，因此系统必须具备极强的动态抗干扰能力。更为关键的是，空中飞行本质上是一个“零容错”过程，任何轻微的剐蹭都可能导致坠毁。它不像地面机器人可以随时停下、观察、思考后再行动。

最后是机载算力与传感器限制。受限于尺寸、重量和功耗，飞行平台的机载算力通常较弱，传感器能力也有限。它既要应对各种环境扰动，又难以支撑大型模型在端侧的实时运行。

这些挑战构成了当前技术攻关的焦点，而一旦突破，也将形成坚实的技术护城河。

技术进展与业界探索方向

当前的研究工作可以大致划分为几个维度：环境感知、小脑本体规控、大脑端侧决策、群体协同智能以及飞行操作一体化。

在“小脑”（规控）层面，目标是跨越传统飞控的高延迟瓶颈，打破其对推力输出和底层姿态控制的平均化、低上限约束，最终实现端到端直通电机的高动态、极限性能飞控。

在感知层面，则需要融合高动态感知与复杂语义信息，从而为“端侧大脑”提供支撑，使其具备对复杂长程任务的自主生成能力，以及在未知场景中实现泛化理解与决策的智能。

在集群方面，追求的是分布式的群体协同。正如之前提到的，中心化架构存在单点失效风险，分布式才是实现灵活、鲁棒集群智能的基石。

最后是飞行操作，愿景是让无人机不仅能作为“飞行的眼睛”进行观察，更能成为“飞行的手”执行操作。

所有这些努力，最终都是为了回应一个更宏大的命题：正如行业领袖所言，未来能够实现大规模量产的机器人形态，人形机器人、无人机和汽车被认为是三种最主要的可能。

五维技术体系详解：从“小脑”到“群脑”

1. 小脑技能：敏捷、轻量的本体运控

团队正致力于打造敏捷、轻量且支持多任务的本体运控“小脑”。其中一项关键技术是“仿真到现实”的端到端强化学习。无人机仅搭载单颗机载摄像头，无需额外传感器或深度信号输入，便能直接将视觉图像映射为控制指令。该模型在端侧能以超过100Hz的频率运行，确保无人机通过实时微调姿态来动态适应环境。这些演示均基于真实场景，而非仿真。

训练过程大量使用了仿真合成数据。即便环境发生变化，无人机也能流畅穿越，因为其模型在端侧高频运行，进行持续微调，而非在起飞前一次性规划好整条固定航线。系统已能实现自主穿越连续多个狭窄空间。在某些场景下，经过少量微调，其飞行能力甚至能超越高水平人类飞手。面对不规则的狭窄缝隙，无人机也能稳定穿越，应对自如。一系列优化的核心目标，是确保技术能满足全场景、高可靠的落地需求。

团队从最初就致力于解决数据少和算力低的问题。在一个长链路动作的人机对抗项目中，设计了高难度的特技飞行任务：让无人机自主连续穿越6个圆环，并在每个圆环的最高点完成倒转穿行。对比实验中，左侧为算法控制，右侧为经过三小时针对性训练的人类飞手操控，两者轨迹质量呈现出显著差异。

目前，最小的端到端网络已能部署在总重仅50克的微型飞行器上，仅凭极低成本的传感器和算力芯片，就能支撑端到端的自主导航与避障。

为了支撑“小脑”和“大脑”的数据采集与模型训练，团队构建了高效的自动化数据采集系统与数据合成管线。其像素级数字孪生仿真系统，已能达到以假乱真的效果。端侧感知系统能捕捉快速运动物体，极端情况下帧率可达1000 FPS。借助优异的规控与感知能力，已能实现动态环境下的自主作业闭环，例如动态车载起降等任务。

2. 大脑决策：追求通用与泛化

“大脑”层面是团队近期重点投入的方向。具身智能的本质在于通用与泛化，因此跨本体、跨场景的能力是终极追求。短期内，行业或许会为特定落地场景进行优化，但长期核心目标必然是实现跨越本体和场景的通用能力。

例如，团队自主研发的路径规划“大脑”，不仅能支撑各类旋翼无人机，经过少量适配也能应用于固定翼无人机，甚至可拓展至地面轮足机器人等不同载体。该技术能为机器人提供走迷宫的路径规划，单次规划时间在10毫秒以内，完全由神经网络实现，输入地图即可直接输出最优路径。

团队最新的视觉-语言-三维重建基础模型，能让飞行机器人通过自然语言指令执行任务。端侧和边缘侧部署的多模态大模型和基础模型，使其能对环境形成良好认知，并通过“边重建边脑补”获得上帝视角，辅助全局规划。机器人可以理解“对外立面进行测绘”、“进入建筑内部探索”、“检查屋顶和房门”等模糊的语言逻辑，并将其与视觉信息对齐，完成从理解、推理到决策的闭环。

在工业巡检场景中，下达“飞到四楼探索这栋建筑”的指令后，飞行机器人会自主飞至四楼，沿楼梯上行，完成两侧探索，并在无路可下时沿原路径返回，带回关键信息。整个过程无需GPS，也无人为干预。在更复杂、恶劣且事先未知的环境，如矿山内部，该系统同样可以运行。

这背后的梦想，正是做出《普罗米修斯》中那般智能的飞行机器人：一方面将无人机越做越小，另一方面不断挑战极端场景下的技术极限——在复杂、无卫星信号、无通讯遥控信号的环境中，实现极致的自主决策与导航。其核心是“智能”：只需给定任务目标，它便能独立规划路径、避障穿行，稳定抵达目的地。

“自主决策”意味着它并非机械地前往预设点，而是需要根据任务实时自主生成“下一个最优目标点”。这对模型的泛化能力要求极高，否则难以在首次遇到的陌生环境中完成任务。演示中的所有场景对无人机而言都是第一次见，完成任务后它会自动返航并带回信息。

3. 集群智能：分布式协同与灵活性

在单体智能之外，团队始终强调分布式集群。集群不仅要追求规模化部署能力，更要具备极致的灵活性与动态自适应性。从设计之初，“分布式协同”便被确立为集群技术的底层架构核心，以确保系统从根本上适配多场景动态需求。

目标是构建完全分布式的架构，因为这是最灵活的方式。分布式架构能保证任何个体加入或退出时，不影响其他个体的任务执行。就像人群，每个人独立感知环境、独立决策，但当群体拥有共同目标且协同一致时，就能高效完成任务。

在一个一镜到底的演示中，10架无人机组成的集群从树林一侧进入，再从另一侧飞出。全过程无人干预，环境陌生，仅使用机载双目视觉、MEMS惯导以及无基站、点对点测距的UWB装置，所有计算均在端侧完成。目前，分布式集群架构最大可支持1000架以上的规模，相关仿真实验已在学术论文中发表，展示了千架无人机集群的分布式实时避障能力。

当然，千机实物实验尚待未来实现。在仿真中，每个个体都需要感知障碍物和周围其他个体的运动，通过分布式协同决策实现自主导航与实时避障。在地图中心等冲突高发区域，个体能精准地避开彼此。这项工作是学界目前考虑了无人机高阶动力学的、实时的、分布式最大规模无人机运动规划算法框架之一。

团队非常强调群体协同性与个体主观能动性的结合。例如在一个实验中，16架无人机需要保持特定队形飞行。如果 rigidly 保持队形，遇到障碍物就会相撞。因此，每个个体都需要实时灵活决策：“我是否应该绕行？何时再回归队伍并调整成预定队形？”这些同样是在未知、无GPS的环境中完成的。

4. 集群应用：从三维重建到协同调运

在多机协同三维重建应用中，三架无人机可在大范围环境下协同测绘，自主进行任务调度（如分区测绘），最后在约定地点快速完成地图拼接。多机协同调运也已开始商业化探索。演示中，上方三架发光的无人机协同吊运下方一个红色载荷。

这项实验对实时规划要求极高：需要实时进行力分配、确保绳索不打结、并保证所有无人机均匀出力。传统协同搬运中常出现无人机“出工不出力”的情况。这项工作已被TRO有条件接收。系统还能保证编队协同避障，在狭窄区域，群体会主动变换队形穿过，所有规划均可实时运行，便于在飞行中下达新指令，规划新航线。

一个核心贡献在于构建了精细化的动力学模型，考虑了绳索朝向、拉力、力矩等关键变量，不仅能保证飞行稳定安全，甚至能顾及下方载荷的姿态，确保即使是液体也不会倾洒。更大规模的五机协同搬运实验，也验证了系统中没有个体“偷懒”。

5. 飞行操作：从“眼睛”到“手”

最终的理想，是让无人机不仅成为“飞行的眼睛”，更要成为“飞行的手”。相关技术演示显示，通过将大模型部署在边缘侧，无人机可以与人进行多种交互，理解通过语言、文字甚至动作传达的意图，完成取饮料等任务。

其本质是一个手型无人机，采用欠驱动机械手构型，通过单电机驱动实现本体形变，具备指尖捏取和掌心抓握两种模态。虽然自由度有限，无法完成地面操作机器人的精细动作，但能很好地实现“抓取后快速转移”的功能。例如，在户外可用于物品快速投递。团队正在研发相关样机，未来有望实现“在办公室下单，无人机下楼取咖啡”的场景。

这其中蕴含诸多技术难点，例如抓取物品前后保持飞行稳定就非常困难。无人机的任何形变都会导致转动惯量、质量等物理参数变化，影响飞行稳定性，更何况载荷还会大幅波动。此外，系统也可作为人手的空间延伸，借助第一人称视角眼镜和单手遥控器，通过简易指令和端侧辅助驾驶修正，最终协助完成抓取任务。

来源:https://www.leiphone.com/category/ai/R4xcBZoBPGDMfaHu.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：具身智能如何重塑飞行认知 GAIR 2025深度解析下一篇：豆包AI编写Shell脚本入门教程