首页 游戏 软件 资讯 排行榜 专题
首页
AI
张进教授解析空间智能:超越传统多模态感知的关键路径

张进教授解析空间智能:超越传统多模态感知的关键路径

热心网友
24
转载
2026-05-16

12月12日,第八届GAIR全球人工智能与机器人大会在深圳拉开帷幕。作为观测AI技术演进与产业生态变迁的重要风向标,GAIR大会自2016年创办以来,始终与全球人工智能发展的脉搏同频共振。今年,当行业焦点从大模型的“技术破壁”转向“价值深耕”时,这场盛会如期而至,汇聚前沿智慧,共同触摸AI发展的深层逻辑。

会上,南方科技大学计算机科学与工程系长聘副教授张进带来了一场关于感知技术前沿的精彩分享。她开门见山地指出,无论是当下火热的“具身智能”还是“智慧健康”,其核心都离不开对物理世界的精准感知与理解,目标是在虚拟与物理世界之间架起沟通的桥梁。从这个角度看,传统AI与新型传感技术,可谓是从不同路径出发,最终“殊途同归”。

殊途同归:从多模态到物理感知的融合之路

传统AI的路径,是从语言、文字、视觉等模态数据出发,构建世界模型,进而探索空间智能。然而,如果我们把视线拉回到二十年前,在无线通信与网络领域,研究人员早已开始布设无线传感器网络,对山川河流乃至空中环境进行监测。再往前追溯,数字孪生、智慧城市、智能交通等概念的实践,其底层逻辑同样是为了更准确地感知物理世界。从有线到无线,从WiFi到手机信号,人类一直在尝试用各种方式“理解”周遭环境。

那么,这两条路径是如何交汇的呢?早期的感知依赖于信号处理,随后机器学习、深度学习带来了更强大的信息理解能力。如今,大模型的出现,使得我们能够以前所未有的深度去解析传统传感器信号,从而催生了面向空间智能的下一代多模态感知。

不过,目前常见的“多模态”大多仍集中在语音、文字、图像、视频等传统形式。像激光雷达、点云、深度摄像头等,也只是与传统视觉略有结合。真正的突破,或许在于引入更多像声波、毫米波雷达这样的新型感知模态。

声波感知:低成本、高潜力的“隐形”感官

相较于已有一些应用的毫米波雷达,声波感知的探索目前相对较少,但其潜力不容小觑。为什么要发展这些新型传感器?道理其实很直观。现有的视觉传感器复杂度高、依赖光照条件,还存在隐私顾虑。如果要在小型机器人或穿戴设备上集成摄像头及处理芯片,其功耗和成本都是巨大的挑战。那么,是否存在更经济、更高效的感知方案?

这正是声波感知的优势所在。我们身边的智能设备,如手机、智能眼镜、耳机、智能音箱,几乎都标配了扬声器和麦克风。无需额外硬件,只需让设备发出人耳听不到的声波,并接收其从环境反射回来的信号,就能像蝙蝠一样感知周围的物体、距离和运动。这种方法成本低廉、计算量小,非常适合对功耗和体积敏感的机器人及物联网应用。

目前,声波感知已展现出多样化的应用场景。例如,在智能汽车的车内定位、笔记本电脑的隔空翻页操控中,都已见到其身影。这些交互并非依靠摄像头,而是通过声波实现的。在智能眼镜和耳机等设备上,其应用前景更为广阔。

早期的研究仅理解信号本身,例如利用两个距离很近的扬声器发射特殊旋转声场信号,就能实现厘米级的精准定位,这在设备间定位场景中至关重要。更进一步,声波感知还能实现3D运动追踪。当然,从两个设备间的感知扩展到多设备协同,面临着信号冲突等诸多挑战。近年来,通过与荣耀、华&为等厂商的合作,团队正在攻克这些难题,未来有望将多设备声波感知技术集成到开源生态中,作为提供连接与方向感知的基础设施。

在智能交互层面,声波感知同样大有可为。团队在智能眼镜交互上投入了大量精力,目标是实现仅通过眨眼、挑眉等细微面部动作来控制设备。其原理依然是利用扬声器发声,通过麦克风接收反射信号来识别动作,最终实现无需抬手、仅凭眼球运动即可操控眼镜。

此外,针对智能眼镜前众多图标需要手动滑动点击的痛点,团队开发了一种面部传感器。它通过发射较高频的次声波,便能精准感知触摸、滑动等手势。未来这种传感器若能集成到眼镜中,几乎可以做到外观隐形。

隔空手势识别是另一个重点方向。以智能眼镜为例,侧边的触控板在触碰时可能引起镜框晃动,影响体验。能否实现完全隔空的控制?这里的挑战不小。

目前主要有两种技术路径:一种是被动感知,即识别手部滑动产生的微弱声音;另一种是主动感知,由扬声器发出不可闻声波,通过回波进行感知。两者目标一致,都是实现精准的隔空手势识别。

除了眼镜,蓝牙耳机的交互也存在痛点。目前主流操作仍依赖触摸耳机柄的不同位置,灵敏度调节不易掌控。团队的目标是实现“无接触”控制。

一项创新灵感来源于助听器。助听器需要精准区分声音方向,且用户通常希望其佩戴不被察觉。受此启发,团队在蓝牙耳机上集成了隔空隐蔽式传感器,用户只需用舌头顶住上颚不同位置,即可向耳机发出指令。原理在于耳道、上颚与口腔连通,耳道发出的声波在口腔内反射,舌头位置变化会显著改变信道特性,从而被感知识别。这项成果已发表于今年的人机交互顶会。

在舌控之外,团队也实现了隔空手势控制耳机。这其中涉及手势定义、环境抗干扰、信号选择等诸多挑战,看似小巧的系统背后是复杂的技术攻坚。这些前沿交互研究已引起多家消费电子厂商的兴趣,相关落地工作正在推进中。

从健康监测到康复指导:声波感知的医疗蓝图

声波感知的另一大应用舞台是医疗健康领域。实际上,利用声波进行健康监测的研究已持续十多年,而团队在远程健康监测领域的积累更是接近二十年。

当前,利用手机等设备非接触式监测呼吸、心跳已较为成熟。团队现在聚焦的,是利用耳机实现肺功能监测。中国有庞大的慢阻肺与哮喘患者群体,他们需要定期到医院进行肺功能检查,过程不便。如果未来仅凭日常佩戴的耳机,就能获得与医院昂贵设备相近的监测结果,对患者而言意义重大。

团队的研究分两步走:最初仍需用户对着连接耳机的管子吹气;而最新的进展是,用户正常说话即可完成肺功能评估,实现了真正的无感监测。

然而,监测只是第一步。临床医生指出,真正的医疗价值在于形成“监测-干预”闭环。例如,腹式呼吸训练是常见的肺部康复手段,但患者在家往往难以坚持正确的呼吸方式。为此,团队探索利用声学摄像机或毫米波雷达,来评估患者的呼吸模式与深度,从而替代医护人员,提供实时的呼吸训练指导。目前,这项研究正与广东省人民医院合作开展。

此外,团队还开发了基于声波的房颤监测系统,只需将设备置于手上即可操作,简便易用。展望未来,一副耳机或许就能同时监测呼吸、心跳、压力,并在需要时提醒呼吸训练、播放舒缓音乐。这条路径前景广阔,但仍需持续完善。

在健康感知领域,柔性传感器也是重点方向。团队尝试将柔性传感器置于耳内或手腕,用于连续血压监测。这里的核心挑战在于数据模态的转换:传统监测多基于光电传感器(PPG),切换到柔性传感器后,可用数据量大幅减少。难点主要集中在两方面:一是实现跨模态的可靠监测,二是在健康人群上验证有效的模型,在病理状态下的表现可能不同。未来需要收集更多临床患者数据,这条路依然漫长。

毫米波雷达:从精准识别到可信感知的进化

最后,分享转向了毫米波雷达感知。团队在此领域已有近十年的研究积累,早期工作包括基于毫米波雷达的SLAM(同步定位与地图构建)、材质识别等。近年来,关注点逐渐从“检测准确率”转向了“可信感知”。

例如,利用毫米波雷达追踪人体运动并生成骨骼图已是可行方案。但一个根本性挑战在于数据匮乏——毫米波雷达数据稀缺,而视觉数据却海量。因此,一个关键研究方向是如何利用丰富的视觉数据来合成毫米波数据,以辅助模型训练。

在这个过程中,团队发现了新的问题:视觉上的欺骗可能“污染”毫米波雷达的判断。这意味着,仅仅能识别目标还远远不够,必须确保感知的“可信度”。

一个交通场景的例子能很好说明风险:前方有车,但旁车开门形成视觉遮挡,可能导致系统生成错误信号,误判前方无车而引发碰撞;反之,前方无车却生成“有车”信号,则可能导致不必要的急刹和追尾。

如何防御这类“生成式欺骗”?团队后续开展了一系列工作。一个思路是让毫米波雷达发射的信号形成多个不同的传播路径。通过对比不同路径下测得的运动速度、距离等信息(A路径结果与B路径结果),可以有效区分真实信号与欺骗信号。

这项研究引申出一个值得警惕的未来场景:如今人们进入陌生房间会担心隐藏的摄像头。未来,如果存在恶意部署的毫米波雷达,无需“偷拍”即可感知室内一切,我们该如何探测、发现并清除它?这也是团队正在探索的安全研究方向。

未来方向:理解、融合与生成

回顾声波与毫米波雷达感知的发展,其历程与研究者背景紧密相关。从电子信息到计算机科学的跨学科背景,使得研究路径从早期的信号处理,逐步演进到结合物理意义的深度学习模型设计。例如,毫米波雷达信号具有稀疏性和天线间的角度关联性,不能简单套用视觉网络,必须依据其物理特性设计专用模型。

面向未来,新型模态感知的研究将主要围绕三个方向展开:

首先,继续深耕物理信息辅助的新型模态理解模型。当前许多毫米波雷达模型倾向于先生成点云再进行分析,但生成点云本身已损耗部分信息。未来的方向是直接在原始信号上进行理解,将物理机理深度融入模型设计。

其次,探索传统模态与新型模态的融合理解。如何让视觉、语音等与传统AI强相关的模态,与声波、毫米波等新型物理感知模态有效结合、互补增效,是一个重要课题。

最后,积极拥抱大模型浪潮。大模型正在重塑千行百业,智能感知领域也不例外。团队正在探索利用大模型自动生成代码,来检测物理世界的感知信号并直接输出结果,这有望大幅提升开发效率。

基于大模型的感知模型生成工作才刚刚起步,预计未来五到十年将迎来繁荣发展。

总而言之,面向空间智能与物理世界的多模态感知需求极其庞大。传统感知模态有限,而未来需要更多像声波、毫米波、柔性传感这样的新型模态,它们将在不同场景中发挥独特优势。研究者的任务,就是深入理解这些新型感知模态,设计与之匹配的先进模型,从而更全面、更精准地感知物理世界。因此,未来的研究将必然聚焦于数据理解、数据生成等核心问题。当前新型模态的数据依然稀缺,如何高效生成数据、防御安全风险、实现端侧轻量化部署,都是亟待深入探索的关键课题。

对话张进:技术“无形”,感知“无感”

问:您的研究背景从电子通信跨越到感知领域,契机是什么?

张进:我本硕在清华攻读电子通信,博士在香港科技大学转向计算机科学。结合背景,博士期间我研究认知无线电。毕业后与医院合作,将无线信号技术应用于智慧医疗,由此发现信号也能感知健康状态。人口老龄化的趋势让我意识到,智慧健康领域的感知需求将非常巨大。学界与业界始终相互推动,因此在2014年左右我选择回到学术界,持续深耕健康检测感知技术,并逐步拓展到毫米波雷达(2014年至今)和声波感知(2018年开始)的应用研究。我常对学生说,求职时不必苛求研究方向与岗位完全对口,重要的是用系统性思维拆解需求,找到解决问题的突破口,这是一个成功的研究者应具备的能力。

问:声波感知、毫米波雷达等新型技术,将如何影响普通人的生活?

张进:真正的好技术是“无形”且“无感”的。就像我们从充电仓取出蓝牙耳机戴上,它能自动连接手机,无需额外操作。如果戴上后还需点击手机才能使用,体验就大打折扣。新型感知技术的核心目的,正是让设备能智能理解周边环境,实现更自然便捷的人机交互。例如,现在与AI设备互动,往往需要拍照或发出语音指令。未来,随着多模态感知技术的成熟,设备或许能在我们无需明确指令的情况下,自动理解环境并执行任务。

问:新型模态感知对空间智能发展有何作用?未来的感知世界会是怎样的?

张进:传统AI通过视觉、听觉、文本来认识世界,但对物理世界中的距离、空间关系等概念缺乏本质理解。要让空间智能真正理解物理世界,必须借助声波、毫米波雷达这类物理传感进行空间感知。因此,新型模态感知技术对空间智能的发展不可或缺。

同样,在感知层面,“无形”和“无感”仍是理想状态。新型感知是一个复杂领域,需要针对不同场景需求和设备限制,提供不同的技术方案。声波、毫米波等各有优劣,很难有一种技术通吃所有场景。未来更可能的图景是,多种感知技术融合协作,在特定场景中组合应用,共同满足产品智能化的需求。

来源:https://www.leiphone.com/category/ai/AxnzXjbHcktRx5EE.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

双阶段方案让虚拟图像骗过AI眼睛游戏画面以假乱真
AI
双阶段方案让虚拟图像骗过AI眼睛游戏画面以假乱真

你是否好奇,游戏《GTA》中飞驰的汽车与现实中监控摄像头拍下的车辆,在人工智能的“视觉系统”里究竟有多大差别?尽管现代游戏画面已极为逼真,光影、材质与场景构建都栩栩如生,但对于自动驾驶、交通监控、智慧城市管理等需要落地应用的AI算法而言,虚拟游戏图像与真实世界照片之间,依然横亘着一道肉眼难以分辨、却

热心网友
05.16
港大与京东探索院联手优化视频AI四步提升实用体验
AI
港大与京东探索院联手优化视频AI四步提升实用体验

这项由香港大学、京东探索研究院、清华大学、北京大学和浙江大学联合完成的研究,以技术报告形式发布于2026年4月,论文编号为arXiv:2604 25427,有兴趣深入了解的读者可通过该编号查询完整原文。 你是否曾尝试用AI生成视频,却对结果感到失望?画面与描述不符、人物肢体扭曲、场景光影闪烁,最终视

热心网友
05.16
数据表描述不一致导致AI检索失败?伦斯勒理工与亚利桑那州立大学提出修复方案
AI
数据表描述不一致导致AI检索失败?伦斯勒理工与亚利桑那州立大学提出修复方案

2026年4月,一项由伦斯勒理工学院与亚利桑那州立大学联合开展的研究,在arXiv预印本平台发布(编号:arXiv:2604 24040v1),系统性地揭示并量化了AI表格检索领域一个长期存在的“盲点”——表格序列化格式对检索性能的巨大影响。 一、格式不同,AI就“认不出”同一张表格了? 设想一个典

热心网友
05.16
腾讯混元AI新突破:实时自适应系统取代传统固定模型
AI
腾讯混元AI新突破:实时自适应系统取代传统固定模型

腾讯混元团队提出新方法,使模型在推理时能根据输入动态生成参数,实现实时适配。实验表明,该方法在图像编辑任务中效果显著,能有效处理冲突需求,并在多项评测中领先,推动了智能模型从静态向动态演进。

热心网友
05.16
北大林宙辰团队ICLR 2026研究:基于最优传输的时序预测模型训练方法
AI
北大林宙辰团队ICLR 2026研究:基于最优传输的时序预测模型训练方法

北京大学团队提出DistDF损失函数,基于最优传输理论对齐预测与真实标签的联合分布,规避传统逐点损失中的独立性假设,实现无偏训练。该方法能有效捕捉序列整体形态与结构,兼容多种模型,在实验中展现出更优性能。

热心网友
05.16

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

美光发布245TB超大容量SSD G9闪存驱动AI数据中心能效革新
业界动态
美光发布245TB超大容量SSD G9闪存驱动AI数据中心能效革新

2026年5月6日,存储行业迎来一个标志性节点:美光正式向市场交付其6600 ION系列固态硬盘的245TB版本。这不仅刷新了商用SSD的容量纪录,更意味着数据中心存储的密度与能效竞赛,进入了新的阶段。 这款“巨无霸”SSD的核心,是美光自研的第九代(G9)276层3D QLC NAND闪存颗粒。为

热心网友
05.16
小米昆仑增程SUV路试曝光 预计2026年下半年正式上市
业界动态
小米昆仑增程SUV路试曝光 预计2026年下半年正式上市

2026年5月5日,小米汽车旗下备受期待的首款增程式全尺寸SUV——内部代号“昆仑”的路试谍照正式曝光。作为一款瞄准多人口家庭用户市场的战略车型,“昆仑”采用了当前市场热门的增程式混合动力技术路线,旨在为用户提供无里程焦虑的纯电出行体验。 据悉,这款全新SUV计划于2026年下半年正式上市发布,其亮

热心网友
05.16
荣耀600系列国行版发布:2亿像素三摄与8500mAh大电池
业界动态
荣耀600系列国行版发布:2亿像素三摄与8500mAh大电池

备受期待的荣耀600系列手机国行版本,即将在本月下旬正式登陆国内市场。根据最新备案信息,该系列将提供六款独具特色的配色供消费者选择,分别为:象征喜悦的“好事橙”、寓意美好的“幸运星”、清新淡雅的“茉莉白”、活力十足的“青苹果”、深邃迷人的“光羽蓝”,以及永不过时的经典“曜石黑”。 从硬件配置来看,荣

热心网友
05.16
黎明行者之血速通攻略 一小时跳过剧情通关
游戏攻略
黎明行者之血速通攻略 一小时跳过剧情通关

近日,游戏界传来一则颇具讨论价值的消息。由前《巫师3》总监Konrad Tomaszkiewicz领衔的工作室Rebel Wolves,正式公布了其正在开发的黑暗奇幻角色扮演游戏《黎明行者之血》的一项激进设计:玩家在完成序章后,几乎可以跳过所有支线任务与地图探索,直接挑战位于城堡中的最终BOSS。

热心网友
05.16
老夫子攻速铭文最佳搭配方案与实战技巧
游戏攻略
老夫子攻速铭文最佳搭配方案与实战技巧

在王者荣耀的对抗路中,老夫子凭借其独特的机制,始终是令对手头疼的强势英雄。想要真正掌握这位“单挑王”,一套精准的攻速铭文搭配与灵活的出装思路,是奠定你线上压制力与团战影响力的关键。正确的配置,能让你从对线期开始就掌握主动权。 攻速铭文搭配:构筑前期优势的核心 铭文是英雄前期作战能力的基石。对于依赖普

热心网友
05.16