首页 游戏 软件 资讯 排行榜 专题
首页
AI
张进对话GAIR 2025:AI超越视觉感知的认知新突破

张进对话GAIR 2025:AI超越视觉感知的认知新突破

热心网友
93
转载
2026-05-16

近年来,人工智能正加速从实验室的“盆景”走向真实世界的“旷野”。感知,这一看似古老的技术命题,也随之被推到了下一代智能系统发展的核心位置。

无论是自动驾驶、智能终端,还是当前备受关注的空间智能与具身智能,系统所需完成的已不仅是信息理解,更需要在复杂、动态的物理环境中,持续、可靠地捕捉环境信号。现实应用很快揭示了单一视觉感知的局限,这促使整个行业重新审视:多模态感知技术究竟应如何支撑未来的智能交互?

在此背景下,声波、毫米波等无线感知技术逐渐步入主流视野。其核心理念尤为独特:不追求“看见”,而是通过对物理信号的建模与分析,让设备在几乎不增加硬件负担、且最大限度保护用户隐私的前提下,理解周围环境与人的行为。尽管距离大规模普及尚有距离,但它们已被业界广泛视为构建空间智能、实现无缝物理世界交互的关键基石。

在GAIR 2025大会上,南方科技大学副教授张进围绕无线感知、多模态融合以及面向空间智能的新型感知技术,进行了深度分享。长期扎根科研一线的她,关注焦点并不仅是实验室的优异数据,更是这些技术在真实场景中的可行性与可靠性。

会后,我们与张进教授展开了一场对话。相较于宏大的技术愿景,她更倾向于从具体的研究实践出发,探讨感知技术在落地过程中所面临的实际约束与挑战。以下为经整理的对话实录。

一所大学的崛起与一位学者的抉择

AI科技评论:您的学术履历非常扎实,从清华到港科大,最终选择加入南方科技大学,当时是基于哪些考量?

张进:这个选择,并非出于简单的职业“跳槽”逻辑。核心原因在于,我亲身见证过一所年轻大学在正确的制度与环境下,所能迸发的巨大能量。香港科技大学便是一个鲜活例证,成立仅二十余年,已跻身世界一流。我曾在那里工作,对此有深切体会。

当时的南科大,正处在“必须成长起来”的关键阶段,并且获得了深圳市明确而坚定的支持。校内流传着一句响亮的口号:“叫醒南科大学生的不是闹钟,而是中国高校改革的号角。”这绝非空谈,而是一种真实的状态——大家是以创业的心态在创办这所大学。

我加入时,学校甚至连计算机系都尚未设立,完全是从零开始搭建。寻找系主任、确立学科方向、制定培养方案……我们一步步将计算机系建立起来。至今,系里每年培养约200名学生,十年累计近2000人。虽不敢言已多么强大,但至少体系完整、规模稳定,这对一所年轻大学而言,实属不易。

AI科技评论:若将南科大比作一家创业公司,您是否更接近“联合创始人”的角色?

张进:某种程度上确实如此。这种深度的参与感,会让你对学校产生截然不同的情感。学生如何培养、课程如何设计、学科方向怎样规划……这些都不是照搬现有模板,而是你亲自参与制定的。

我目前不仅是计算机系的副系主任,负责研究生培养与科研工作,同时也是致仁书院的副院长。书院制是南科大的重要特色。加之去年我们成功获批博士点,可以说,计算机系从2014年起步开展本科培养,到逐步完善研究生体系,这一整套框架,都是我们亲手构建的。

正因为经历了从无到有的全过程,这份感情与责任感,是截然不同的。

AI科技评论:除了学校,深圳这座城市对您的研究有何特殊意义?

张进:许多人提到深圳,第一反应是“资金充裕”。但深圳的优势,远不止于此。美国同样资金雄厚,硅谷亦然,但硅谷的许多硬件最终仍需回到深圳制造。

深圳真正强大的地方在于,它同时拥有极其完整的产业链配套、高度密集的人才储备,以及真实存在的旺盛市场需求。这三者叠加产生的效应,在全球范围内都相当罕见。

港科大的许多毕业生,最终会选择来到深圳,或创业,或投身科研。我们所致力开展的,正是那些能够真正改变世界、并能与产业深度结合的研究。而深圳,恰好处在高速成长的阶段。在这个阶段入场,而非等待格局既定后再加入,其想象空间与施展舞台自然广阔得多。

从通信到无线感知的「自然演进」

AI科技评论:您的研究方向跨度不小,最初是从何处起步的?

张进:我的研究方向确实经历了多次演进。硕士阶段在清华,从事3G/4G无线移动通信系统研究。赴港科大读博后,进入计算机系,方向转向无线网络,主要关注WiFi多基站间的协同部署问题。

随后进一步深入至认知无线电领域,即让通信系统具备一定智能,能自动感知频段占用情况并进行动态切换。博士毕业后,我开始尝试将无线信号应用于智慧医疗场景。

起初仅是使用无线网络传输医疗数据,但很快意识到,无线信号本身便可用于感知人的健康状态。这一发现,成为了一个重要的转折点。

AI科技评论:在智慧医疗领域,具体进行过哪些探索?

张进:博士毕业后,我在港科大有过一段创业经历,与深圳市人民医院、第二人民医院开展了深入合作。我们共同开发了移动健康监测系统,包括管理数万名患者的网络医院平台,也曾涉足脑卒中筛查等工作。

如今回顾,我们起步得非常早。当时,像Fitbit、Jawbone这类智能手环产品尚未出现。也正因为过于超前,技术条件、产业环境与市场认知均未成熟,许多尝试最终未能实现规模化落地。

这段经历让我深刻认识到,一些真正前沿、周期漫长的探索,或许更适合回到学术界进行持续、深入的耕耘。

AI科技评论:后来是如何系统性地转向感知技术方向的?

张进:回归学术界后,我并未放弃对健康与环境感知的关注,而是开始从“非视觉”角度重新审视这一问题。2014年加入南科大后,开始系统研究毫米波雷达技术;到2018、2019年左右,又逐步引入声波感知,同时继续深化毫米波方向的研究。

从技术路径看,这是一个非常自然的演进:从早期的信号处理,逐步引入机器学习、深度学习,再到如今的大模型技术。我们方向有一个天然优势:团队既具备扎实的信号处理背景,又拥有计算机与人工智能的知识储备,因此能更有效地将物理信号与AI模型相结合。

让设备「无形」却「更懂你」

AI科技评论:能否以通俗的方式解释,什么是声波感知与毫米波感知?

张进:声波感知其实非常直观。你可以将手机、电脑或耳机想象成一只蝙蝠:设备上的扬声器发出人耳听不到的超声波,声波遇到周围环境或人体后反射回来,再由麦克风接收。通过分析这些反射信号,就能感知环境、检测呼吸心跳、识别手势,甚至判断设备间的相对位置。

它的最大优势在于,无需额外加装专用传感器,成本低、体积小,但感知能力却相当强大。

毫米波感知,大家最熟悉的可能是汽车前方的毫米波雷达,用于探测车辆。但在生活场景中,它同样能监测室内是否有人、人数多少、人的具体位置、心跳状态,甚至是否发生跌倒。同时,它又“看不见”具体形象,在隐私保护方面比摄像头更具优势。

AI科技评论:您认为,目前公众对感知技术最大的误解是什么?

张进:实际上,感知技术本身或许并不需要被大众“理解”。最好的技术,往往是让人察觉不到其存在的技术。

就像一副真无线耳机,戴上即连,这便是最佳体验;若需用户反复操作才能连接,体验便会大打折扣。感知技术的核心目标,是让设备在获得环境理解能力后,能自然而流畅地完成交互,而非总需要用户告知设备“此刻正在发生什么”。

AI科技评论:在推动人工智能与科学发展的进程中,感知技术扮演着怎样不可替代的角色?

张进:当前业界热议“空间智能”,但仅依靠视觉、语音和图像是远远不够的。图像难以精确获取距离与真实的空间结构,而要真正理解并与物理世界交互,就必须引入物理感知模态。

事实上,人类最早发展的智能并非语言智能,而是空间智能。智能机器若要成为真正的智能体,也必须具备对物理空间的理解与交互能力。此时,声波、毫米波以及其他新型感知模态,便变得不可或缺。

当感知技术真正步入现实世界

AI科技评论:感知结果是否足够可信?是否存在被攻击的风险?

张进:这正是我们近两三年重点关注的课题。尤其是毫米波雷达已大量应用于汽车领域,对安全性的要求极高。一旦感知系统被攻击,可能导致车辆“看不见”真实存在的障碍物,或“看见”根本不存在的障碍,从而引发严重事故。

因此,我们不能天真地假设世界上所有人都是“善意”的。感知系统必须在信号设计、模型结构乃至整体系统层面,都具备抵御攻击的能力,才能真正称得上是“可信感知”。

AI科技评论:您的研究方向跨度如此之大,如何看待科研过程中的“得”与“失”?

张进:科研的本质,或许就在于保持好奇心。如果每日只是在重复已知的事务,意义其实有限。研究方向会随着世界的变化、社会的需求而调整,但科研的内核是不变的:发现问题、理解前沿、解决他人未曾解决的问题。

我常对学生说,求职时不必只盯着公司要求的技术是否与你硕士或博士期间的研究完全对口。真正重要的是,你是否具备了系统分析问题、构建解决方案的能力。一个成功的博士,理应拥有快速进入任何新领域的学习与适应能力。

AI科技评论:您如何看待“女生不适合学习工科”这种观点?

张进:我完全不认同这种说法。我不认为女生的逻辑能力天生逊于男生,很多时候,是因为被反复暗示“你不行”,才导致了信心不足。

事实上,女生学习计算机乃至硬核理工科,反而具备诸多独特优势:稀缺性高、沟通与共情能力强、更为细致耐心、抗挫折能力与韧性也往往更佳。在需要紧密协作的大型系统性研究中,这些素质都至关重要。

我培养过许多非常优秀的女学生,其中包括南科大第一位获得美国高校教职的本科生。因此,女生完全有能力,也非常适合选择计算机和硬核理工科方向。

AI科技评论:如果请您描绘未来三年内的感知世界,会是怎样的图景?

张进:感知领域的未来,注定是高度多样化、甚至碎片化的。很难有一种技术能“通吃”所有问题。不同的应用场景、不同的设备约束、不同的用户需求,会对应不同的技术组合方案。

但万变不离其宗,最终的目标是一致的:技术必须真正落地到产品中,让产品变得足够智能,使得用户无需额外输入信息,设备便能理解物理世界。只要能做到这一点,无论采用何种技术路径,都是优秀的感知技术。

来源:https://www.leiphone.com/category/yanxishe/dy4ahf8zgzT6wHDx.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

张进对话GAIR 2025:AI超越视觉感知的认知新突破
AI
张进对话GAIR 2025:AI超越视觉感知的认知新突破

人工智能从实验室走向现实,感知技术成为关键。单一视觉感知的局限性推动多模态感知兴起,声波、毫米波等无线感知技术通过分析物理信号理解环境,支撑空间智能发展。这些技术需在真实场景中验证可行性与可信度,抵御潜在攻击。未来感知技术将更趋多样,核心目标是让设备智能理解。

热心网友
05.16
南方科技大学研发人机融合负重型“半人马机器人”
科技数码
南方科技大学研发人机融合负重型“半人马机器人”

IT之家 3 月 9 日消息,南方科技大学机械与能源工程系付成龙教授团队在穿戴式助行机器人领域取得研究进展。相关成果于今年 2 月在机器人领域权威期刊 International Journal o

热心网友
03.09
薛其坤:量子科技产业未来五年将显著推动经济发展
科技数码
薛其坤:量子科技产业未来五年将显著推动经济发展

人民财讯3月3日电,全国人大代表、中国科学院院士、国家最高科学技术奖获得者、国际著名实验物理学家、南方科技大学校长薛其坤3月3日在驻地接受记者采访时表示,量子科技产业现在正处于从基础研究、研究开发到

热心网友
03.03

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Mac预览编辑图片尺寸教程 苹果自带工具调整大小
系统平台
Mac预览编辑图片尺寸教程 苹果自带工具调整大小

Mac自带的“预览”应用可便捷调整图片尺寸。通过“调整大小”工具精确修改像素,勾选“比例缩放”避免变形。使用“裁剪”工具框选区域以改变有效显示尺寸。利用“导出”功能可生成指定尺寸的副本而不影响原图。

热心网友
05.16
NASA与Microchip合作研发抗辐射航天芯片技术
科技数码
NASA与Microchip合作研发抗辐射航天芯片技术

航天计算技术正迎来一次里程碑式的升级。美国国家航空航天局(NASA)近日联合美国微芯科技公司(Microchip),正式启动了名为“高性能航天计算”的研发项目。该项目的核心目标,是研制一款片上系统(SoC),其运算性能预计将达到当前航天专用处理器的百倍以上。 根据NASA的规划,这款高性能航天芯片将

热心网友
05.16
银河麒麟系统开启Vulkan加速提升游戏性能教程
系统平台
银河麒麟系统开启Vulkan加速提升游戏性能教程

在银河麒麟系统上,若游戏或图形应用出现卡顿、帧率低或崩溃,可能是未开启Vulkan硬件加速。针对不同显卡,可采取相应方法启用。对于AMD或Intel集成显卡,可通过终端安装并验证mesa-vulkan-drivers包;对于已安装NVIDIA专有驱动的用户,需确保系统正确加载VulkanICD文件。操作主要适用于银河麒麟桌面操作系统V10及后续版本。

热心网友
05.16
银河麒麟系统安装Julia语言教程 打造高性能数值计算环境
系统平台
银河麒麟系统安装Julia语言教程 打造高性能数值计算环境

在银河麒麟操作系统上构建高效数值计算与数据分析平台,Julia语言凭借其脚本语言的易用性与编译语言的高性能,成为科学计算领域的理想选择。若您已完成麒麟系统的基础配置,但发现Julia环境尚未就绪,这通常是由于系统未预装或缺少关键依赖库所致。本文将系统梳理在银河麒麟OS上安装Julia语言的几种主流方

热心网友
05.16
Mac多显示器排列与分屏设置详细教程
系统平台
Mac多显示器排列与分屏设置详细教程

Mac连接多显示器后,需在系统设置的“显示器”选项中调整逻辑排列以匹配物理布局。拖动屏幕缩略图对齐实际位置,关闭“镜像显示器”以启用独立排列与分屏功能。可设定主显示器并进行微调,通过快捷键或拖拽窗口实现流畅分屏操作。

热心网友
05.16