首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
具身智能奠基人苏昊复旦首讲:AI未来在于理解物理世界

具身智能奠基人苏昊复旦首讲:AI未来在于理解物理世界

热心网友
80
转载
2026-05-28

就在上个月,人工智能学界的一则人事变动引发了广泛关注:此前任教于美国加州大学圣地亚哥分校的苏昊教授,正式加盟复旦大学。这位在ImageNet(全球超大规模图像数据集,深度学习与计算机视觉发展的关键基石)核心贡献者名单中占有一席之地、并被视为具身智能领域共同奠基人的学者,其论文被引次数已约达15万次,在该领域的全球学者中位居前列。

5月27日,这位新任复旦大学浩清特聘教授、通用物理智能研究院首任院长,在复旦大学校庆科学报告会上,面向全校师生作了首场科学报告。这场以“物理智能:从感知到交互”为主题的报告,也被视为他回国后首次完整公开阐述其学术蓝图。

“物理智能”极其稀有

报告一开始,苏昊就抛出了一个朴素却深刻的问题:“过去三十年,科学界投入了大量精力让机器‘看’和‘读’得更明白——识别人脸、理解文字、生成图像。但它真的理解这个世界吗?推一下桌上的杯子,它知道会发生什么吗?如果用两倍的力再推一次,当前最先进的大模型能预判杯子的运动轨迹有何不同吗?”

他回顾了自己自2008年出国至今的研究历程,将其概括为“十八年间只做了一件事——让机器理解物理世界”。从早期的2D图像感知,转向3D形状理解,再到开发可交互的物理仿真平台,一条清晰的路径逐渐显现:要走向通用人工智能,必须把“看”和“做”统一在同一个框架、同一个闭环里。正是基于这些探索,他与多所大学及企业的前沿实验室共同推动了具身智能的学科定义与社区凝聚。

在这个过程中,一个规律浮出水面:当机器人实现简单的物体操作技能时,瓶颈往往在于视觉感知;而复杂操作技能的真正卡点,则在于物理理解。

那么,究竟什么是物理理解?苏昊用了一个人人都经历过的生活场景来解释——搬纸箱。在伸手之前,你的大脑已经下意识地开始判断:这个箱子有多重?箱子结实吗?这些判断在零点几秒内就完成了,你甚至没有意识到这个过程。

“这种能力不是从书本上学到的,而是在无数次触碰、抓握、甚至跌打中打磨出来的。”苏昊指出,即便是目前最先进的AI,面对同样的场景依然无能为力。它可以识别出“纸箱”这个物体,却无法预知“拿起来是什么感觉”。“物理理解的本质,不是‘看到了什么’,而是‘给定一个动作,预测它将带来的物理后果’。”他总结道。

借用认知科学的框架,苏昊将智能分为四个层级:感知智能(看懂图像)、空间智能(理解三维几何结构)、物理智能(理解物理交互和因果)、行为智能(做出决策和规划)。

一个值得注意的事实是,在自然界中,除了人类之外,第三层“物理智能”极其稀有。目前已知只有鸦科鸟类和类人猿等少数动物才具备这种能力。乌鸦懂得往瓶子里投石子让水平上升以便喝水,灵长类动物能够使用工具——这并非感知能力的简单升级,而是一次认知层面的质变。

AI的下一里程碑

“AI的下一个里程碑,恐怕不是更会说话,而是理解物理世界,从而学会操作。”苏昊直言不讳地给出了他的判断。

过去两年流行起来的世界模型主要分为两类:几何世界模型擅长空间理解,视频世界模型擅长视觉生成。但它们的本质,都没有实现真正的“物理理解”,也无法“预测行动后果”。

“真正需要的是第三类——物理交互世界模型。它既要理解空间,又要理解物理规律,能预测行动带来的后果。”苏昊解释道。目前,这类模型仍处于较早期的发展阶段,“不同的技术路线都在同一个地方碰壁——物理智能层。而瓶颈的另一面就是机遇,谁能率先补上物理智能这块短板,谁就有可能定义下一代人工智能的范式。”

这也正是苏昊领衔建设的复旦大学通用物理智能研究院要聚焦的两件大事:第一,推动物理智能的最终实现,构建能理解“推一下桌上的杯子会怎样”的物理交互世界模型;第二,培养下一个十年的AI领军人才。

“我们看重两点:一是高品位的科研眼光,能判断什么问题真正值得去做;二是长周期的探索耐心,能在一个方向上坚持足够久。”苏昊强调,“我们不要只做论文的搬运工,而要做问题的提出者和解决者。”论文不应是目标,而是副产品。真正的标尺,是能否在真实世界中实现智能体的有效行动与自主决策。

他给出了三个关键词:交叉、交互、验证。物理智能本质上是一个多学科交叉问题,涉及数学、物理、计算机、人机交互乃至脑机接口等多个领域。因此,通用物理智能研究院将不设僵化的学科边界,而是围绕要解决的核心问题来汇聚人才。

关于交互,他指出交互数据是物理智能的“石油”。看一万个小时别人骑自行车的视频,自己依然不会骑。必须通过主动交互,才能获得真正的物理经验。研究院将推动仿真平台构建与真实世界数据采集双线并行。

关于验证,他则强调真实世界的表现才是终审法官。仿真环境里跑得再好,到了真实世界一旦失败就不算数。从仿真到真实,是不可省略的关键一步。

复旦大学所拥有的数学和物理学科根基、发展新工科的决心,以及背靠上海丰富产业生态的优势,被苏昊视为开展物理智能研究最需要的“土壤”。

中国有机会主导这一方向

对于物理智能的未来,苏昊持一种“谨慎的乐观”态度。

在他看来,在大语言模型的竞争中,中国更多扮演着追赶者的角色;但物理智能的赛道则完全不同,全世界的研究者几乎都站在同一条起跑线上,核心问题尚未被彻底解决。中国在完整产业链等方面具备独特优势,眼前正是一个有机会主导研究方向、定义技术范式的宝贵窗口期。

与此同时,也需要谨慎看待现状。目前很多演示样例(demo)非常精彩,例如机器人叠衣服、做饭、整理房间。但这些演示与真正的通用能力之间,仍然存在着关键断层。“由于缺乏深度的物理理解,短期内要达到大语言模型那种程度的泛化能力还不现实。但在更长的时间尺度上,方向是清晰的。”苏昊分析道。具身智能未来将深入制造业、服务业、养老行业等诸多领域,我们正在通往一个人机共存的新时代。而连接当下与未来的这座“桥梁”,正建立在今天对物理智能扎实而深入的探索之上。

“没有理解就没有泛化,没有交互就没有理解。”苏昊用这句话概括了他多年人工智能研究最深切的体会。

最后,他引用复旦校训“博学而笃志,切问而近思”来阐释物理智能的研究哲学:“‘切问’,是从切身处发问;‘近思’,是从实践中思考。这和物理智能的方法论有一种天然的契合——不是只坐在那里空想,而是伸出手去触碰,在碰撞中获得对世界的理解。这正是我们在复旦要践行的研究哲学。”

来源:https://www.163.com/dy/article/KU090B84055040N3.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

安森美如何赋能具身智能机器人技术创新
AI资讯
安森美如何赋能具身智能机器人技术创新

人工智能算法演进推动机器人产业加速发展,感知与电源成为核心支柱。安森美通过提供深度成像传感器、电感式位置传感及智能电源等关键技术,支持机器人在多场景实现自主移动与安全协作。当前研发聚焦于双足行走、精细操作与续航能力,旨在推动机器人从实验室向规模化应用过渡。

热心网友
05.28
中国具身智能发展前景与面临难题解析
AI资讯
中国具身智能发展前景与面临难题解析

具身智能在中国机遇与挑战并存。大模型驱动下,技术进展迅速,但面临数据互通难、成本高、环境适应力不足等瓶颈。中国在应用数据采集方面具有优势,但算力与数据流通仍待突破。需通过产学研协同与基础设施共享,推动技术从实验室走向产业落地,实现多场景规模化应用。

热心网友
05.28
普渡科技张涛预测具身智能三到五年迎来关键拐点
业界动态
普渡科技张涛预测具身智能三到五年迎来关键拐点

普渡科技张涛指出,商用服务机器人创新是技术、场景与商业的全方位长跑。具身智能爆发需满足两大条件:机器人感知决策执行能力达实用高度并具备跨场景泛化能力,同时市场出现一款被广泛接纳的代表性产品。目前行业仍处早期数据积累阶段,预计未来三至五年内,随着某类产品实现。

热心网友
05.28
具身智能奠基人苏昊复旦首讲:AI未来在于理解物理世界
科技数码
具身智能奠基人苏昊复旦首讲:AI未来在于理解物理世界

就在上个月,人工智能学界的一则人事变动引发了广泛关注:此前任教于美国加州大学圣地亚哥分校的苏昊教授,正式加盟复旦大学。这位在ImageNet(全球超大规模图像数据集,深度学习与计算机视觉发展的关键基石)核心贡献者名单中占有一席之地、并被视为具身智能领域共同奠基人的学者,其论文被引次数已约达15万次,

热心网友
05.28
普渡科技发布类人形具身智能机器人闪电匣Arm
AI资讯
普渡科技发布类人形具身智能机器人闪电匣Arm

普渡科技发布全球首款商用类人形具身智能服务机器人闪电匣Arm。它集成移动、操作与交互能力,配备仿生双臂与灵巧手,可自主导航、精细操作并理解自然指令,适用于酒店、零售、医疗等复杂场景,标志着商用服务机器人进入具身智能新阶段。

热心网友
05.27

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Notion AI内容改写与语气风格调整操作详解
AI资讯
Notion AI内容改写与语气风格调整操作详解

NotionAI能直接修改文本语气和风格。选中文字后右键使用“AskAI”功能,输入具体指令即可生成并替换新文本。也可用斜杠命令控制风格参数,指令需具体明确。处理批量邮件时可结合数据库与AI属性,自动填充变量并统一语气。通过隐藏指令块提供上下文,能更精准地控制输出风格。操作前建议备份原文。

热心网友
05.28
免费AI PPT制作教程 提升办公文档效率与质量
AI教程
免费AI PPT制作教程 提升办公文档效率与质量

如何利用免费AI PPT生成工具,轻松提升办公文档质量与效率 在当今快节奏的职场环境中,制作一份专业、高效且视觉出众的演示文稿,常常是一项极具挑战性的任务。值得庆幸的是,随着人工智能技术的飞速发展与普及,一系列智能办公工具应运而生,正在彻底改变传统文档制作模式。本文将深入探讨,如何借助WPS AI这

热心网友
05.28
高速追尾男子站护栏挥手警示 后方车辆注意避让
业界动态
高速追尾男子站护栏挥手警示 后方车辆注意避让

高速公路上车流密集、车速快,一旦发生交通事故,后续处置的每一个环节都直接关系到生命安全。近日,在沪渝高速湖北仙桃段,发生了一起令人警醒的追尾事故,而当事司机随后的“危险操作”,更是让赶到现场的交警惊出一身冷汗。 4月6日,在沪渝高速仙桃段,驾驶人代某驾驶一辆白色轿车在快车道行驶。当时前方车流量大,车

热心网友
05.28
OpenSpec入门指南:从零开始掌握规范编写
AI资讯
OpenSpec入门指南:从零开始掌握规范编写

OpenSpec是一款规范驱动开发的开源工具,旨在解决AI编程中因需求模糊导致的代码偏差问题。它通过结构化变更文件夹管理提案、任务与规范,确保开发前达成技术共识。其工作流程包括起草提案、审查对齐、实施任务和存档更新,支持从初始化到归档的完整变更周期,提升人机协作的精确性与可控性。

热心网友
05.28
如何用Kimi快速提取长篇访谈录音转写稿核心要点
AI资讯
如何用Kimi快速提取长篇访谈录音转写稿核心要点

手头有一份长达数万字的访谈录音转写稿,密密麻麻的文字读起来,很难迅速定位关键信息。别担心,借助Kimi就能从中提炼出核心要点。这里整理了五种实用操作路径,可根据需求灵活选用。 首先准备好转写稿,推荐使用TXT、DOCX或PDF格式。接着,根据具体场景选择一种方法即可。 一、角色驱动式指令解析 这种方

热心网友
05.28