人大思辨Sora是否理解物理世界运行规律
Sora发布至今,虽然仍未正式对外开放,但关于其技术细节与实际影响的讨论,早已在业界内外掀起波澜。这些讨论的背后,其实是对人工智能本质问题更深层次的叩问。
一方面,Sora的出现,无疑是对传统视觉生成思路的一次全面检验与校正。而另一方面,它所引发的关于多模态大模型与物理世界的关系、AGI(通用人工智能)的实现路径等思考,则更具启发性。
核心问题聚焦在两点:其一,Sora令人惊艳的生成效果——高分辨率下的主体一致性、流畅的多角度镜头变换——是否意味着它已经是一个“世界模型”?它能否真正理解物理世界?其二,OpenAI所坚信的“大力出奇迹”的Scaling Law(规模定律),其边界究竟在哪里?纯数据驱动的路线,能否最终通向AGI?
围绕这些议题,2024年3月20日,中国人民大学高瓴人工智能学院举办了一场关于Sora的思辩会。现场观点交锋激烈,碰撞出不少值得行业深思的火花。
文继荣院长在辩论会现场谈到,ChatGPT出现后,学院拿出了“All in大模型”的决心;而在Sora出现的2024年,全院也在探讨新的定位与前进方向。无论如何,最终都会回归学院的初心:创造智能而有温度的未来。
以下是辩论现场的精华实录,经过不改变原意的整理:
一、智能还是伪装:Sora到底懂不懂物理世界?
正方 黄文炳:
我们认为Sora懂物理世界。从已发布的视频来看,无论镜头如何旋转,画面所呈现的时间连续性、空间切换后的主体不变性、光影的反射与变化,都与物理世界的规律相符。如果不是基于对物理规律的理解,那这些一致性从何而来?
这里需要厘清一个概念:我们说的是懂“物理规律”,而非“物理学规律”。前者是大多数人在日常生活中能直接感受到的常识,比如球会从高处落下;后者则是物理学家通过实验和理论推导出的严格公式。今天的辩题是“懂物理世界”,指的正是我们普通人所感知的那个世界。
那么,什么叫“懂”?或者说,什么叫“学到”?有人认为Sora不懂物理公式,所以不算懂。但这或许是混淆了“AI的懂”与“人类的懂”。回顾图灵测试的核心:如果大多数人在随意提问下都无法区分对方是机器还是人,那么这台机器就具备了智能。从这个角度看,生成即智能。只要Sora生成的内容,让人通过常理无法分辨真伪,那它就是学到了,就是懂了。
反方 孙浩:
首先需要纠正对“物理世界”的定义。物理世界是由自然规律和物理学定律支配的客观宇宙,包括守恒、对称等基本原则。如果Sora真懂物理世界,它生成的视频就必须能准确模拟和刻画这些规律,但目前显然还达不到。
Sora的基本运行机制,是基于Diffusion Transformer对视频和文本数据进行压缩和学习其分布。然而,仅凭二维的视频和语言数据,想要完整描述三维的客观世界,存在天然的局限性。许多物理过程(如流体演化)需要特定的状态量才能准确描述,有限维的数据训练出的模型,其表达能力是不够的。生成内容的“逼真”与“真实”是两个概念。就像传统动画渲染技术也能做出逼真效果,但这不代表它理解了现实。
当然,我们并不否认Sora在创意设计和视觉表现上的巨大潜力。
正方 魏哲巍:
著名物理学家费曼有句名言:“What I cannot create, I don't understand.”(我不能创造的东西,我就不理解。)其逆否命题是:我能理解的,我就能创造。反过来看,能够创造(生成)是否就意味着理解?我们认为是的。
以水浪为例,其背后确实有一系列波动方程,但普通人理解水,需要先懂这些方程吗?显然不需要。人们通过观察,知道水会波动、物体会下落,这就构成了对物理世界的理解。这种理解与Sora通过海量视频数据学习到的“常识”,在本质上可能并无不同。牛顿发现万有引力,也绝非仅仅因为一个苹果砸中脑袋,而是基于前人大量的研究和自身的深刻思考。人类对物理的理解,本身也是一个从表象到抽象的过程。既然Sora能生成符合物理规律的内容,为何不能说它理解了呢?
反方 徐君:
Sora无法理解物理世界的一个关键原因在于,它试图从大量“非实验”的观察数据中发现规律。统计学中有个重要结论:“非干预,不因果”。如果不能对世界进行主动干预和实验,算法就难以发现真正的因果规律,而只能学到相关性。物理规律的核心特征之一,正是描述现象间的因果关系。因此,无论是Sora还是ChatGPT,如果仅以当前这种被动收集数据的方式训练,它们学到的大概率是“相关”而非“因果”,这是其根本局限。
再者,回顾人类发现物理规律的历程,科学突破往往需要“反直觉”的思考和假设。亚里士多德认为“物体不受力则静止”,这非常符合直觉,却错了上千年。直到伽利略、牛顿提出“物体不受力则保持匀速直线运动”这一反直觉的假设,现代物理学的大厦才得以建立。此外,物理学中许多至关重要的理想模型(如“黑体”),在现实世界中根本无法直接观测到,却对理论构建不可或缺。如果Sora仅依赖对现实世界的被动观察和直觉拟合,缺乏这种反直觉的推理和假设能力,它恐怕永远无法触及真正的物理规律。
正方 宋睿华:
对方辩友认为掌握物理规律需要反直觉思考和实验干预,这其实是以人类为中心的观点。物理世界客观存在,无论有没有人类,规律都在那里。不能说只有人类理解世界的方式才叫“理解”。
看看机器学习的核心范式:建立模型、定义参数、在数据上定义损失函数、进行优化。物理学家的工作范式何其相似:提出假设(公式)、引入参数、在理想实验条件下获取数据、计算理论与实验的偏差(损失)、然后优化理论模型。今天的神经网络,其函数逼近能力极其强大,学习过程本身就可被视为一种智能。为何人类提出的公式和实验才叫智能,机器的学习过程就不是呢?
对方提到的“特征工程”(feature engineering),在传统机器学习中很常见,即人工设计有用的特征。物理学家发现定律的过程,某种程度上不也是一种更为精巧的“特征工程”吗?他们找到了一条能很好解释现象的“特征”(公式),并用实验验证其普适性。这只是一种对物理世界更“狭隘”的刻画方式。
当然,Sora目前生成的内容中确实存在反物理的现象。但“懂物理世界”和“精确地懂物理世界”不能划等号。人类闭上眼睛想象两个海盗船在咖啡杯里航行,就能在脑海中精确模拟出每一帧符合物理的画面吗?恐怕也不能。
反方 许洪腾:
首先,能生成逼真视频与懂物理世界之间,没有必然联系。类比人类,建筑师能画出精妙的图纸,画家能创作写实的作品,但这不代表他们深刻理解背后的物理原理。原始人能用石头搭建住所、在岩壁上作画,那时他们对物理世界的理解几乎为零,但不妨碍他们进行创造。
其次,人类理解物理世界有一套严格的方法论:提出假设、进行观测、设计实验、验证反演。而Sora这类生成式模型的学习范式是数据驱动。给它数据,它最多算是“观测”到了现象,且这些数据并非在严格控制的实验环境下获得。在这种情况下说它理解物理世界,恐怕是一种超出我们当前认知的方式。
最后,Sora的强大,或许恰恰因为它“不懂”物理世界。基于统计相关性学习,它能够将有关联的事物进行天马行空的融合,生成如“龟壳像水晶球的乌龟”、“咖啡杯中战斗的海盗船”这类超现实画面。更早的图像生成模型也能生成“太空骑马”的场景。这些创作正因为它不受物理规律的严格束缚,才能基于统计相关性构筑自己独特的世界。因此,我们认为Sora并不真正理解物理世界。
自由PK环节
正方:有一种观点认为ChatGPT不懂语言。但OpenAI首席科学家伊利亚·苏茨克维曾表示,能够做下一个词预测(next token prediction),就是理解了语言。他举过一个例子:给大模型一篇悬疑小说,让它预测凶手是谁。如果它能准确预测,这算不算理解了小说?同理,Sora能生成符合物理规律的视频,为何不算理解物理世界?
反方:图灵测试更像一个工程测试:没通过,说明能力不足;但通过了,未必代表真懂。好比考试,没通过肯定没学懂,但通过了也可能是死记硬背。所以图灵测试的说服力有限。
正方:恰恰相反,我们认为Sora正在通过一种新的“电影测试”。测试两点:一是生成视频让人看,能否辨别真假;二是用视觉而非问答的方式,让人判断其是否智能。这或许是图灵测试在视觉领域的演进。
反方:什么叫懂物理世界?必须与真实世界一致。一个AI如果只训练过《哈利·波特》的数据,它也能预测下一帧魔法画面,但它懂的是魔法,不是物理。
正方:我方坚持,达到常人的理解水平即可,不需要懂物理公式。生活中,看到车来了,你会用牛顿第二定律计算躲避时间吗?不会,你靠的是经验和直觉预测。这种理解允许有误差。人类对物理的理解也是片面且不断进步的。我们不能穿越回去指责亚里士多德不懂物理,也不能断言当前的理解就是终极真理。物理规律本身,也是物理学家在有限观察下,通过统计、验证归纳出来的。随着观察深入,旧定律也可能被修正。因此,不能要求Sora一诞生就精通所有物理定律。
二、纯数据驱动路线能不能实现通用人工智能?
反方 许洪腾:
我理解的AGI是类人的人工智能,具有一定通用性。人类确实从数据中学习,这证明从数据中获取信息是可行的。但我反对纯数据驱动路线,主要因其效率低下,从算力和数据角度看可能不可行。
人类拥有经过亿万年演化而来的特殊大脑结构,这是我们的“初始设计”。这种演化效率极低,经历了无数代迭代和数据接收。我不认为这是实现AGI的合理技术路线。此外,我们已面临能源和数据瓶颈。按照OpenAI的数据消耗趋势,很快训练视频数据的速度将超过人类生产数据的速度。届时可能需要Sora自己生成数据来训练自己,那还是传统意义上的“纯数据驱动”吗?它还能自我进化吗?这些都是疑问。
正方 毛佳昕:
首先,这个议题与第一个不同,它是对未来的预测。我们认为数据驱动路线成功的概率很大。
看历史数据:AI发展早期,感知任务被认为很难,但足够的数据解决了它;后来语言、认知任务被认为很难,ChatGPT的出现又解决了。历史趋势表明,数据驱动是一条有效的路径。
再看类比数据:人类本身就是一种通用智能。人类学习物理,不也是通过看书(数据)、做题(数据)吗?这与大模型通过数据学习物理题的模式本质相同。
关于效率,杰弗里·辛顿(Hinton)最近的观点有所转变。他承认人脑在计算能耗上效率极高,但其最大缺陷是通讯效率差——想法难以直接复制传递。而基于数字计算机的大模型,其模型间信息传递(如梯度同步、参数复制)的效率远超人脑。可以想象,大模型相当于让成千上万个和你一样聪明的人同时读书、交流,其智能积累速度是惊人的。
最后,这个辩题中“数据驱动”的反面,并非物理定律(物理知识对大模型也是数据),而是“理论驱动”(theory driven),即基于对人类认知方式的理论来设计AI。辛顿过去研究生物可塑性(biological plausible)的神经网络,就属于这一路径,但他最近的转变值得深思。
反方 沈蔚然:
首先,我们对AGI的期待很高,希望它在大多数任务上超越人类。纯数据驱动能否实现这一目标?对方说人类通过看书学习,但书上的理论是前人总结的“结果”,而非原始“数据”。数据应是实验得到的观测结果。
关键在于,当前的数据驱动方式,难以将数据总结成简洁、可理解的理论,并在此基础上进行推导。要实现超越人类的AGI,这可能是绕不开的坎。数学上,用数据拟合某些复杂函数,理论上需要无穷多的数据,效率极低。而用数学语言描述则简洁得多。要实现广泛的通用性,纯数据驱动可能难以跨越某些函数类别的鸿沟。
正方 林衍凯:
对方辩友似乎在切换辩题,将“能否实现”偷换为“能否在有限资源下高效实现”,或将AGI定义为“必须超越人类”。
从技术角度看,大模型并非简单的记忆组合(memory combination)。训练过程本质上是数据压缩和寻找规律的过程,模型为了优化目标函数,会自发地寻找能更好拟合数据的规律,并涌现出新的能力。这指向了类似人类思考的演化。
至于数据有限的问题,真实世界的数据本质上是无限的。大模型不仅可以利用现有的文本、视频数据,未来还可以通过与物理世界互动(如机器人)自主探索,获取无限的新数据。在此基础上学习更多知识和规律是可行的。
反方 孙浩:
“实现”一词本身就包含了现实可行性。如果一个路径理论上可行但资源上做不到,那答案就是“不能”。
世界是复杂的,但我们认知世界的方式可以很简洁。不同科学领域用自己的一套语言(如微分方程)来描述世界,这套语言基于少量数据、人的假设和推理形成,却具有很强的通用性。数据是关键要素,但不是唯一要素。如果将其视为实现AGI的唯一要素,在定义和理解上就存在偏差。
正方 黄文炳:
辩题问的是“能不能”,而不是“在数据有限的条件下能不能”。只要在足够数据的理想前提下,就有可能。
关于AGI的定义,它指的是机器处理大多数任务的通用能力(AGI),而非无所不能的“万能智能”(AUI)。数据驱动可能无法实现解决所有科学难题的智能,但这不影响它实现日常生活中所需的通用智能。
我们承认,在物理等特定领域,由于数据获取难、存在严格假设(如对称性),纯数据驱动可能行不通。但这与实现通用人工智能的辩题并不矛盾。
自由PK环节
反方:我的答案是不能。假设有两个不同版本的Sora,对世界的理解不同,哪个是对的?可能一个对,也可能都错。这说明其认知很不稳定。难道模型版本更新,我们对世界的认识也要跟着刷新?这不合理。此外,认识世界不仅需要数据(经验),还需要理性的处理能力,两者缺一不可。目前Sora仅接触文本、图像、视频数据,其他领域数据(如嗅觉、触觉)完全缺失,从数据源上就被限制了。其模型架构(Diffusion + Transformer)也难以产生真正的理性分析和想象能力。因此,无论从经验还是理性角度看,AGI都被“锁死”了。
正方:关于效率,Hinton观点的转变正说明问题。人脑高效但通讯差,而大模型基于数字计算,其信息传递(如梯度聚合、模型复制)效率极高。想象一下,让一亿个和你一样聪明的人同时读书、实时共享所有知识,那会是什么水平?其次,对方认为人脑有进化产生的“理性”能力,是当前模型不具备的。但我们现在不就在不断改进模型架构吗?这种“进化”凭什么就比自然选择低效?未来的模型为何不能具备类似能力?
反方:对方承认架构重要性,这恰恰说明不是“纯”数据驱动。架构本质上是知识的体现。除了效率制约,纯数据驱动学到的是统计规律,必然面临外推(泛化)能力不足的经典困境,难以产生真正的新知识。此外,无论是架构还是大脑的演化,除了连续过程,关键还有“突变”,这具有高度随机性和偶然性。这种“突变”能否由纯数据驱动催化?至少存疑。
正方:请问对方辩友,你日常吃饭、睡觉、看电视,是用相关性决策还是因果性决策?
反方:重要的事情我会尝试用因果性决策,随意的事情可能就是随机的。
反方:补充一点,人类理性决策的关键,在于能从直觉走向反直觉。
正方:当你说到直觉和反直觉时,也需要通过语言(数据)表达出来。我坚持第一个辩题的观点:生成即智能。在生成过程中,完全可以体现反直觉和因果推断。作为人,你难道不说话就能完成因果发现吗?你通过说话(数据)、记录(数据)、做实验(产生数据)来认识世界。这一切都是数据,都是纯数据驱动。
反方:“生成即智能”是个谬论。生成的内容可能完全违反基本认知,是错误或虚幻的。如果把生成过程本身当作智能,那是不严谨的。
正方:难道人生成的东西就全是对的吗?人也有错。AGI的标准是与普通人对齐,而不是永不犯错。人也有对错,生成的东西不一定全对,但这不影响其作为智能体的属性。
反方:生成的东西可以错,但类人的智能必须具备判断对错的依据。目前我们尚未发现大模型拥有这种可靠的依据。
正方:大模型有判断。为什么Sora生成的视频比别的模型更流畅、视角变换更一致?这背后必然存在某种判断机制。
反方:这种判断并非基于纯数据,其中包含了大量的架构设计和先验知识。
正方:“纯数据驱动”通常对应的是“符号驱动”或“理论驱动”,是经验主义与理性主义的对立,而不是说不需要模型架构。对方一直在用无关话题进行诡辩。
反方:任何问题都需要条件限定。如果我需要花费远超地球数据总量的资源或时间才能实现,那就没有现实意义。就像密码学中,需要几千万年才能破解的密码,等同于无解。因此,“纯”数据驱动不能解决AGI问题。架构优化、融入因果或物理原理,可以降低数据需求。数据很重要,但物理驱动和因果原理同样不可或缺。
正方:我们考虑的是理想情况下能否达到AGI。另外,Sora算不算纯数据驱动?它用了Transformer架构,但如果这个架构没有数据,参数如何确定?能做出Sora吗?人工智能历史上的几次低谷,正是因为没走数据驱动的路。今天我们之所以能坐在这里讨论,正是由于纯数据驱动的Sora取得了突破。计算效率问题,正是机器学习研究的核心之一(如泛化性、样本效率)。我们着眼未来,考虑的是可能性。人类通过观察数据(包括因果分析中的反事实数据、干预数据)获得知识。既然人类处理数据不如计算机,为何不让AI处理数据,人类去处理规则和定理呢?我们认为,纯数据驱动是实现人工智能,乃至实现有温度的人工智能的最终愿景所在。
相关攻略
Sora的发布引发对AI本质的深度探讨,核心争议在于其生成效果是否代表理解物理世界,以及纯数据驱动能否实现通用人工智能。正方认为生成合理内容即体现理解,数据驱动前景广阔;反方强调逼真生成不等于理解规律,并指出数据驱动存在效率与因果认知局限。双方围绕理解定义、实现路径与。
2026年4月,OpenAI首席执行官山姆·奥特曼在一次公开专访中,首次正面回应了关于文生视频模型Sora暂停服务的传闻。他明确指出,暂停并非源于技术瓶颈,而是公司内部正面临巨大的算力短缺。有限的芯片资源,必须优先保障GPT系列大模型迭代等更具战略意义的项目。Sora正是因为内部优先级调整,遭遇了资
想要在Midjourney中生成更具电影感的动态画面,却总感觉镜头语言呆板、缺乏视觉张力?问题的核心往往在于提示词的构建方式。仅仅描述场景和主体,AI无法准确捕捉你设想的镜头运动轨迹。关键在于,你需要掌握一套模型能够精准解析的专业运镜指令体系。 一、掌握电影级运镜关键词的嵌入结构 要让Midjour
开发者再分享 OpenAI Sora 生成的短视频:树叶大象、彩虹瀑布等 自今年二月亮相以来,OpenAI的Sora模型就稳稳占据了AI领域的热门头条。它仅凭用户输入的一句话,就能生成最长一分钟的视频,效果逼真得近乎实拍,着实让人惊叹。 尽管Sora尚未向公众开放,但开发者@LinusEkensta
中国首个Sora级模型Vidu发布:可生成最长16秒、最高1080P视频 今天,在中关村论坛的未来人工智能先锋论坛上,生数科技与清华大学联手,正式揭晓了国内视频生成领域的一个重磅成果——Vidu。这个被业界和媒体视作中国首个达到Sora级别的视频大模型,瞬间吸引了所有关注的目光。 根据官方发布的技术
热门专题
热门推荐
华硕在ROGDAY2026上发布了枪神10X整机,首次搭载三颗可联动显示的全息光显风扇,外观极具未来感。其核心配置顶级,采用AMD锐龙99950X3D2处理器、ROGRTX5080显卡、64GB内存及4TBSSD,并配备高效三区独立散热系统,定价69999元。
智能门锁领域迎来重磅新品。知名品牌鹿客近期于京东平台正式发售其旗舰型号V3 Max智能门锁,该产品凭借创新的隔空无线充电技术与先进的AI视觉识别系统引发市场关注。官方定价为3572元,在部分参与促销活动的地区,消费者可享受补贴,最终入手价有望低至2799元,性价比优势显著。 鹿客V3 Max在视觉安
在备受瞩目的ROG DAY 2026广州站活动中,华硕重磅发布了其新一代高性能游戏笔记本电脑——ROG魔霸10系列。该系列包含16英寸的魔霸10与屏幕更大的18英寸魔霸10 Plus两款机型,旨在为硬核玩家带来顶级的游戏体验。 ROG魔霸10系列的硬件配置堪称顶级。处理器方面,用户最高可选择搭载AM
5月15日,小米官方正式公布了小米手环10 Pro的完整配置信息。作为新一代旗舰手环,它在健康监测精准度、运动功能专业度以及佩戴舒适度上均实现了显著突破,为用户带来了更全面的智能穿戴体验。 小米手环10 Pro 健康监测:精度与维度的双重跃升 本次升级的核心在于健康监测能力的全面进化。小米手环10
金士顿扩展其可超频的ECCRDIMM内存系列,新增高达7600MT s型号。其中高速型号采用全新铝制散热马甲,提升散热效率以保障高负载下的稳定运行。该系列同时支持ECC校验与超频,兼顾性能与数据完整性,适用于AI计算、工程仿真等高要求专业场景。





