成都发布全球首个保持流形拓扑结构的机器人世界模型
来源:科技日报
科技日报记者 刘侠
机器人如何才能真正“看懂”并理解我们身处的物理世界?这不仅是科幻作品的终极命题,更是当前具身智能领域亟待突破的核心瓶颈。传统的机器人感知模型,往往停留在对图像像素数据的浅层处理,难以把握物体间深层的空间关系和物理规律,导致决策时出现“幻觉”,带来安全隐患。
5月14日,来自成都人形机器人创新中心的一项发布,为这个问题提供了一个全新的解题思路。该中心正式发布了中国首个基于流形拓扑保持的机器人世界模型。这项前沿技术旨在为机器人构建一个能够深刻理解物理世界运行法则的高效“大脑”,从而摆脱传统AI模型的“像素化”感知局限,让机器人在复杂动态环境中实现快速、安全且可靠的决策与行动。

那么,这个“世界模型”究竟有何不同?与传统生成式架构的具身智能模型相比,后者存在一定程度的“模型幻觉”——类似于大语言模型答案的不确定性,这给机器人执行具体任务带来了极大的安全风险。同时,这类模型往往无法内化真实的物理规律,泛化能力因此受限。而世界模型,则是一种具备对物理世界进行理解和预测的全新架构,被业界广泛视为人形机器人技术收敛的最大可能方向。值得注意的是,成都人形机器人创新中心作为国内最早投入世界模型核心技术研发的团队之一,已于2025年8月率先发布了中国首个基于世界模型的机器人任务执行系统。
此次发布的核心突破,在于引入了“流形”这一经典数学概念。流形可以理解为一种能够在局部保持欧几里得空间性质的几何结构。研究团队在此基础上实现了关键创新:通过流形理论,将高维物理世界的复杂状态描述,映射到低维空间进行有效编码。这意味着,机器人在其内部的“隐空间”进行路径或动作规划时,其决策将严格符合自然界的物理规律,从根本上避免了由视觉-语言-动作等架构可能导致的物理碰撞、穿越或重叠等违背常理的问题。
这套基于流形拓扑保持的世界模型,其意义在于为通用人形机器人平台提供了一种跨形态、跨场景的底层表征范式。它将摄像头、传感器捕获的海量、复杂的感知数据,压缩为具备内在几何逻辑的精简表征。形象地说,它为机器人绘制了一张拓扑结构一致的“心理地图”。
于是,无论是在光线昏暗、空间狭窄的矿井下执行巡检任务,还是在物品摆放复杂、动态变化的家庭环境中进行柔性协作,机器人都能凭借这张“地图”快速理解环境的结构本质,并迅速适应。这种能力不仅大幅提升了强化学习的训练样本效率,更重要的是,它赋予了机器人一种物理意义上的泛化能力——即对空间结构关系的深刻理解,而非仅仅对特定场景数据的机械记忆。
可以预见,这项技术的突破将为机器人真正融入现实生活铺平道路。未来,成都人形机器人创新中心表示将持续引领具身智能世界模型的核心技术研发,并推动其在各类机器人本体中的深入应用。最终目标,是让机器人变得更聪明、更善解人意,能够真正理解并安全地互动于物理世界,从而走进千家万户,服务各行各业。
相关攻略
如果你一直关注AI架构的前沿发展,对Yann LeCun大力倡导的JEPA(联合嵌入预测架构)系列模型充满好奇,但又对动辄数百GB的预训练模型和复杂的工程代码感到无从下手,那么现在有一个绝佳的机会:有人将其核心思想,用最纯粹、最易懂的方式“翻译”成了代码。 最近,GitHub上出现了一个极具教学价值
前阿里通义千问技术负责人林俊旸已投身创业,聚焦世界模型与具身智能领域。其团队初期已吸引多位头部科技公司核心成员,并以约20亿美元估值启动融资。林俊旸在阿里期间主导了通义千问系列大模型的研发与开源,成为阿里最年轻的P10专家。他于2026年3月卸任,创业动向备受关注。
当您在游戏中沉浸于那些栩栩如生的虚拟世界时,是否思考过,每一帧精美画面背后,都承载着多么庞大的计算负荷?近期,一项来自中国科学院计算技术研究所、苏黎世联邦理工学院及纽约城市大学等机构的联合研究,提出了一项突破性的解决方案,精准针对AI世界模型生成速度过慢的核心瓶颈。这项发表于2026年3月、编号为a
浙江大学00后创业者陈天润创立的魔芯科技完成新一轮亿元融资。公司专注于世界模型研发,其KOKONI-World模型采用纯隐式数据驱动路线,具备长时场景预测与空间一致性建模能力。团队已积累PB级3D数据资产,并在影视、自动驾驶等多个领域实现商业化交付。新一代模型将进一步提升性能,目标推动世界模。
2026年春天,具身智能领域掀起了一场关于技术路线的激烈辩论。一方观点认为“VLA时代已经终结”,世界模型才是未来;另一方则坚信VLA依然是主航道。争论的核心直指一个根本问题:当机器人需要在真实物理世界中执行任务时,它的“大脑”究竟应该如何设计? 2026年4月23日,智平方创始人郭彦东博士在Fai
热门专题
热门推荐
领克首款GT概念跑车亮相北京车展,由中欧团队联合打造。新车采用经典GT比例与低趴宽体设计,配备液态金属蓝涂装与2+2座舱,设有高性能模式按键可激活空气动力学套件。车辆采用后驱布局与AI智能运动控制系统,百公里加速约2秒,设计融合瑞典极简美学并参考全球用户反馈。
英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。
微星将于5月15日推出两款26 5英寸雾面WOLED显示器MAG276QRY28和276QRDY54,售价分别为2499元和6299元。均采用第四代WOLED面板,具备QHD分辨率、VESADisplayHDRTrueBlack500认证、1500尼特峰值亮度及99 5%DCI-P3色域覆盖。276QRY28刷新率为280Hz,高阶款276QRDY54支持4
中芯国际2026年第一季度营收176 17亿元,同比增长8 1%;净利润13 61亿元,同比增长0 4%。公司预计第二季度收入环比增长14%至16%,毛利率指引上调至20%至22%。这反映出公司在行业复苏中展现出财务韧性,并通过运营优化增强了短期增长势头。
手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭





