GigaBrain-0开源:VLA模型突破10倍数据,真机碾压SOTA
国内首个基于世界模型生成数据的端到端VLA具身基础模型GigaBrain-0重磅面世。
近日,在武汉东湖高新区,极佳视界与湖北人形机器人创新中心达成战略签约,并联合发布了端到端VLA「具身基础模型」GigaBrain-0。
这是国内首次运用「世界模型」生成数据实现真机泛化的视觉-语言-动作基础模型,旨在以世界模型为核心,彻底改变通用机器人大脑的开发模式。
GigaBrain-0采用了当前最前沿的VLA模型架构,支持图像、点云、文本和本体状态的多模态输入,能够直接输出结构化的任务规划和运动轨迹。该模型依托海量数据进行预训练,可实现更精准的移动导航和复杂的长序列操作。
结合极佳视界自研的「世界模型平台GigaWorld」,构建了业界最完整的具身数据体系,可快速实现多种本体上的复杂机器人操作任务。后续GigaBrain-0将全面开源。

项目链接:https://gigabrain0.github.io/
论文链接:https://arxiv.org/pdf/2510.19430
01 核心架构升级
针对当前机器人操作精准度不足和推理能力较弱的问题,GigaBrain-0重点强化了3D空间感知能力和结构化推理能力。通过引入这两项关键能力,GigaBrain-0可实现更精准的移动导航和更复杂的长序列操作。这是全球首个通过「一脑多形」架构实现端到端全身控制的模型,能够一键完成衣物整理等需要柔性和长程移动的复杂操作任务。
1. 3D空间感知能力:融入深度信息输入,实现更精准的移动导航
GigaBrain-0通过引入深度信息输入,显著提升了物体3D位置和空间布局的感知能力,这对于实现精准的双臂操作和移动导航至关重要。
2. 结构化推理能力:实现更稳定的长程复杂任务表现
GigaBrain-0通过子目标拆解和机械臂末端轨迹输出,大幅提升了在开放场景中的任务规划能力。具体体现在:
子目标拆解:模型在推理过程中可同步输出子任务的自然语言描述,使GigaBrain-0对长程任务的分解更加合理。末端轨迹输出:模型在推理过程中增加了机械臂执行器运动路径在图像平面上的2D投影输出,增强了整体动作规划能力。
02 全球首个世界模型驱动的数据体系
世界模型无论在数据侧还是模型侧,对具身智能发展都具有关键价值。极佳视界以「世界模型」为核心,打造了全球首个最完整的具身智能数据体系,具体包括:
Sim2Real迁移数据:利用Isaac Sim等仿真环境合成多样化的机器人操作数据,通过GigaWorld的Sim2Real变换,实现逼真的外观渲染,同时保持原始场景几何和动作语义。
Real2Real迁移数据:将真实世界采集的视频数据,通过文本提示控制前景和背景的材质、纹理、光照条件,同时保持机器人动作和交互的一致性,有效将真实数据的多样性提升约10倍。
视角转换数据:利用GigaWorld的3D空间场景重建能力,将单个真实数据片段生成新视角的数据片段。
视频生成数据:GigaWorld可根据单张输入图像和不同的文本提示,生成多样化的具身机器人操作视频,并通过逆动力学模型推演出相应的机器人动作序列,合成训练数据。
Human迁移数据:通过视频变换和运动学重定向,将大规模第一人称视频中的人手替换为机械臂,生成稳定且可由机器人执行的动作序列。
03 高效的跨本体适配能力
极佳视界联合湖北人形机器人创新中心,共同完成了大规模预训练数据的采集。数据覆盖了工业、商业、办公、家居、实验室等5大类场景,细分为超市、酒店大堂、咖啡店、奶茶店、便利店、餐厅、仓库搬运、工业流水线、茶水间、住宅、公寓家居、会议室、办公室工位、实验室等14个具体场景。
结合场景丰富的预训练数据和先进的模型架构,GigaBrain-0具备了优秀的任务规划能力。借助极佳视界的「世界模型平台」,可在不同本体上快速实现复杂的机器人操作任务。
极佳视界联合湖北人形机器人创新中心,基于高集成度人形机器人本体,首次实现了实时、长程、复杂、柔性操作的端到端控制。
04 实验结果验证
GigaBrain-0通过真实机器人实验进行了全面评估,涵盖灵巧操作任务、长程任务和移动操作任务三大类别。评估结果表明,GigaBrain-0在多项任务上的成功率显著优于现有SOTA方法。

关于极佳视界
极佳视界专注于「世界模型平台 × 具身基础模型」的技术路线,致力于通过双轮闭环推动物理世界通用智能的发展。
在「世界模型」方向,极佳视界是国内技术创新和产业落地的领跑者,相关产品技术广泛应用于自动驾驶、具身智能、内容创作等方向。
在「具身大脑」方向,极佳视界通过全球领先的「世界模型平台」提供大规模高质量数据,训练效率比纯真机数据提升1-2个数量级,同时真机效果达到国内领先水平。
极佳视界由黄冠博士带领团队于2024年创立,是国内首家专注于「世界模型 × 具身大脑」方向的科技公司。
公司核心团队汇聚了来自清华、北大、中科院、中科大、WashU、CMU等全球知名院校的顶尖研究人员,以及微软、三星、地平线、百度、博世、NBC环球影业等全球知名企业高管,兼具业内领先的研究能力和产业化落地经验。
极佳视界是国内少数在「世界模型」和「具身大脑」方向都具备世界级综合实力的团队。在自动驾驶方向已与多个头部主机厂达成签约合作,在具身世界模型、具身大脑等方向已与多个具身本体、终端公司达成签约合作,应用于科研、教育、展览、数据采集、工业服务、家庭等多个场景。
极佳视界致力于通过「世界模型平台 × 具身基础模型」,创造物理世界通用智能。
相关攻略
4月2日,阿里巴巴正式推出新一代大语言模型Qwen3 6-Plus,并宣布其企业级AI旗舰应用“悟空”率先完成接入。此次升级不仅是模型的迭代,更标志着AI在企业级应用场景中的核心能力实现了关键性跨越。 官方信息显示,Qwen3 6-Plus在代码生成、智能体协作、逻辑推理及原生多模态理解等核心维度均
近日,开源技术圈迎来一项标志性进展:百度依托文心大模型打造的PaddleOCR项目,在GitHub上的Star数量突破73 3K,首次超越谷歌旗下长期占据领先地位的Tesseract OCR(73 2K)。这意味着,全球最受开发者欢迎的OCR开源项目正式易主,标志着大模型驱动的技术范式正在重塑行业格
Cursor的命运,悬在两个速度之间:AI自主编码成熟的速度,和Cursor自我蜕变的速度。 这家公司正处在一个奇特的矛盾点上:它依然蒸蒸日上,却又似乎正在走向绝望。关于这家一度是“Vibe Coding”代名词的明星公司,市场同时存在着两种截然相反却又似乎都能成立的观点。 数据描绘的是一幅烈火烹油
近日,Reddit上一则热帖引发了广泛关注。游戏开发商Beamable的首席执行官Jon Radoff,利用一个周末的时间,借助AI助手Claude,成功复活了自己19岁时开发的一款名为《未来往昔传奇》(Legends of Future Past)的MUD(多用户地下城)游戏。这款诞生于1992年
上周,Anthropic刚宣布对OpenClaw采取限制措施,这周,事情就发展到了一个新阶段——连OpenClaw项目的核心人物Peter Steinberger的个人账户也遭到了封禁。这场风波究竟会如何演变? 今天一早,OpenClaw创始人Peter Steinberger在社交平台X上发文确认
热门专题
热门推荐
公安部就电子数据取证规则公开征求意见,拟将网络安全等行政案件纳入适用范围,并规范取证流程与核心概念。新规特别明确了获取密码、调取通讯内容等特殊程序,需经严格审批并保障当事人权利。配套法律文书也同步优化,以构建更规范且注重权利保障的取证体系。
理想L9和LIvis的定价策略刚掀起波澜,小鹏GX的最终价格就给出了更猛烈的回应——从近40万元的预售价直降至27万元起。用小鹏产品矩阵负责人吴安飞的话说,这叫“9系的产品,8系的价格”。 这12万元的下调,效果堪称立竿见影。发布会次日,小鹏集团港股股价一度大涨超8%。更关键的是市场订单:上市12小
5月21日,环塔拉力赛新疆且末赛段大营迎来了一位备受瞩目的访客——知名零售企业胖东来的创始人于东来。他专程前往长城汽车车队营地,与参赛车手及后勤团队进行了深度交流。据悉,于东来此次自驾越野之旅已历时一月,随行车队中包含多款国产越野车型。经过实地驾驶与多维度对比,他对以长城汽车为代表的国产越野车品质给
比特币官方入口在哪里?一个核心门户的权威指南 说起比特币,很多人第一反应是去找它的“官网”或“官方App”。但这里有个关键点需要先理清:比特币本质上是一种去中心化的全球数字货币,它不属于任何一家公司或机构,而是由一个庞大的、遍布全球的社区共同维护。因此,它并没有传统意义上由某个企业运营的“官方网站”
Ring-2 5-1T是什么 在当今大模型技术激烈竞争的赛道上,追求更长的上下文处理能力和更强大的深度推理性能已成为核心焦点。近日,蚂蚁集团旗下的inclusionAI团队重磅开源了Ring-2 5-1T模型,这是一个参数规模高达万亿级别的混合线性思考大语言模型。该模型基于先进的Ling 2 5架构





