物理AGI双金字塔体系解析数据与算法如何支撑Scaling Law

首页

AI资讯

热心网友

转载

2026-05-24

近两年来，具身智能领域的技术演进主要围绕两大核心路径展开。一方是以英伟达Cosmos、谷歌Genie为代表的“世界模型”流派，致力于通过生成式模型拓展数据来源；另一方则是以Physical Intelligence的π系列、Diffusion Policy等为代表的“VLA/动作模型”流派，其核心逻辑是通过大规模真机数据训练来获取通用动作能力。

两条技术路线均取得了显著突破，但一个根本性问题依然待解：当我们将“物理通用人工智能”设定为终极目标时，究竟需要构建怎样的算法架构与数据体系，才能切实验证并遵循Scaling Law（规模定律）？

5月20日，在武汉光谷，极佳视界（GigaAI）于其“家庭场景子品牌暨物理通用智能技术发布会”上，首次系统性地给出了自己的解决方案。

本次发布会信息密度极高，核心发布了五项关键进展：全球首个物理AGI“双金字塔”理论体系正式提出；面向家庭场景的全新子品牌“拾光SeeLight”及其首款通用人形机器人“拾光S1”同步亮相；国内首个真实家庭场景的百台机器人部署已在武汉落地，计划于第三季度启动规模化运营；下一代产品“拾光S2”预计三季度发布，真实家庭创始版预订即日开启；最后，公布了一份为期12个月的清晰路线图——计划连续推出GigaBrain-1、GigaBrain-2、GigaBrain-3三代基础模型，目标直指物理AGI的“GPT-3时刻”。

在众多信息中，最受技术界关注的无疑是其提出的物理AGI“双金字塔”体系。这可能是该赛道首次有人将规模扩展的路径如此系统化、结构化地呈现。

破解Scaling Law的瓶颈

为何具身智能至今难以验证Scaling Law？极佳视界合伙人、研发副总裁叶云在发布会上将核心瓶颈归纳为两点。

首先是数据侧挑战。真机数据精度最高，但采集成本高昂、规模受限；互联网视频数据规模庞大，却缺乏动作层面的监督信号；仿真数据可无限生成，但又面临“仿真到现实”的迁移难题。任何单一数据源，都难以同时满足Scaling Law对数据规模、信息密度和真实性的三重严苛要求。

其次是算法侧局限。当前主流的VLA（视觉-语言-动作）范式以语言模型为核心，本质是将视觉与动作信息“词元化”后交由语言模型处理。这种架构天生在处理3D空间信息、物理因果关系以及连续动作序列方面存在不足。换言之，即使拥有海量数据，现有主流模型架构也可能存在“消化瓶颈”。

针对这两大核心卡点，极佳视界提出的解决方案是，将数据与算法分别按层次结构进行解构，构建一座“数据金字塔”和一座“算法金字塔”，并要求二者紧密协同、耦合演进。这便是“双金字塔”体系的基本理念。

五层数据金字塔：构建规模化数据生态

数据金字塔自下而上共分为五层：互联网视频数据、真人示范数据、世界模型模拟器数据、仿真合成数据、真机数据。

这一划分本身符合学术界对具身数据源的普遍认知。真机数据位于塔尖，精度最高但覆盖范围最窄；互联网视频数据构成塔基，规模最大但监督信号最弱；而中间三层——真人示范、仿真和世界模型生成数据——则是工程化潜力最大、也最值得深入挖掘的部分。

真正值得注意的是，极佳视界为每一层数据都配备了对应的工程化产品与采集方案。真机数据由家庭版轮臂机器人“拾光S1”和低成本真机数据采集硬件“Maker M01”协同采集；仿真和世界模型数据则由自研的具身世界模型平台“GigaWorld-0”系统化生成；真人示范数据通过低成本手持采集设备“U-01”和第一人称视角采集设备“E-01”进行大规模获取；互联网视频数据则整合了YouTube、Panda-70M等公开来源。

诸如U-01、E-01这类“低成本、非本体绑定”的数据采集硬件，其设计思路与斯坦福UMI、EgoMimic等研究一脉相承，被业界视为突破真机数据采集瓶颈的有效路径。极佳视界的独特之处在于，将其与自研机器人本体（S1）、世界模型平台（GigaWorld-0）深度整合，形成了一套端到端的全栈数据采集与处理体系。实现单点技术突破已属不易，而能全栈打通且每层均有自研硬件支撑，这在国内具身智能公司中展现了显著的系统性优势。

三层算法金字塔：实现能力分层演进

算法金字塔则从底到顶分为三层：世界模拟、动作对齐、经验强化。极佳视界将这三层核心能力具体落地到了相应的模型产品上。

世界模拟层的代表是具身世界模型GigaWorld-1。它在世界模型领域权威评测平台WorldArena上，以综合得分62.34的成绩，超越了包括Wan、CogVideoX、Veo 3.1、Cosmos-Predict在内的众多顶尖模型，位列全球第一，同时也是该榜单中首个综合得分突破60分的具身世界模型。

动作对齐层主要包括GigaBrain-0系列模型和GigaWorld-Policy。前者是VLA路线的具身基础模型，在全球规模最大的真机操作评测RoboChallenge中，以51.67%的任务成功率排名全球第一，领先Physical Intelligence的π0.5模型近10个百分点；后者是世界动作模型，在面向家庭场景的全球权威评测平台RoboCasa365上，击败了英伟达GR00T N1.5与π0.5，获得全球第一，成为该榜单首个登顶的世界动作模型。

经验强化层则对应GigaBrain-0.5M*，通过“世界模型+强化学习”框架实现具身基础模型的自主进化与能力提升。

在竞争激烈的具身智能赛道，获得单一榜单冠军并不罕见。但能够同时在“世界模型、模仿学习、强化学习”这三个核心技术方向上，于WorldArena、RoboChallenge、RoboCasa365三大全球权威评测中均取得榜首位置，并且成功打通三层算法之间的数据流转与协同关系，目前国内仅有极佳视界实现了这一成就。这三个“全球第一”，分别证明了其在场景感知与生成、真机精细操作以及家庭场景泛化方面的领先实力，也为“双金字塔”体系的有效性提供了坚实的技术背书。

技术体系验证后，落地家庭场景

技术体系初步得到验证后，下一个关键问题随之而来：应该选择哪个场景来验证Scaling Law是否真正成立？极佳视界的答案是：真实的家庭环境。

发布会上，极佳视界联合创始人、首席科学家朱政博士正式发布了公司面向家庭场景的全新子品牌——“拾光SeeLight”，将其定位为“国内首个家庭通用机器人品牌”，并由朱政博士本人担任品牌CEO。

朱政在发布会上表示：“通用人工智能不应只存在于屏幕之中。我们并非在描绘一个遥远的未来图景，而是将内心深处对物理AGI的信念，转化为触手可及的产品，让物理通用智能真正服务于每个家庭与个人。”

与品牌同步推出的首代产品“拾光S1”，被定义为“全球首个进入真实家庭场景的通用人形机器人”。S1采用为家庭环境优化的轮臂复合构型，搭载极佳视界自研的具身基础模型，具备从环境感知、语义理解到动作执行的完整自主闭环能力。

选择家庭，而非工业或物流等结构化场景作为物理AGI的首发落地战场，从技术角度看是一个极具挑战的决策。家庭场景具有高度的开放性、任务的极端长尾性以及人机交互的复杂性，这些都远超结构化工业场景。正因如此，家庭场景也成为检验机器人“通用性”最为严苛的试金石。极佳视界这种“先难后易”的场景选择逻辑，与其在算法侧追求极致通用能力的技术路径高度一致。

百台部署：开启规模化数据积累

过去一年，具身智能赛道最受业界关注的问题之一，便是“发布会演示效果与真实场景落地表现之间存在显著差距”。众多公司能够展示样机的出色能力，但极少有公司能证明其产品在真实家庭中如何被持续使用，并能稳定工作多长时间。对此，极佳视界在本次发布会上给出了一个实质性的回应——一笔已经落地的百台订单。

公司宣布，“拾光S1”已获得真实家庭场景的百台订单，将率先在武汉光谷之寓社区进行部署，并从今年第三季度起开启规模化运营。这是公开信息中，规模化家庭通用机器人部署的首个标杆案例。此前，Figure、1X等海外厂商披露的家庭试用，大多停留在个位数订单或员工内部测试阶段。

“100台规模+真实居住社区+Q3规模化运营”这一组合，意味着一项关键资产即将开始加速积累：真实家庭环境下的长期、多维度使用数据。这正是验证Scaling Law在物理智能领域能否成立的核心要素。据发布会透露，拾光S1的家庭场景展示与体验空间将于2026年5月31日起正式对外开放参观。

拾光S2：面向可用性的本体重构

发布会还预告了第二代产品“拾光S2”，计划于2026年第三季度正式发布。从已披露的参数来看，这并非一次常规的迭代升级，而是一次面向真实家庭可用性的系统性重构：底盘体积减少60%，更适应家庭狭窄空间；电池续航提升70%，并支持热插拔更换，这直接决定了机器人在真实服务中的连续工作能力；操作范围扩大40%，支持在2.2米高度内执行各类任务。

正如朱政博士所言：“S2升级的核心，不在于追求某个参数的纸面提升，而在于整机设计全面转向满足真实家庭所需的‘可用性’。”从产业视角看，机器人本体落地的关键瓶颈，恰恰在于“能否在真实家庭环境中长期、稳定、可靠地工作”——涉及续航、热管理、关节寿命、安全冗余、维护成本等工程细节。S2的升级项均直指这些核心痛点，体现了务实且克制的产品设计取向。同时，真实家庭创始版的预定通道已于发布会当日同步开启。

12个月路线图：剑指物理AGI的“GPT-3时刻”

发布会的压轴环节，是极佳视界首次对外公布的物理AGI基础模型12个月研发路线图——计划连续发布GigaBrain-1、GigaBrain-2、GigaBrain-3三代模型。

GigaBrain-1将于2026年第三季度发布，是全球首个基于“双金字塔”体系构建的物理AGI基础模型，目标是在物理智能的泛化能力上实现显著突破。随后的GigaBrain-2与GigaBrain-3将加速推进规模扩展。其中，GigaBrain-3计划基于1000万小时视频数据与100万小时“世界-动作”配对数据进行训练，剑指物理AGI的“GPT-3时刻”。

GPT-3在数字AGI发展史上的里程碑意义，不在于模型本身，而在于它首次清晰展现了Scaling Law的“涌现”能力——当模型与数据规模突破某个临界阈值后，能力发生从量变到质变的非线性跃迁。理论上，物理AGI的“GPT-3时刻”应具有类似特征：当数据规模（1000万+100万小时）和算法范式（双金字塔）达到某个临界点后，物理智能体将表现出真正意义上的通用性与强适应性。

这是一个可被检验的技术假设。未来12个月，行业将共同见证这个临界点是否真实存在，以及极佳视界设定的具体目标是否恰好位于该临界点之上。在当下具身智能领域的讨论中，这种“以明确技术节点回应根本性问题”的清晰姿态并不多见，更多同行的回答仍停留在“即将到来”、“未来可期”、“五年内实现”等相对模糊的时间表述上。

未来值得关注的三个焦点

一场发布会，将公司过去三年的技术积淀、当前的产品化成果与未来12个月的技术规划清晰地呈现出来。从行业观察与技术发展的角度，接下来最值得持续追踪的有三件事：

第一，“双金字塔”体系能否真正跑通Scaling Law。五层数据与三层算法之间的耦合关系是否成立，将由GigaBrain-1（Q3发布）与GigaBrain-3（目标GPT-3时刻）分阶段进行验证。

第二，百台家庭部署能否形成有效的“数据飞轮”。真实家庭场景的长期、多模态使用数据是当前物理智能领域最稀缺的战略资产。如果这个数据闭环能够高效运转，极佳视界在数据侧的护城河将随时间推移而不断加深。

第三，物理AGI的“GPT-3时刻”是否真的会在12个月内到来。这是当前赛道最具争议性、也最具兑现价值的行业判断。

过去半年，“物理AGI何时到来”已成为全球科技界的高频议题，从英伟达、Figure、Physical Intelligence到国内的银河通用、智元机器人等，每一家领先企业都给出过自己的展望。但截至目前，没有一家公司像极佳视界这样，将这一宏大的终极问题，系统地拆解为“需要构建怎样的算法与数据体系”以及“何时能够到达”这两个具体的技术命题与明确时间表。

系统性的方法论，加上可验证的时间表，这套组合拳，或许是本次发布会区别于其他同类产品发布的最关键特征。

来源:https://www.163.com/dy/article/KTII7KF80511AQHO.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：年轻血浆置换抗衰老科学解析与争议探讨下一篇：周鸿祎云端养虾方案专业私教在线指导龙虾养殖技术