2026年4月,具身智能领域迎来里程碑式突破。腾讯Robotics X实验室与腾讯混元团队联合发布专为机器人设计的HY-Embodied-0.5基础模型系列。该系列在22项行业主流具身智能评测中,取得了16项最优成绩的卓越表现,刷新了行业纪录。其核心价值在于,它从底层模型架构到训练范式进行了全链路重构,旨在攻克当前通用机器人发展中的关键瓶颈。
随着人形机器人与工业自动化需求激增,一个根本性挑战日益突出:作为机器人“大脑”的具身大模型,其性能上限正严重阻碍它们从实验室或结构化场景,迈向真实、开放、动态的复杂环境。以往行业普遍采用对现有通用视觉语言模型进行微调的方案,但这种方法长期受限于两大痛点:三维空间感知精度不足,以及实时交互决策延迟过高。
问题的根源在于数据。传统通用视觉语言模型的训练数据多源于互联网文本和二维图像,导致模型严重缺乏对三维空间几何、物体物理属性(如质量、硬度、动力学特性)的深刻理解。直接将此类模型应用于机器人,常导致决策失误,例如距离估算错误,或无法预测抓取、推动等动作引发的物理连锁反应。
而传统的定制化微调路径,虽试图弥补不足,却面临新困境。一方面,适配成本高昂,为单一任务场景微调往往需要百万级规模的专属数据;另一方面,模型泛化能力薄弱,场景稍有变化性能便急剧下降。这显然难以满足未来通用机器人灵活部署与规模落地的需求。
那么,腾讯HY-Embodied-0.5系列提供了怎样的解决方案?它并非对通用基座的简单优化,而是一次从零开始的系统性重建。团队同步发布了两款定位互补的核心模型:
MoT-2B模型,总参数量40亿,激活参数量20亿,专注于端侧实时响应。其设计目标在于直接部署于机器人本体,实现低延迟、高可靠的本地化决策,无需依赖云端网络。
MoE-32B模型,采用混合专家架构,总参数量达4070亿,每次推理仅激活320亿参数。它致力于处理需要复杂推理与长远规划的决策任务,追求极致性能,适合云端部署。
系列模型的技术突破是其卓越表现的基石。团队首创了视觉与语言模态参数非共享的混合Transformer架构。该设计使得处理图像与语言的模块既能独立高效运算,又能紧密协同。结合原生高分辨率视觉编码器HY-ViT2.0与视觉潜在Token机制,有效缓解了小模型在多模态训练中常见的“灾难性遗忘”问题,同时保留了对空间细节的敏锐感知能力。
在训练层面,模型基于规模超过1亿条的高质量具身智能专属数据构建的语料库进行训练,并融合了拒绝采样微调、强化学习等多种先进技术以持续提升决策准确性。正是这一系列从架构设计到数据工程的全面创新,最终使其在权威评测中斩获16项最优的突破性成果。
此次发布对机器人行业意义深远。业界分析指出,腾讯该模型系列覆盖了从终端到云端的关键应用场景,有望大幅降低机器人厂商在智能“大脑”适配上的技术门槛与综合成本。值得注意的是,腾讯Robotics X实验室在四足机器人、人形机器人等实体硬件研发上已有深厚积累,如今与混元团队的大模型技术优势结合,形成了从“躯体”到“心智”的完整闭环能力。可以预见,该系列模型将率先在腾讯内部机器人项目中进行落地验证,后续极有可能通过开放API或模型服务的形式赋能行业,从而加速推动在工业巡检、家庭服务、精密制造等多个领域的机器人商业化应用进程。
