你是否曾好奇,机器人如何将视觉感知转化为具体的行动指令?这看似简单的问题,实际实现起来却极为复杂。6月30日,自变量机器人发布了其最新成果——跨模态具身动作分词器 X-Tokenizer。这项研究的核心创新在于:他们不再将VLA(视觉-语言-动作)模型中的动作离散化视为单纯的“压缩-重建”问题,而是重新定位为“多模态推理与动作之间的语义接口学习”问题。通俗来说,就是让机器人在理解图像和自然语言后,能够更精准地“表达”出应该执行的动作。

根据公开信息,这一动作分词器的成功与否,直接决定了拆分后的动作Token是否具备语义含义。如果Token缺乏语义,预训练模型将难以有效收敛,进而导致VLA模型在输出连续动作时的性能大打折扣。自变量机器人在这方面的突破,可谓精准抓住了具身智能落地的核心痛点。
