游乐游手机版
首页/AI热点日报/热点详情

人形机器人办公室实习生前NVIDIA工程师强化学习之路

类型:热点整理2026-07-03
前NVIDIA工程师创立的瑞士公司Flexion利用强化学习训练人形机器人自主完成开门、爬楼梯、搬箱子等办公室杂务。系统在模拟环境中学习技能,由主AI模型组合执行,极少需要人类指令介入。该软件优先方案可跨平台使用,为人形机器人商业化提供关键突破。

来源:Wired 作者:Will Knight

先说几个核心判断:人形机器人这阵子热闹得很,能跑、能跳、偶尔还能踢人一脚。可要是真让人说,这些东西离真正“有用”,还差那么一口气。尤其是一旦涉及点“正经活”——比如开门、爬楼梯、搬个箱子——它们就开始犯迷糊了。一家由前NVIDIA工程师创办的瑞士创业公司Flexion,最近给出了一个答案:用“强化学习”让机器人自主搞定这些事。办公室杂务的末日,怕是不远了。

人形机器人,别被那些跑跳跳舞的视频骗了。它们的“高光时刻”多半是在演示厅里,任务固定、环境单——人们事先替它铺好了路。要真正“像个人”,它们还得学会各种办公室杂活。而现在,一家叫Flexion Robotics的瑞士公司,由前NVIDIA机器人研究员创办,自认为找到了解法。他们开发了一套系统,能训练机器人执行复杂任务,包括开门、爬楼梯和搬箱子。关键做法是:先在模拟环境中一个一个地教会机器人单个动作技能,然后让一个“主AI算法”自己决定如何组合使用它们。

绝大多数机器人演示视频,展示的都是被训练好做某一件特定事情的机器人——比如叠衬衫、上货架。训练过程多半靠“遥操作”(也就是幕后有人肉身遥控)。但机器人进了陌生环境,这招很快就露馅了。Flexion这时候跳出来说:我们的路子不一样——更管用。因为他们在模拟环境里训练机器人,只需要极少的人类指令介入。

一台宇树机器人的“职场秀”

在一段演示视频里,一台经过改装的宇树(Unitree)人形机器人接到指令:“一个装零食的包裹已送到Flexion。请走楼梯去取,然后坐电梯上来。打开它,把零食放进零食区架子上的空抽屉里。”整套动作,机器人完全自主完成。它之所以能做到,靠的是组合多个AI系统。

主AI模型先通过“观看”人类做各种事情的视频,来判断“什么时候该做什么”。比如要去邮件室,它知道要开哪些门、怎么用电梯。但视频只教它“什么时候做什么动作”,不教它“怎么物理执行”。接着,软件就会触发它在模拟环境下学会的技能,并在真实世界中执行。与此同时,系统还会控制机器人的电机,让它能行走、移动四肢、维持平衡。

“强化学习”是秘密武器

图片来源:Wired

Flexion联合创始人兼CEO、前NVIDIA机器人科学家Nikita Rudin透露,这套软件的“秘密配方”,就是大规模狂用“强化学习”——让计算机通过反复试错来掌握任务。从主AI模型到模拟环境再到电机控制,软件的每一层都离不开它。“人形机器人本身并不是有趣的、革命性的东西,”分析师George Chowdhury说,“真正重要的是支撑它们的AI模型。”

ABI Research测算,到2036年,机器人基础模型市场规模可能达到1500亿美元。Flexion目前正与多家机器人公司合作,并强调其软件可以跨不同人形机器人平台使用。Chowdhury同时指出,Flexion需要和硬件制造商紧密协作才有成功可能,而且将面临激烈竞争。但话又说回来——如果没有Flexion展示的这种编程能力,“这个市场根本不存在”。

“办公室实习生”背后的商业逻辑

Elon Musk和黄仁勋这些人,都认定人形机器人将深刻影响经济,未来有可能替代大量人类劳动。Flexion的演示恰恰反映出,要赋能这类机器人,需要AI的根本性进步。目前人形机器人的硬件越来越成熟,但缺的是那个能让它们自主学习、适应环境的“大脑”。Flexion的强化学习方案要能规模化,或许就是打开人形机器人商业化那把最关键钥匙。

值得关注的是,Flexion走的是“软件优先”路线,而不是自己造机器人硬件。这个思路和NVIDIA提供“机器人大脑”的策略有点像——在硬件逐渐商品化的时候,靠软件和AI来从中获利。这年头机器人行业淘金热,卖铲子的和卖地图的谁能笑到最后,答案是远未揭晓的。

来源:https://www.ofweek.com/ai/2026-07/ART-201717-8420-30693045.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。