首页 游戏 软件 资讯 排行榜 专题
首页
AI
南加州大学AI新突破 从视频学习人手与物体互动

南加州大学AI新突破 从视频学习人手与物体互动

热心网友
57
转载
2026-05-14

“倒水”这个看似简单的日常动作,背后其实蕴含着复杂的物理交互。水流的方向、速度,杯中液面的上升,这些对人类而言理所当然的现象,对人工智能来说却曾是一个棘手的难题。近期,来自南加州大学、德国马克斯普朗克智能系统研究所及Waymo公司的研究团队取得了一项突破,他们开发的LOME系统,首次实现了让AI通过观察人类手势来生成逼真的人机交互视频。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

南加州大学让AI学会

这项研究的核心价值,远不止于生成一段视频。关键在于,它让AI真正理解了人与物体交互中的因果关系——即人的特定动作会如何引发物体世界的连锁反应。这相当于教会了AI观察并解析一场精密的双人舞,其中人类的每一个手势,都对应着物体的一系列物理响应。

研究团队选择从第一人称视角训练AI,这无疑是个巧妙的设定。它模拟了人类最自然的观察方式:当你低头看自己拿起杯子时,所见即所得。这种方式让AI的学习过程更贴近真实体验,就像一个学徒通过观察师傅的手部动作来领悟技艺精髓。

传统方法依赖物理仿真,需要为每个物体和动作编写复杂的“说明书”,耗时费力且难以应对现实世界的多样性。而LOME采用的视频生成路径则更为灵活,它让AI通过海量“教学视频”进行学习,适应性显著增强。

具体而言,LOME的学习材料包含三类信息:一张参考图片(交代环境与物体初始状态)、一段文字描述(说明操作意图),以及逐帧的人体动作信息(包括身体姿态与精确的手部手势)。这三者结合,相当于为AI提供了一份完整的“剧本”、“舞台布景”和“分镜动作指导”。

成果是令人信服的。在动作跟随准确性上,LOME的PCK@20分数达到66.85%,远超最佳基准方法的51.33%。在视频质量评估(FVD分数,越低越好)中,LOME将分数从59.83显著降低至39.58。用户研究结果更具说服力:97%的参与者认为LOME的动作跟随最佳,94%的参与者对其视觉质量给出了最高评价。

一、AI如何理解“倒水”的艺术

理解LOME的工作原理,可以类比学习一门精密的手艺。陶艺师拉坯时,手指的细微压力变化直接决定了陶土的形态。同样,日常物体操作中,手的每个动作都对应着精确的物理后果。

传统AI方法好比通过阅读理论手册来学习陶艺,虽知原理,却难上手。LOME则采用了更直接的“观察学习”法。其学习过程始于海量的第一人称操作视频,每个视频都完整记录了从初始状态、手部动作到最终结果的闭环。

真正的挑战在于让AI领悟动作与结果之间的因果逻辑。例如,倾斜水瓶会导致水流出;倾斜角度增大,流速加快;杯子将满时,需减缓倾斜以防溢出。这种微妙的控制与反馈关系,正是LOME需要掌握的核心。

研究团队发现,仅仅指令AI“按此动作生成视频”是不够的。这如同只看乐谱学钢琴,却听不到琴声。因此,他们设计了“联合学习”策略,让AI在生成视频的同时,深化对动作语义的理解。这种设计的精妙之处在于,AI不再是机械执行指令,而是能理解特定环境下动作的意义与可能后果,从而具备类似经验者的应变能力。

二、从“动作地图”到“视频生成”的技术革新

LOME的技术核心,在于将人体动作转化为“动作地图”。这个概念可以想象成学习舞蹈时地面标注的步点轨迹,它将复杂的多维动作简化为直观的二维视觉指引。

LOME所做的正是如此:它将三维人体姿态投影至二维平面,形成一系列彩色的骨架序列图,如同动作的“指纹”。但转化只是第一步,更大的挑战是让AI理解这些“地图”与实际视频内容的动态关联。

研究团队采用了“扩散变换器”架构,可将其视作一个智能的“视频生成工厂”。该工厂接收三种原料:参考图片(场景)、文字描述(任务)和动作地图序列(步骤)。随后,它并非简单拼接,而是通过一个深度的“理解与重建”过程来合成视频,其连贯性犹如资深动画师根据脚本绘制的序列。

另一项关键创新是“联合建模”机制。传统流程往往是先确定动作,再生成内容。LOME则更智能,它让动作指令与场景变化在生成过程中相互影响、彼此约束。这使得生成的视频不仅动作准确,物理效果也更为逼真——AI理解“倾倒”时,能同步推演出手的移动与液体的流动轨迹。

三、在真实世界中的表现:从实验室到厨房

为验证实效,研究团队设计了一系列对比实验,选取了CoSHAND、Wan-I2V-14B及Go-with-the-Flow等代表性基准方法。

在“拿起黑色盒子”测试中,其他方法或手部动作失真,或物体反应违和,而LOME生成的视频则宛如真人操作录像,动作精准且轨迹自然。

更具挑战的“叠咖啡杯”任务,要求理解多物体间的相互关系与连续操作逻辑。其他方法在此几乎完全失败,而LOME不仅完成了任务,其动作流畅度也完全符合日常经验。

最令人惊叹的是“倒可乐”实验。给定一个瓶盖紧闭的可乐瓶初始图,要求生成“将可乐倒入灰色杯子”的视频。此任务难点在于,AI必须理解开启瓶盖、倾倒液体及液面上升这一连贯的物理过程。结果显示,唯有LOME成功生成了符合物理规律的视频:瓶子倾斜角度与流速匹配,杯中液面平稳上升。其他方法或动作断裂,或液体行为失真。

研究团队进一步测试了LOME的泛化能力。在一个“打开冰箱门取食物”的场景中,初始图片并未显示冰箱内部。LOME不仅生成了合理的开门动作,还“想象”并创建了冰箱内的食物(如牛奶或水果),且每次生成的内容都合理可信,展现了其超越单纯模仿、真正理解操作逻辑的能力。

四、技术细节:让AI“身临其境”地学习

LOME的成功得益于多项关键技术的协同。首先是第一人称视角的采用,这建立了更直接的动作-结果映射,模拟了人类技能习得的自然路径。

其次是“动作地图”的精心设计。团队将三维姿态投影为二维骨架图,不仅降低了计算复杂度,也提升了表示的稳定性。尤为关键的是引入了“视野过滤”,确保地图只包含相机视野内的身体部位,防止了信息作弊。

第三是“联合去噪”训练策略。不同于传统“先定条件,后生成内容”的串行方式,LOME同时对动作表示与视频内容进行去噪优化,让两者在训练中相互校准。这好比厨师根据食材状态调整烹法,同时依据目标风味选材,追求过程与结果的最佳匹配。

第四是“改进的引导机制”。它能智能平衡文字语义、动作时序与物理规律等多重约束,确保输出视频既符合指令,又保持物理真实感。

最后是“相机姿态感知”机制。LOME能理解并模拟第一人称视角中自然的头部运动,从而在生成的视频中保持视角的一致性与沉浸感。

五、实验数据背后的故事

研究的严谨性体现在实验设计与数据处理的方方面面。团队使用EgoDex大型数据集,包含约33万个第一人称操作短视频,总时长近800小时,由苹果Vision Pro设备录制,并配有详细的三维姿态标注。

他们对数据进行了精心预处理。针对视频长度不一的问题,设计了智能时间重采样策略:过长则均匀采样保留首尾关键帧;过短则采用“正向播放后反向播放”的“往返”方式扩展,既保证了操作完整性,又避免了简单重复带来的偏差。

评估指标聚焦于“动作跟随准确性”,通过PCK@20分数(预测手部关键点与真实位置偏差在20像素内即判正确)衡量。LOME以66.85%的成绩显著超越基准方法(51.33%),在计算机视觉领域,这样的提升意味着实质性突破。

用户研究结果更具说服力。30名参与者从多维度评估后,97%认为LOME动作跟随最佳,94%对其视觉质量评价最高。普遍反馈是“看起来像真人操作”、“动作非常自然流畅”。

细致的消融研究进一步揭示了各技术组件的贡献:“联合建模”机制贡献最大,其缺失会导致PCK@20分数下降约4个百分点;相机适配器与时序连接方式的改进也均有明确正向作用。

六、挑战与突破的边界

研究团队也客观讨论了当前局限。首要挑战源于训练数据中三维姿态与相机位置估计的固有误差,这如同教材存在瑕疵,会影响学习效果,导致生成视频中手部位置与指令间存在微小空间偏移。

另一局限体现在处理多物体复杂交互时。在一个“用勺子舀冰块入杯”的失败案例中,LOME生成了看似合理的舀取动作,但冰块最终落回了托盘。这表明其对需要精确协调多个物体的复杂操作,理解尚存盲区。

技术架构上,LOME目前需预先获得完整动作序列才能生成视频,无法实现真正的“实时交互”。此外,尽管相比物理仿真已大幅降低计算需求,生成高质量视频仍需可观算力,这在一定程度上限制了其在消费级设备上的直接部署。

尽管如此,团队对前景持乐观态度,认为这些多是发展中的阶段性问题。他们特别提到,引入“蒸馏技术”以实现自回归推理的计划,将支持更灵活的交互模式,允许用户在操作过程中实时调整策略。

七、未来应用的想象空间

LOME的突破为众多领域开启了新的可能性。在教育培训领域,它有望革新技能传授模式,能够根据学习者需求生成个性化操作演示视频,例如针对咖啡拉花的不同图案提供具体的手腕转动与倾倒时机指导,使优质教学资源得以普惠。

对于虚拟/增强现实(VR/AR),LOME能极大提升交互的真实感与沉浸感。未来在虚拟厨房切菜或操作虚拟仪器时,触觉反馈与视觉变化将高度符合物理直觉,推动VR/AR从“新奇体验”向“实用工具”转变。

在机器人技术领域,LOME展示的“从演示中学习”能力提供了一种新范式。未来家用机器人可能只需观察一遍用户整理房间或准备食物的过程,便能掌握技能,并能根据环境变化灵活调整策略,大幅降低编程门槛。

在内容创作方面,LOME能自动化生成高质量的操作教学视频、产品演示视频,显著降低电商、在线教育等领域的内容制作成本与门槛。

在医疗康复领域,基于LOME的系统可为患者生成个性化的精细动作训练内容,并能根据恢复进度动态调整难度,提供实时反馈与改进建议,在提升康复效果的同时减轻医护人员负担。

八、技术发展的更大图景

LOME的成功,折射出人工智能从单一模态智能向多模态融合智能演进的重要趋势。它同时处理视觉、文本与动作信息,并在其间建立有意义的联系,这更贴近人类智能调动多感官协同工作的本质。

宏观来看,LOME代表了AI从“感知智能”(理解世界是什么样)向“交互智能”(理解如何与世界互动)的关键跨越。真正的智能不仅在于观察,更在于能动地影响与改变环境。

这一进展也与“具身认知”理论相呼应,强调了智能植根于身体体验与环境互动。LOME采用的第一人称视角学习,正是这一哲学思想在AI系统中的有效实践。

此外,LOME基于预训练大模型进行微调的技术路线,体现了当前AI发展从“专门系统”走向“通用基础模型”的主流趋势。其行为源于对人类操作视频的学习,生成内容天然更符合人类直觉与物理规律,这为AI的安全性与可解释性提供了有益案例。动作地图的可视化,也为理解AI决策过程提供了直观窗口。

从产业角度看,LOME代表的技术方向商业化潜力广阔。其应用场景多样,技术集成门槛相对较低,有望推动教育软件、游戏娱乐、工业培训乃至消费电子等行业的普遍升级。

归根结底,LOME的意义在于展示了一种新的可能性:让AI成为能够理解并模拟人类行为的智能伙伴,而不仅仅是冰冷的计算工具。这为实现自然、直观、高效的人机协作奠定了重要基石。技术细节可通过论文编号arXiv:2603.27449查阅。

Q&A

Q1:LOME是什么技术?
A:LOME是由南加州大学等机构研发的AI系统,能够通过观察人类操作视频,学习并生成逼真的人机交互视频。其核心是让AI理解手势动作与物理效果之间的因果关系。

Q2:LOME跟普通的视频生成AI有什么区别?
A:普通视频生成AI主要依据文本描述创作内容。LOME在此基础上,能理解具体的人体动作指令,并确保生成的视频中物体的物理反应(如液体流动、物体移动)符合真实规律,实现了动作与场景变化的精准耦合。

Q3:LOME技术有什么实际用途?
A:其应用前景广泛,包括:自动生成个性化操作教学视频;提升VR/AR体验的物理交互真实感;让机器人通过观察演示学习新技能;辅助医疗康复训练等。它有望降低多个领域高质量视频内容的制作门槛与成本。

来源:https://www.techwalker.com/2026/0413/3183880.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

AI数字员工升级版:智能企业助手如何重塑办公自动化
业界动态
AI数字员工升级版:智能企业助手如何重塑办公自动化

在当今企业数字化转型的进程中,构建高效、智能的运营体系已成为关乎核心竞争力的关键。如今,一个重要的产品升级正式发布——“AI数字员工 企业版”全面演进为“智能企业助手”。这不仅是名称的更新,更是对企业智能化路径的重新定义,标志着工作场景即将迎来一场深刻的效率变革。 智能企业助手:企业运营的超级大脑

热心网友
05.14
腾讯AI战略布局:持续投资扩张以追赶行业领先者
科技数码
腾讯AI战略布局:持续投资扩张以追赶行业领先者

腾讯一季度营收增长9%,但AI新业务短期内拖累利润增幅。公司研发投入大幅增加,其中AI是主要驱动力。为加速追赶,腾讯优化组织并引入顶尖人才,其开源模型市场反响热烈,调用量激增。AI技术已全面赋能云服务、广告、游戏及微信生态,推动相关业务增长,成为公司明确的核心发展引擎。

热心网友
05.14
京东AI技术如何赋能企业数字化转型与智能升级
科技数码
京东AI技术如何赋能企业数字化转型与智能升级

京东启动大规模数据采集计划,依托数十万员工与线下业务网络,在真实服务场景中采集超千万小时视频数据,构建高质量具身智能训练数据集。此举旨在破解物理AI落地的数据瓶颈,将日常履约场景转化为数据源头,为机器人从实验室走向现实提供关键支撑。

热心网友
05.14
南京大学攻克AI代码测试难题:如何让AI生成可验证的可靠代码
AI
南京大学攻克AI代码测试难题:如何让AI生成可验证的可靠代码

在AI编程助手广泛应用的当下,一个关键挑战日益凸显:当人工智能生成多个备选代码方案时,我们如何自动化地甄选出最优解?传统思路是让AI同步生成测试用例来验证代码,但这随即引发了更深层的问题——如何确保这些测试用例本身的正确性?这构成了一个类似“先有鸡还是先有蛋”的循环验证困境。 近期,南京大学人工智能

热心网友
05.14
南加州大学AI新突破 从视频学习人手与物体互动
AI
南加州大学AI新突破 从视频学习人手与物体互动

“倒水”这个看似简单的日常动作,背后其实蕴含着复杂的物理交互。水流的方向、速度,杯中液面的上升,这些对人类而言理所当然的现象,对人工智能来说却曾是一个棘手的难题。近期,来自南加州大学、德国马克斯普朗克智能系统研究所及Waymo公司的研究团队取得了一项突破,他们开发的LOME系统,首次实现了让AI通过

热心网友
05.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

特斯拉CEO马斯克安保费用达480万美元 同比大幅增长71%
科技数码
特斯拉CEO马斯克安保费用达480万美元 同比大幅增长71%

特斯拉2025财年为首席执行官马斯克支付的个人安保费用达480万美元,较前一年增长71%。今年头两月支出同比激增超160%。该费用仅为其安保开支一部分,其名下其他企业也分担相关成本。费用增长源于投资者呼吁及本人确认的必要性,其日常安保规格极高,常由约20名保镖及医护人员随行。

热心网友
05.14
HATCHY币空投教程:如何免费领取HatchyPocket NFT
web3.0
HATCHY币空投教程:如何免费领取HatchyPocket NFT

HatchyPocket是融合DeFi与NFT的链上游戏平台,其代币HATCHY用于支付、治理与激励。玩家可孵化收集虚拟宠物,资产基于区块链。获取免费空投需关注官方社交渠道、参与测试网活动或贡献社区内容,但需注意安全防范与数量限制。该项目展现了游戏与区块链结合的新模式。

热心网友
05.14
京东AI技术如何赋能企业数字化转型与智能升级
科技数码
京东AI技术如何赋能企业数字化转型与智能升级

京东启动大规模数据采集计划,依托数十万员工与线下业务网络,在真实服务场景中采集超千万小时视频数据,构建高质量具身智能训练数据集。此举旨在破解物理AI落地的数据瓶颈,将日常履约场景转化为数据源头,为机器人从实验室走向现实提供关键支撑。

热心网友
05.14
受枷者三套满分阵容推荐 平民玩家通关攻略详解
游戏资讯
受枷者三套满分阵容推荐 平民玩家通关攻略详解

还在为《无期迷途》受枷者关卡发愁?小兵无视阻挡快速推进,BOSS物理抗性极高,防线频频失守?别担心,本文将为你详细解析三套高适配阵容攻略,助你轻松通关。即便是零氪、微氪玩家,也能稳定获取24万高分奖励! 法系速杀流:开局秒核,一击制胜 应对受枷者关卡,两大核心难点在于:无视阻挡的杂兵推进速度极快,而

热心网友
05.14
Warframe指挥官新手入门 第一关操作技巧完全指南
游戏资讯
Warframe指挥官新手入门 第一关操作技巧完全指南

握紧你的武器,指挥官!Vor的战利品之门已经开启——这不仅仅是一个新手任务,更是你蜕变为一名真正Tenno战士的震撼序章。无需担心经验不足,本关卡专为初入《星际战甲》宇宙的你设计,全程由引导者Lotus亲自指引。浩瀚的星际战甲世界,此刻正式为你拉开帷幕! 核心操作精通:位移如风,攻防一体 任务开始,

热心网友
05.14