首页 游戏 软件 资讯 排行榜 专题
首页
AI
百度与新加坡国立大学推出ONE-SHOT技术实现虚拟人真实场景表演

百度与新加坡国立大学推出ONE-SHOT技术实现虚拟人真实场景表演

热心网友
19
转载
2026-05-15

当电影特效和虚拟现实技术日益融入我们的生活,一项来自新加坡国立大学与百度的联合研究,正在悄然重塑视频内容创作的边界。这项于2026年4月发表在arXiv预印本平台(编号:arXiv:2604.01043v1)的研究,提出了名为“ONE-SHOT”的创新框架。它的核心目标,是让计算机具备“导演”般的洞察力,能够将真人的动作、表情与环境背景无缝融合,生成高度逼真的动态视频。

新加坡国立大学与百度联手开发ONE-SHOT:让虚拟人物在真实环境中表演成为可能

要理解这项技术的突破性,可以把它看作一种全新的“数字合成术”。传统的视频生成,往往像在搭建一个精密但繁琐的模型——每个部件都需要单独预制,再小心翼翼地拼装组合。而ONE-SHOT的思路则截然不同,它更像一位技艺高超的主厨,能够同时处理多种食材,在保留各自风味的基础上,烹制出一道和谐统一的佳肴。

研究团队要攻克的核心难题,形象地说,好比让一位京剧演员在欧洲古堡中打太极,同时还要确保其服饰、动作与周遭的石墙、光影浑然一体。传统方法为此需要海量的前期数据准备与复杂的3D重建,过程如同为做一道菜而先建造一座厨房,效率低下且极易扼杀创造性。过度依赖预处理,往往会让整个系统变得僵化,失去灵活应变的能力。

ONE-SHOT的巧妙之处,在于它采取了一种“分而治之,协同作战”的策略。这就像一位卓越的乐团指挥,能让小提琴、大提琴与铜管声部各司其职又完美共鸣。该系统将视频生成的三大要素——人物动作、环境背景与摄像机运动——进行解耦处理,再通过精妙的机制将它们重新组合。

三大技术突破:构建智能“导演”的核心能力

研究的创新性,具体体现在三个关键的技术突破上。

首先是“标准空间动作注入”机制。这相当于为虚拟演员提供了一个通用的“排练舞台”。无论最终要在何种复杂环境中表演,演员都可以先在这个标准化舞台上演练动作。随后,系统能将这些动作精准地“移植”到目标场景中,有效避免了传统方法中常见的动作与环境不匹配的“违和感”。

其次是“动态基础旋转位置编码”技术。这个听起来复杂的名词,实际功能类似于一个智能的“空间翻译官”。当标准舞台上的动作需要映射到真实环境时,它能动态调整空间坐标的对应关系,确保每个转身、每次跳跃在新场景中都显得自然合理,解决了视角与位置同步的难题。

第三个突破是“混合上下文集成”机制。可以理解为给系统配备了两套记忆系统:一套是专注于记录演员面部特征、外貌细节的“短期记忆”;另一套是负责追踪整个视频序列中环境与人物状态演变的“长期记忆”。双管齐下,确保了即便是长达数分钟的视频,其前后内容也能保持高度一致性。

技术实现:站在巨人肩膀上的高效创新

在工程实现上,ONE-SHOT采用了一种高效的“学徒式”训练路径。研究团队并未从零开始构建模型,而是以成熟的Wan2.1视频生成模型为基础进行改进与增强。这好比一位老师傅带领已有功底的徒弟,只需传授几门关键的新绝技,而非从头教授基本功,从而在极大提升开发效率的同时,继承了原有模型强大的内容生成能力。

该系统的工作流程,可以类比为执导一部微型舞台剧。首先,作为“导演”的系统会根据“剧本”(即文本提示)来选择和搭建“舞台”(三维场景)。接着,“演员”(虚拟人物)会按照编排好的“动作序列”进行表演。其强大之处在于,它能轻松实现“一人多景”或“多人同景”的灵活编排,极大地拓展了创作自由度。

为了训练出这位全能“导演”,研究团队投喂了多元化的数据“营养餐”。这包括包含动态摄像机运动的EMDB2数据集、专注于人体动作的MotionX子集、提供丰富3D环境信息的ARKitScenes数据集,以及从公开网络收集的视频资源。这种跨领域、多模态的训练方式,赋予了系统强大的泛化能力与创造性。

实验验证:性能与效果的全面领先

为了检验成果,团队进行了两类核心测试。一类是“还原测试”,要求系统根据给定条件复现现有视频,考验其控制的精确性;另一类是“创意组合测试”,要求系统将从未同时出现的人物、动作和环境进行新颖合成,评估其创造与泛化能力。

实验结果颇具说服力。在衡量视觉质量的关键指标上,ONE-SHOT取得了FID分数16.88和FVD分数181.17的成绩,显著优于其他主流方法。更重要的是,在动作流畅度、背景一致性、人物身份保持等多个维度的综合评估中,ONE-SHOT都展现出了更优的平衡性。它不像某些“偏科”的模型,而是在各项能力上都达到了高水准。

特别值得称道的是,ONE-SHOT还保留了强大的文本驱动编辑能力。用户通过简单的文字指令,就能对视频元素进行创意替换,例如将普通人变为卡通角色“哆啦A梦”,或将一只狗替换成发光的小龙。这证明其在增强控制力的同时,并未牺牲原始模型天马行空的想象力。

面对长视频生成的行业难题,ONE-SHOT也交出了不错的答卷。凭借其混合记忆机制,它能够生成长达数分钟且内容连贯的视频,突破了传统方法多局限于十几秒的瓶颈,让生成一个完整叙事片段成为可能。

此外,通过一系列的“消融实验”,研究团队逐一验证了每个核心技术组件的必要性。当移除了动态位置编码功能后,生乘人物的动作会出现明显的偏移和失调;当关闭面部参考信息时,人物在长视频中的身份特征便难以维持。这些实验有力地证明了,框架中的每一个设计都不可或缺。

应用前景与理性思考

跳出技术本身,ONE-SHOT的潜在应用场景十分广阔。在电商领域,商家可以低成本地让同一件商品由不同“模特”在多样化的虚拟场景中展示;在教育领域,历史人物得以在对应的历史环境中“复活”,进行生动讲解;对于内容创作者而言,它则是一个能够快速将创意可视化的强大工具,大幅降低专业视频制作的门槛。

当然,这项技术目前仍存在一些局限。其生成效果在很大程度上依赖于输入的三维场景数据的质量。在少数极端复杂的空间定位情况下,也可能出现人物位置不够精准的问题。对于超长视频,细微的时间维度上的漂移现象仍有待进一步优化。

研究团队在论文中也以审慎的态度探讨了技术可能带来的社会影响。毫无疑问,如此强大的视频生成能力是一把双刃剑,既能为艺术创作和内容生产赋能,也可能被用于制造误导性信息。因此,推动技术的负责任使用,并在部署中充分考虑隐私、公平与伦理问题,是整个行业必须面对的课题。

纵观技术发展脉络,ONE-SHOT代表了视频生成领域一个清晰的演进方向:在追求更高控制精度与定制化能力的同时,竭力保持并激发AI系统的内在创造性。找到控制与自由之间的那个平衡点,正是AI技术走向深度实用化的关键。

简而言之,ONE-SHOT为我们提供了一支更为智能的“视觉画笔”。它让精准操控数字内容成为可能,同时也为创意表达开辟了新的空间。尽管前路仍有挑战,但这项研究已经清晰地揭示了,人工智能在重塑视觉内容创作领域的巨大潜力与无限可能。

Q&A

Q1:ONE-SHOT技术是什么?

A:ONE-SHOT是由新加坡国立大学与百度联合研发的一种先进视频生成框架。它能够智能地整合真人动作、环境背景和摄像机运动,生成逼真的动态视频,其核心目标是让虚拟人物能在任何指定场景中进行自然表演。

Q2:ONE-SHOT比现有技术有什么优势?

A:其主要优势在于“三位一体”的平衡:大幅减少了对复杂3D数据预处理的依赖,保持了模型原有的创意生成能力,并能支持生成长时间、高一致性的连贯视频。就像一个既能严格执行分镜要求,又懂得即兴发挥的智能导演。

Q3:普通人能使用ONE-SHOT技术吗?

A:目前该技术仍处于学术研究阶段,尚未开放给公众直接使用。但可以预见,其核心思想与未来成熟的技术版本,很可能被集成到专业的视频制作软件或云服务平台中,最终赋能给内容创作者、教育工作者及商业用户,降低高质量视频制作的技术门槛。

来源:https://www.techwalker.com/2026/0415/3184050.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

百度与新加坡国立大学推出ONE-SHOT技术实现虚拟人真实场景表演
AI
百度与新加坡国立大学推出ONE-SHOT技术实现虚拟人真实场景表演

当电影特效和虚拟现实技术日益融入我们的生活,一项来自新加坡国立大学与百度的联合研究,正在悄然重塑视频内容创作的边界。这项于2026年4月发表在arXiv预印本平台(编号:arXiv:2604 01043v1)的研究,提出了名为“ONE-SHOT”的创新框架。它的核心目标,是让计算机具备“导演”般的洞

热心网友
05.15
中科院与新加坡国大合作研发高效AI推理模型实现智能优化
AI
中科院与新加坡国大合作研发高效AI推理模型实现智能优化

这项由中国科学院自动化研究所基础模型研究中心联合新加坡国立大学、腾讯等机构开展的研究,发表于2026年,论文编号为arXiv:2604 02288v1。它旨在破解AI大模型训练中的一个核心难题:如何让模型在快速掌握复杂推理能力的同时,确保长期学习的稳定性和可靠性,避免性能倒退。 将AI训练类比为教学

热心网友
05.14
新加坡国立大学发布AI评测新标准模拟研究员思维
AI
新加坡国立大学发布AI评测新标准模拟研究员思维

如何科学评估人工智能的研究能力?这已成为当前AI发展的核心挑战。传统评测方法往往只关注最终输出结果,却忽视了研究过程本身,如同仅凭一份报告来评判研究员水平,显然无法全面衡量AI的真实研究潜力。 2026年3月,一项突破性研究为此带来了转机。新加坡国立大学MiroMind团队联合南洋理工大学学者,在a

热心网友
05.14
新加坡南洋理工大学AI新技术:单张照片解构物体并驱动运动
AI
新加坡南洋理工大学AI新技术:单张照片解构物体并驱动运动

这项由新加坡南洋理工大学S-Lab实验室主导的突破性研究,于2026年3月在arXiv预印本平台发布,标志着人工智能在三维场景理解领域取得了一次“顿悟式”的飞跃。该系统仅凭一张静态图像,就能像经验丰富的机械工程师一样,精准解析物体的内部构造与动态运动机制。 设想这样一个场景:当你看到一张办公椅的照片

热心网友
05.14
AI视觉模型与人类婴儿在找球游戏中表现差异显著
AI
AI视觉模型与人类婴儿在找球游戏中表现差异显著

还记得小时候玩过的“找球游戏”吗?把一个小球扣在三个杯子中的一个下面,快速移动后让你猜球在哪里。这个对人类甚至一些动物都轻而易举的游戏,最近却让一群顶尖的AI模型栽了大跟头。 新加坡国立大学的研究团队在2026年3月发布了一项研究,直指当前最先进视觉语言模型的一个核心软肋:它们几乎无法像人类一样,可

热心网友
05.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

领克GT概念跑车北京车展首发 百公里加速仅2秒
科技数码
领克GT概念跑车北京车展首发 百公里加速仅2秒

领克首款GT概念跑车亮相北京车展,由中欧团队联合打造。新车采用经典GT比例与低趴宽体设计,配备液态金属蓝涂装与2+2座舱,设有高性能模式按键可激活空气动力学套件。车辆采用后驱布局与AI智能运动控制系统,百公里加速约2秒,设计融合瑞典极简美学并参考全球用户反馈。

热心网友
05.14
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升
科技数码
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升

英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。

热心网友
05.14
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售
科技数码
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售

微星将于5月15日推出两款26 5英寸雾面WOLED显示器MAG276QRY28和276QRDY54,售价分别为2499元和6299元。均采用第四代WOLED面板,具备QHD分辨率、VESADisplayHDRTrueBlack500认证、1500尼特峰值亮度及99 5%DCI-P3色域覆盖。276QRY28刷新率为280Hz,高阶款276QRDY54支持4

热心网友
05.14
中芯国际一季度净利润13.61亿元 同比增长0.4%
科技数码
中芯国际一季度净利润13.61亿元 同比增长0.4%

中芯国际2026年第一季度营收176 17亿元,同比增长8 1%;净利润13 61亿元,同比增长0 4%。公司预计第二季度收入环比增长14%至16%,毛利率指引上调至20%至22%。这反映出公司在行业复苏中展现出财务韧性,并通过运营优化增强了短期增长势头。

热心网友
05.14
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升
AI
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升

手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭

热心网友
05.14