百度与新加坡国立大学推出ONE-SHOT技术实现虚拟人真实场景表演

首页

热心网友

转载

2026-05-15

当电影特效和虚拟现实技术日益融入我们的生活，一项来自新加坡国立大学与百度的联合研究，正在悄然重塑视频内容创作的边界。这项于2026年4月发表在arXiv预印本平台（编号：arXiv:2604.01043v1）的研究，提出了名为“ONE-SHOT”的创新框架。它的核心目标，是让计算机具备“导演”般的洞察力，能够将真人的动作、表情与环境背景无缝融合，生成高度逼真的动态视频。

新加坡国立大学与百度联手开发ONE-SHOT：让虚拟人物在真实环境中表演成为可能

要理解这项技术的突破性，可以把它看作一种全新的“数字合成术”。传统的视频生成，往往像在搭建一个精密但繁琐的模型——每个部件都需要单独预制，再小心翼翼地拼装组合。而ONE-SHOT的思路则截然不同，它更像一位技艺高超的主厨，能够同时处理多种食材，在保留各自风味的基础上，烹制出一道和谐统一的佳肴。

研究团队要攻克的核心难题，形象地说，好比让一位京剧演员在欧洲古堡中打太极，同时还要确保其服饰、动作与周遭的石墙、光影浑然一体。传统方法为此需要海量的前期数据准备与复杂的3D重建，过程如同为做一道菜而先建造一座厨房，效率低下且极易扼杀创造性。过度依赖预处理，往往会让整个系统变得僵化，失去灵活应变的能力。

ONE-SHOT的巧妙之处，在于它采取了一种“分而治之，协同作战”的策略。这就像一位卓越的乐团指挥，能让小提琴、大提琴与铜管声部各司其职又完美共鸣。该系统将视频生成的三大要素——人物动作、环境背景与摄像机运动——进行解耦处理，再通过精妙的机制将它们重新组合。

三大技术突破：构建智能“导演”的核心能力

研究的创新性，具体体现在三个关键的技术突破上。

首先是“标准空间动作注入”机制。这相当于为虚拟演员提供了一个通用的“排练舞台”。无论最终要在何种复杂环境中表演，演员都可以先在这个标准化舞台上演练动作。随后，系统能将这些动作精准地“移植”到目标场景中，有效避免了传统方法中常见的动作与环境不匹配的“违和感”。

其次是“动态基础旋转位置编码”技术。这个听起来复杂的名词，实际功能类似于一个智能的“空间翻译官”。当标准舞台上的动作需要映射到真实环境时，它能动态调整空间坐标的对应关系，确保每个转身、每次跳跃在新场景中都显得自然合理，解决了视角与位置同步的难题。

第三个突破是“混合上下文集成”机制。可以理解为给系统配备了两套记忆系统：一套是专注于记录演员面部特征、外貌细节的“短期记忆”；另一套是负责追踪整个视频序列中环境与人物状态演变的“长期记忆”。双管齐下，确保了即便是长达数分钟的视频，其前后内容也能保持高度一致性。

技术实现：站在巨人肩膀上的高效创新

在工程实现上，ONE-SHOT采用了一种高效的“学徒式”训练路径。研究团队并未从零开始构建模型，而是以成熟的Wan2.1视频生成模型为基础进行改进与增强。这好比一位老师傅带领已有功底的徒弟，只需传授几门关键的新绝技，而非从头教授基本功，从而在极大提升开发效率的同时，继承了原有模型强大的内容生成能力。

该系统的工作流程，可以类比为执导一部微型舞台剧。首先，作为“导演”的系统会根据“剧本”（即文本提示）来选择和搭建“舞台”（三维场景）。接着，“演员”（虚拟人物）会按照编排好的“动作序列”进行表演。其强大之处在于，它能轻松实现“一人多景”或“多人同景”的灵活编排，极大地拓展了创作自由度。

为了训练出这位全能“导演”，研究团队投喂了多元化的数据“营养餐”。这包括包含动态摄像机运动的EMDB2数据集、专注于人体动作的MotionX子集、提供丰富3D环境信息的ARKitScenes数据集，以及从公开网络收集的视频资源。这种跨领域、多模态的训练方式，赋予了系统强大的泛化能力与创造性。

实验验证：性能与效果的全面领先

为了检验成果，团队进行了两类核心测试。一类是“还原测试”，要求系统根据给定条件复现现有视频，考验其控制的精确性；另一类是“创意组合测试”，要求系统将从未同时出现的人物、动作和环境进行新颖合成，评估其创造与泛化能力。

实验结果颇具说服力。在衡量视觉质量的关键指标上，ONE-SHOT取得了FID分数16.88和FVD分数181.17的成绩，显著优于其他主流方法。更重要的是，在动作流畅度、背景一致性、人物身份保持等多个维度的综合评估中，ONE-SHOT都展现出了更优的平衡性。它不像某些“偏科”的模型，而是在各项能力上都达到了高水准。

特别值得称道的是，ONE-SHOT还保留了强大的文本驱动编辑能力。用户通过简单的文字指令，就能对视频元素进行创意替换，例如将普通人变为卡通角色“哆啦A梦”，或将一只狗替换成发光的小龙。这证明其在增强控制力的同时，并未牺牲原始模型天马行空的想象力。

面对长视频生成的行业难题，ONE-SHOT也交出了不错的答卷。凭借其混合记忆机制，它能够生成长达数分钟且内容连贯的视频，突破了传统方法多局限于十几秒的瓶颈，让生成一个完整叙事片段成为可能。

此外，通过一系列的“消融实验”，研究团队逐一验证了每个核心技术组件的必要性。当移除了动态位置编码功能后，生乘人物的动作会出现明显的偏移和失调；当关闭面部参考信息时，人物在长视频中的身份特征便难以维持。这些实验有力地证明了，框架中的每一个设计都不可或缺。

应用前景与理性思考

跳出技术本身，ONE-SHOT的潜在应用场景十分广阔。在电商领域，商家可以低成本地让同一件商品由不同“模特”在多样化的虚拟场景中展示；在教育领域，历史人物得以在对应的历史环境中“复活”，进行生动讲解；对于内容创作者而言，它则是一个能够快速将创意可视化的强大工具，大幅降低专业视频制作的门槛。

当然，这项技术目前仍存在一些局限。其生成效果在很大程度上依赖于输入的三维场景数据的质量。在少数极端复杂的空间定位情况下，也可能出现人物位置不够精准的问题。对于超长视频，细微的时间维度上的漂移现象仍有待进一步优化。

研究团队在论文中也以审慎的态度探讨了技术可能带来的社会影响。毫无疑问，如此强大的视频生成能力是一把双刃剑，既能为艺术创作和内容生产赋能，也可能被用于制造误导性信息。因此，推动技术的负责任使用，并在部署中充分考虑隐私、公平与伦理问题，是整个行业必须面对的课题。

纵观技术发展脉络，ONE-SHOT代表了视频生成领域一个清晰的演进方向：在追求更高控制精度与定制化能力的同时，竭力保持并激发AI系统的内在创造性。找到控制与自由之间的那个平衡点，正是AI技术走向深度实用化的关键。

简而言之，ONE-SHOT为我们提供了一支更为智能的“视觉画笔”。它让精准操控数字内容成为可能，同时也为创意表达开辟了新的空间。尽管前路仍有挑战，但这项研究已经清晰地揭示了，人工智能在重塑视觉内容创作领域的巨大潜力与无限可能。

Q&A

Q1：ONE-SHOT技术是什么？

A：ONE-SHOT是由新加坡国立大学与百度联合研发的一种先进视频生成框架。它能够智能地整合真人动作、环境背景和摄像机运动，生成逼真的动态视频，其核心目标是让虚拟人物能在任何指定场景中进行自然表演。

Q2：ONE-SHOT比现有技术有什么优势？

A：其主要优势在于“三位一体”的平衡：大幅减少了对复杂3D数据预处理的依赖，保持了模型原有的创意生成能力，并能支持生成长时间、高一致性的连贯视频。就像一个既能严格执行分镜要求，又懂得即兴发挥的智能导演。

Q3：普通人能使用ONE-SHOT技术吗？

A：目前该技术仍处于学术研究阶段，尚未开放给公众直接使用。但可以预见，其核心思想与未来成熟的技术版本，很可能被集成到专业的视频制作软件或云服务平台中，最终赋能给内容创作者、教育工作者及商业用户，降低高质量视频制作的技术门槛。

来源:https://www.techwalker.com/2026/0415/3184050.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：AI语音视觉模型研究揭示不听话行为的重要性下一篇：中芯国际业绩解读 AI芯片需求强劲三季度起涨价效应显著