首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
港科大联手快手:AI全能视频模型实现生成识别控制一体化

港科大联手快手:AI全能视频模型实现生成识别控制一体化

热心网友
67
转载
2026-01-06


这项由香港科技大学的黄介辉、清华大学的贺旭、以及快手公司Kling团队的袁高、岑志、夏斌、周彦、陶鑫、万鹏飞等研究者合作完成的研究发表于2025年12月的arXiv预印本平台,论文编号为arXiv:2512.07831v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

以往的视频生成AI就像专业厨师,每个人只精通一道菜。有的只会"看图说话"生成视频,有的只会从视频中识别物体和动作,还有的只能按照特定要求控制视频效果。但现实世界是复杂多样的,就像一顿完整的大餐需要各种技能的配合。当AI只擅长单一技能时,它对世界的理解就像只见过厨房一角的学徒,无法真正掌握烹饪的精髓。

研究团队意识到,如果能训练出一个"全能大厨",让AI同时掌握视频生成、物体识别、动作捕捉、深度估计等多种技能,它就能像真正理解世界运作规律的专家一样,生成出更符合物理规律、更具真实感的视频内容。这就是UnityVideo项目的核心理念——通过统一训练让AI成为视频领域的"全才"。

这个想法听起来美好,但实现起来却像同时学会十八般武艺一样困难。不同的视频任务就像不同的语言,有着各自的"语法"和"词汇"。深度信息告诉AI物体的远近关系,光流信息展示物体的运动轨迹,人体姿态信息描述身体各部位的位置,分割信息标识不同物体的边界。如何让AI理解这些不同"语言"之间的联系,并且在学习过程中相互促进而不是相互干扰,成了最大的挑战。

研究团队的解决方案就像设计了一套巧妙的"翻译系统"。他们创建了一个名为UnityVideo的框架,这个框架就像一个超级聪明的学生,能够同时学习多种技能,并且让这些技能彼此增强。当它学习如何生成视频时,对物体运动的理解会帮助它生成更流畅的画面。当它学习识别物体时,对深度关系的掌握会让它的判断更准确。

为了实现这个目标,研究团队设计了三个核心组件。第一个是"动态噪声调度器",就像一个智能的训练教练,会根据学习进度动态调整训练重点。有时让AI专注于生成训练,有时转向识别训练,有时进行综合训练,确保各项技能均衡发展。第二个是"模态自适应开关器",就像给AI配备了多副"眼镜",每副眼镜专门用来处理特定类型的信息,比如深度信息、运动信息或姿态信息。第三个是"上下文学习器",让AI能够理解不同信息类型的含义,就像学会了识别不同工具的用途。

在数据准备方面,研究团队构建了一个名为OpenUni的大型数据集,包含130万个多模态视频样本。这就像为AI准备了一个丰富的"教材库",涵盖了各种场景、动作和物体,让AI能够接触到足够多样化的训练素材。他们还创建了UniBench基准测试集,包含3万个合成视频样本,用来评估AI的学习效果。

训练过程采用了渐进式策略,就像教孩子学习一样,先从简单的内容开始。第一阶段专注于训练AI理解人体相关的各种信息,比如姿态、动作和深度关系。第二阶段则扩展到更广泛的场景,包括多人场景和一般物体的处理。这种循序渐进的方法避免了"消化不良"的问题,让AI能够稳步提升各项能力。

实验结果表明,UnityVideo在多个任务上都表现出色。在视频质量评估中,它生成的视频在背景一致性、美学质量、整体一致性和动态程度等指标上都达到了优秀水平。特别值得一提的是,相比单独训练的模型,统一训练的UnityVideo展现出了明显的性能提升,就像一个全面发展的学生比只擅长单科的学生更有潜力。

在深度估计任务中,UnityVideo的表现也令人印象深刻。它能够准确估计视频中物体的距离关系,生成的深度图像细节丰富、边缘清晰。在视频分割任务中,它能够准确识别和分离不同的物体,即使是复杂场景下的多个人物也能精确区分。

更令人惊喜的是,UnityVideo表现出了强大的泛化能力。尽管主要在人体数据上训练,它却能够成功处理动物动作捕捉、一般物体的深度估计等超出训练范围的任务。这就像一个学会了基本绘画技巧的艺术家,能够举一反三地创作出训练时从未见过的题材。

从技术实现角度来看,UnityVideo基于扩散变换器架构构建,使用了10亿个参数的大型模型。训练分为两个阶段:第一阶段使用50万个以人体为主的视频片段训练1.6万步,第二阶段扩展到130万个多样化视频片段训练4万步。整个训练过程采用了批量大小为32的设置,学习率为5×10^-5。在推理阶段,使用50步DDIM采样,CFG比例设置为7.5。

研究团队还进行了详细的消融实验,验证了各个组件的重要性。实验结果显示,多模态联合训练相比单模态训练能够在所有指标上带来显著提升。特别是在图像质量和整体一致性方面,提升幅度达到了4分以上。多任务训练同样展现出了明显优势,相比单任务训练在时间一致性和运动平滑度方面都有所改善。

架构设计方面的实验证实了上下文学习器和模态自适应开关器的有效性。当两个组件都启用时,模型在所有评估指标上都达到了最佳表现,证明了这种设计的合理性和必要性。

在与现有方法的比较中,UnityVideo在多个维度上都展现出了竞争优势。与商业模型Kling1.6相比,它在动态程度和整体一致性方面表现更佳。与开源模型如OpenSora、Hunyuan-13B等相比,它在美学质量和视频质量方面都有明显优势。在可控生成任务中,相比VACE和Full-DiT等专门方法,UnityVideo在背景一致性和动态程度上都表现出色。

用户研究进一步证实了UnityVideo的优势。在包含70个完整回答的评估中,UnityVideo在物理质量、语义质量和整体偏好等人工评估指标上都获得了最高分,同时在自动评估指标上也表现最佳。这表明该方法不仅在技术指标上领先,在实际用户体验上也更受欢迎。

值得特别关注的是UnityVideo在物理世界理解方面的表现。研究团队设计了多个涉及光学原理的测试场景,比如通过玻璃杯观察液体时的光线折射效果。UnityVideo能够准确模拟这些物理现象,生成的视频中光线折射、液体流动等细节都符合物理规律,而其他模型往往在这些细节上出现错误。

这种对物理世界的深度理解源于多模态联合训练的优势。深度信息帮助AI理解空间关系,光流信息让它掌握运动规律,分割信息教会它区分不同物体,姿态信息让它理解人体结构。当这些信息融合在一起时,AI就像拥有了全方位的"感官",能够更准确地理解和模拟真实世界。

训练效率方面,统一训练相比分别训练各个模型具有明显优势。从训练曲线可以看出,多模态联合训练能够更快收敛到更低的损失值,这意味着相同的计算资源能够获得更好的模型性能。这种效率提升对于大规模模型训练具有重要意义。

模型的可扩展性也得到了验证。当训练数据从三种模态扩展到五种模态时,UnityVideo在所有评估指标上都展现出持续改善,没有出现性能饱和或下降的现象。这表明该框架具有良好的扩展潜力,未来可以继续整合更多类型的视觉信息。

在实际应用方面,UnityVideo展现出了丰富的可能性。它可以用于电影特效制作,生成高质量的背景视频或特殊效果。在教育领域,它能够创建生动的教学视频,帮助学生理解复杂概念。在虚拟现实和游戏开发中,它可以快速生成逼真的环境和角色动画。对于内容创作者来说,它提供了一个强大的视频生成工具,大大降低了视频制作的门槛。

当然,这项技术也面临一些局限性。当前的视频自编码器偶尔会引入重建伪影,影响最终视频质量。这个问题可能需要通过改进自编码器架构或进行专门的微调来解决。此外,随着模态数量的增加,计算复杂度也会相应提升,这对硬件资源提出了更高要求。

另一个需要注意的问题是模态混淆。当处理大量不同类型的信息时,模型偶尔可能会产生错误的输出,比如在要求生成分割掩码时输出人体骨架信息。研究团队通过引入模态特定的输出层在一定程度上缓解了这个问题,但随着模态数量进一步增加,这个挑战可能会变得更加突出。

未来的发展方向包括扩展到更大的模型规模和整合更多视觉模态。研究团队认为,随着计算能力的提升和训练数据的丰富,UnityVideo有潜力发展成为真正理解物理世界的通用视觉模型。这样的模型不仅能够生成逼真的视频内容,还能够进行复杂的场景理解和预测,为人工智能在现实世界的应用奠定重要基础。

从技术创新角度来看,UnityVideo的成功证明了多模态联合训练的巨大潜力。这种方法打破了传统AI模型各自为政的局面,通过统一的框架实现了真正的协同发展。这一思路不仅适用于视频生成领域,也为其他AI应用提供了有价值的参考。

说到底,UnityVideo就像是AI视频领域的一场革命。它证明了"术业有专攻"的传统思维在AI时代需要更新换代。当我们让AI同时掌握多种技能时,这些技能之间产生的化学反应远比简单的相加更加强大。这不仅仅是技术上的突破,更代表了我们对AI能力边界认知的重大转变。对于普通人来说,这意味着未来我们可能拥有更智能、更便捷的视频创作工具,让每个人都能轻松制作出专业级的视频内容。而对于整个AI行业来说,UnityVideo开创的统一训练范式可能会激发更多跨领域的技术创新,推动人工智能向着更加通用、更加智能的方向发展。

Q&A

Q1:UnityVideo与传统的AI视频生成模型有什么不同?

A:传统AI视频模型就像专业厨师,每个只会做一道菜,比如有的只能根据文字生成视频,有的只能识别视频中的物体。而UnityVideo是个"全能大厨",它能同时掌握视频生成、物体识别、深度估计、动作捕捉等多种技能。更重要的是,这些技能在训练过程中相互促进,让AI对真实世界的理解更加深入,生成的视频也更符合物理规律。

Q2:普通人可以用UnityVideo来做什么?

A:UnityVideo为普通用户提供了强大的视频创作可能性。你可以用它根据文字描述生成高质量视频,也可以通过提供深度图、人体姿态等条件来精确控制视频效果。比如拍摄教学视频时,它能帮你生成特定动作的演示画面;制作短视频时,它能根据你的创意快速生成各种场景。最关键的是,它生成的视频在物理真实性方面表现出色,光线折射、物体运动等细节都很逼真。

Q3:UnityVideo是如何实现多技能协同训练的?

A:UnityVideo的核心在于三个巧妙设计:动态噪声调度器像智能教练,会根据学习进度灵活调整训练重点;模态自适应开关器给AI配备了多副"专业眼镜",每副专门处理特定信息类型;上下文学习器让AI理解不同信息的含义。训练时采用渐进式策略,先学简单的人体相关技能,再扩展到复杂场景,避免了"消化不良"。这种设计让AI的各项技能在学习过程中相互增强而不是相互干扰。

来源:https://www.163.com/dy/article/KIHR3DOG0511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

谷歌最强开源模型仅2B手机可跑免费商用
AI资讯
谷歌最强开源模型仅2B手机可跑免费商用

谷歌DeepMind今天扔下了一颗重磅冲击波:正式开源发布Gemma 4系列模型。根据官方说法,这是谷歌迄今为止最智能的开放模型,专为高级推理和智能体工作流而生。最引人注目的是,它号称实现了“单位参数下前所未有的智能水平”——换句话说,就是用更小的模型体量,干出更聪明的活儿。 先看几个硬核数据:其3

热心网友
05.20
港科大开源StarVLA视觉大模型 模块化架构大幅降低复现成本
AI资讯
港科大开源StarVLA视觉大模型 模块化架构大幅降低复现成本

当前,视觉语言动作模型(VLA)作为具身智能的核心技术路径,正面临严重的“碎片化”挑战。不同团队采用的动作解码范式各异,数据与训练管线深度绑定,评测标准互不统一,导致研究成果难以横向对比,复现成本高昂,这严重阻碍了领域基础模型的迭代与进步。 针对这一行业痛点,开源项目StarVLA并未选择盲目堆砌算

热心网友
05.19
中国AI独角兽推出龙虾养殖智能方案,助力养殖户高效增产
AI资讯
中国AI独角兽推出龙虾养殖智能方案,助力养殖户高效增产

在OpenClaw应用热潮席卷的当下,一个核心的安全隐患正日益凸显:云端隐私数据保护的缺位。想象一下,你刚向模型输入了一段公司的财务数据,下一秒这条敏感信息可能就已经在云端“裸奔”。这种担忧,正驱使着越来越多的用户将目光投向本地终端,期待能“安全养虾”。然而,端侧设备的有限算力,往往难以高效支撑复杂

热心网友
05.19
MiniMax多模态模型MMX-CLI上线:两行代码快速部署调用
AI资讯
MiniMax多模态模型MMX-CLI上线:两行代码快速部署调用

AI领域再添重磅工具。MiniMax稀宇科技正式推出MMX-CLI,一款专为AI Agent设计的命令行工具。它极大地简化了AI助手调用多模态能力的流程,无论是代码编写、图像创作还是视频生成,都能通过简洁指令轻松完成,显著提升开发与自动化效率。 根据官方发布的信息,MMX-CLI的核心优势在于“开箱

热心网友
05.19
机器人舞姿爆红背后:具身智能行业“卡脖子”难题,终于有了新解法
AI资讯
机器人舞姿爆红背后:具身智能行业“卡脖子”难题,终于有了新解法

头图由智象未来AI大模型生成智东西作者 王涵编辑 漠影在演唱会、各大晚会的舞台上,机器人伴舞团以整齐划一、精准卡点的舞姿惊艳全场。这种整齐划一不仅是硬件的胜利,更是“训练有素”的结果。具身智

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

刑事案件电子数据取证密码获取程序拟明确
业界动态
刑事案件电子数据取证密码获取程序拟明确

公安部就电子数据取证规则公开征求意见,拟将网络安全等行政案件纳入适用范围,并规范取证流程与核心概念。新规特别明确了获取密码、调取通讯内容等特殊程序,需经严格审批并保障当事人权利。配套法律文书也同步优化,以构建更规范且注重权利保障的取证体系。

热心网友
05.23
小鹏G9降价12万背后何小鹏的豪赌与挑战
业界动态
小鹏G9降价12万背后何小鹏的豪赌与挑战

理想L9和LIvis的定价策略刚掀起波澜,小鹏GX的最终价格就给出了更猛烈的回应——从近40万元的预售价直降至27万元起。用小鹏产品矩阵负责人吴安飞的话说,这叫“9系的产品,8系的价格”。 这12万元的下调,效果堪称立竿见影。发布会次日,小鹏集团港股股价一度大涨超8%。更关键的是市场订单:上市12小

热心网友
05.23
魏建军感谢于东来支援环塔拉力赛 红牛千箱胖东来厨师助阵
业界动态
魏建军感谢于东来支援环塔拉力赛 红牛千箱胖东来厨师助阵

5月21日,环塔拉力赛新疆且末赛段大营迎来了一位备受瞩目的访客——知名零售企业胖东来的创始人于东来。他专程前往长城汽车车队营地,与参赛车手及后勤团队进行了深度交流。据悉,于东来此次自驾越野之旅已历时一月,随行车队中包含多款国产越野车型。经过实地驾驶与多维度对比,他对以长城汽车为代表的国产越野车品质给

热心网友
05.23
2026年比特币官方APP下载入口及官网安全访问指南
web3.0
2026年比特币官方APP下载入口及官网安全访问指南

比特币官方入口在哪里?一个核心门户的权威指南 说起比特币,很多人第一反应是去找它的“官网”或“官方App”。但这里有个关键点需要先理清:比特币本质上是一种去中心化的全球数字货币,它不属于任何一家公司或机构,而是由一个庞大的、遍布全球的社区共同维护。因此,它并没有传统意义上由某个企业运营的“官方网站”

热心网友
05.23
蚂蚁开源万亿参数思考模型Ring-2.5-1T详解
AI资讯
蚂蚁开源万亿参数思考模型Ring-2.5-1T详解

Ring-2 5-1T是什么 在当今大模型技术激烈竞争的赛道上,追求更长的上下文处理能力和更强大的深度推理性能已成为核心焦点。近日,蚂蚁集团旗下的inclusionAI团队重磅开源了Ring-2 5-1T模型,这是一个参数规模高达万亿级别的混合线性思考大语言模型。该模型基于先进的Ling 2 5架构

热心网友
05.23