苹果联合人大发布VSSFlow模型:无声视频AI生成音效与配音
2月10日消息,科技媒体9to5Mac近日发布文章,透露苹果公司已联合中国人大团队,成功推出了名为VSSFlow的新型AI模型。这项技术突破了传统音频生成的局限,能够在单一框架下,从无声视频中同时合成出逼真的环境音效与清晰的人声语音。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
该模型的核心在于其“化静为动”的能力,可对无声视频数据进行端到端处理。基于统一的架构,系统能同步生成与画面高度契合的环境声场,同时输出精准自然的语音对白。这一成果不仅解决了过往音频模型功能单一的问题,其生成质量更是达到了业界领先水平。

根据博文介绍,在VSSFlow问世之前,业内模型往往存在明显的功能偏向:专攻视频转语音的模型难以输出清晰人声,而基于文本的语音合成模型又无法有效处理复杂的环境噪音。
传统的解决方案通常需要将两项任务分阶段进行训练,这不仅增加了系统复杂度,还常因任务冲突而导致性能下降。VSSFlow则另辟蹊径,采用了10层的架构设计,并引入“流匹配”技术,让模型能够自主学习如何从随机噪声中,精准重构出目标语音信号。

研究团队在训练过程中发现了一个惊喜的现象:联合训练不仅没有引发任务干扰,反而产生了“互助效应”。具体来说,语音数据的训练提升了音效生成的质量,而音效数据的加入也优化了语音的最终表现。
为了实现这一效果,团队向模型输入了混合数据,其中包含带有环境音的视频、配有字幕的讲话视频,以及纯文本转语音数据。通过利用合成样本微调模型,使其学会了如何同时输出背景音与人声。
在实际运行中,VSSFlow以每秒10帧的频率从视频中提取视觉线索,从而塑造出匹配的环境音效,同时依据文本脚本精准引导语音生成。

测试数据显示,该模型在多项关键指标上均优于那些专为单一任务设计的竞品模型。目前,研究团队已在GitHub上开源了VSSFlow的相关代码,并正在推进模型权重公开以及在线推理演示的开发工作。
相关攻略
3月30日,千问宣布上线Qwen3 5-Omni。Qwen3 5-Omni系列包含Plus、Flash、Light三种尺寸的Instruct版本,支持256k长上下文,模型支持超过10小时的音频输
IT之家 3 月 16 日消息,追觅现已在京东上架一款 Dreame 智能中控屏 S6,该机配备一块 6 英寸面板,主打智能语音交互功能,定价为 2799 元。该中控配备一块 6 英寸 AF 防指纹
IT之家 3 月 13 日消息,科技媒体 Android Authority 今天发布博文,报道称在安卓 17 Beta 2 更新中,谷歌已启用更严格的高级保护模式,直接拦截非最新无障碍工具类应用调
3月13日消息,微信日前官宣三大新功能,其中语音 视频通话忽略功能,因能让用户体面回避不想接的来电、且对方不会收到拒接提示,被网友直呼“社恐福音”。该功能与跨语言沟通、通话防误触功能一同开启灰度放量
IT之家 3 月 10 日消息,AI 理想同学的最新账号今日宣布,理想 AI 眼镜 Livis 再进化,带来了佩戴检测 + 一气呵成两大开关、连续语音抓拍等功能。IT之家附理想 AI 眼镜 Livi
热门专题
热门推荐
“我们的代码,终将写入繁星”:追觅科技成立天文BU,构建从地面到太空的生态闭环 “我们的代码,终将写入繁星。”这句来自追觅科技的宣言,不只是一句诗意的口号,更是一份清晰的战略升级路线图。就在9月10日,这家中国科技企业正式宣告成立天文业务单元(BU),由此完成了一次至关重要的战略跃迁。这标志着其“全
Just Learn是什么 提起用AI为教育赋能,Just Learn这款工具是个绕不开的名字。它由Just Learn公司开发,核心目标非常明确:一手帮教师扩展专业能力,一手为学生打造个性化的学习旅程。说到底,它的价值在于通过AI驱动学习和24 7全天候辅导这两大核心,把教育资源重新“盘活”,让老
Vue 渲染机制深度解析:Patch 函数核心逻辑与优化策略 Vue js 的响应式系统实现了数据驱动视图的核心理念。然而,当数据发生变化时,视图是如何被高效且准确地更新的呢?这背后的核心引擎,正是虚拟 DOM 体系中的 Patch 函数。它并非直接操作真实 DOM,而是通过深度比对新旧虚拟节点(V
《空之轨迹SC》完全重制版《空之轨迹 the 2nd》正式定档2026年9月17日,登陆多平台 日本Falcom官方正式公布,经典日式角色扮演游戏《空之轨迹SC》的完全重制版——《空之轨迹 the 2nd》,将于2026年9月17日全球同步发售。本作将登陆任天堂Switch 2、Switch、Pla
AI艺术提示生成器是什么 简单来说,你可以把它理解为一个永不枯竭的创意火花塞。这个基于前沿AI技术的工具,专为破解创作瓶颈而生,无论你是专业画师还是灵感偶尔“罢工”的爱好者,它都能派上用场。它的工作原理并不复杂:依托当前顶级的OpenAI模型,将你的初步想法“催化”成一系列具体、新颖且富有启发性的艺





