当前位置: 首页 > 科技 > 文章内容页

B站AI原声翻译上线:UP主视频可自动生成英语配音

时间:2025-08-08    作者:游乐小编    

8月4日,B站Index团队发布技术博文,正式推出基于自研IndexTTS2模型的"原声风格"视频配音功能。这项创新技术能够将中文视频内容翻译为外语,同时保留原说话人的声音特质。

B站IndexTTS2功能介绍

据团队介绍,这项技术突破了传统AI配音的局限。通过IndexTTS2模型,视频人物不再是千篇一律的机械声线,而是能够以接近原声的方式说外语。无论是声音特质、语气节奏,还是个人风格表达,都与原片保持高度一致,让观众产生"这个人真的在说外语"的错觉。

IndexTTS2模型架构

IndexTTS2模型架构示意图

该模型的核心创新在于提出了适用于自回归(AR)系统的"时间编码"机制。这项技术首次解决了传统AR模型难以精确控制语音时长的问题,在保持AR架构自然韵律、风格迁移等优势的同时,实现了精准的语音时长控制。

技术效果展示

技术团队还整合了多项创新:

  • 音色克隆技术保持原声特质
  • 声场一致性处理确保听觉体验
  • 多声源融合技术提升自然度
  • 针对多说话人场景优化分割算法
  • 引入RIVAL对抗式强化学习框架提升翻译质量
  • 结合Diffusion模型实现高保真唇形同步

B站表示,这项技术将逐步支持更多语种,并计划未来开源模型,推动全球范围内的多语言内容传播。

延伸阅读: 《B站海外版上线AI原声翻译功能:集成画面/音频双重翻译能力》

参考文献: [2506.21619] IndexTTS2: 情感表达与时长控制的自回归零样本语音合成突破 [2506.05070] RIVAL: 基于迭代对抗优化的机器翻译强化学习框架

热门推荐

更多

热门文章

更多

首页  返回顶部

本站所有软件都由网友上传,如有侵犯您的版权,请发邮件youleyoucom@outlook.com