时间:2025-08-08 作者:游乐小编
8月4日,B站Index团队发布技术博文,正式推出基于自研IndexTTS2模型的"原声风格"视频配音功能。这项创新技术能够将中文视频内容翻译为外语,同时保留原说话人的声音特质。
据团队介绍,这项技术突破了传统AI配音的局限。通过IndexTTS2模型,视频人物不再是千篇一律的机械声线,而是能够以接近原声的方式说外语。无论是声音特质、语气节奏,还是个人风格表达,都与原片保持高度一致,让观众产生"这个人真的在说外语"的错觉。
该模型的核心创新在于提出了适用于自回归(AR)系统的"时间编码"机制。这项技术首次解决了传统AR模型难以精确控制语音时长的问题,在保持AR架构自然韵律、风格迁移等优势的同时,实现了精准的语音时长控制。
技术团队还整合了多项创新:
B站表示,这项技术将逐步支持更多语种,并计划未来开源模型,推动全球范围内的多语言内容传播。
延伸阅读: 《B站海外版上线AI原声翻译功能:集成画面/音频双重翻译能力》
参考文献: [2506.21619] IndexTTS2: 情感表达与时长控制的自回归零样本语音合成突破 [2506.05070] RIVAL: 基于迭代对抗优化的机器翻译强化学习框架
2021-11-05 11:52
手游攻略2021-11-19 18:38
手游攻略2021-10-31 23:18
手游攻略2022-06-03 14:46
游戏资讯2025-06-28 12:37
单机攻略