只用一分钟的语音素材,就能让AI模仿出你的声音,然后一键翻唱任何歌曲——这听起来是不是有点不可思议?但这就是正在发生的现实。
上周分享的“小和尚语录”制作教程,让不少朋友对AI声音克隆产生了浓厚兴趣。有人甚至发来了一段AI生成的“大合唱”视频,效果令人惊讶:当AI模拟的“四郎”和“诸葛亮”在线对唱时,音色和节奏竟然毫无违和感,趣味十足。这也难怪,AI翻唱在互联网上的热度一直居高不下。
那么,这类视频究竟是怎么做出来的呢?
其实核心就两步:先用AI克隆声音并完成翻唱,再通过工具让图片或视频“对口型”。虽然GitHub上已有成熟的SVC(歌声转换)技术方案,但对普通用户而言,本地部署门槛不低——既要求电脑配置,又需要大量语音素材进行训练,过程颇为繁琐。
今天,我们就来分享两款极其简单的工具。你只需要上传一分钟左右的原声,通过几次点击就能完成所有操作。即便是零基础的新手,也能快速生成属于自己的AI翻唱作品。
如果你的电脑配置一般,完全可以直接使用网页版工具。它们最大的优势在于,云端已经预置了海量训练好的语音模型,直接调用即可,省去了漫长的训练过程,效果却相当出色。最关键的是,它们完全免费。
01 Weights:三步生成翻唱,海量模型即选即用
进入Weights官网(使用浏览器的网页翻译功能会更方便),首页最显眼的位置就是语音模型库。这里提供了大量预训练好的模型,从海绵宝宝、初音未来这样的虚拟角色,到迈克尔·杰克逊、泰勒·斯威夫特等明星大佬,应有尽有,可以直接免费使用。
比如,尝试搜索一位你喜欢的歌手,很可能发现已经有多个相关模型。选择一个排名靠前的,点击右上角的“创建”按钮,即可开始一个新的翻唱任务。
点击下一步后,进入音频上传环节。翻唱的源音频可以通过多种方式提供:直接粘贴YouTube视频链接,或者将本地的歌曲文件拖放到指定区域。
除了歌声翻唱,这个工具还支持文本转语音,甚至可以直接用麦克风实时输入语音进行转换,功能相当全面。
为了获得更干净的效果,建议选择一段单人清唱的音频作为素材。和声或混响可能会影响最终的翻唱质量。上传音频后,继续点击下一步。
在参数设置界面,如果上传的是纯人声干声,可以勾选“预混”选项。音调方面,一般原则是:用男声模型翻唱女声歌曲时可适当调低,反之则调高。初次尝试,使用默认设置即可。
界面下方还有更进阶的微调选项。建议先以默认参数生成,如果效果不满意,再回头进行精细调整。设置完成后,点击右下角的“创建”。
随后,在页面左上角的“我的创作”区域,可以看到任务正在排队处理。通常只需等待几分钟。
当列表中间出现“成功”提示后,就可以试听并下载成果了。
下载界面会提供多个音频文件,包括:翻唱后的人声加伴奏(如有)、翻唱后的纯人声干声、原始音频、原始音频中的干声及伴奏。你可以按需选取。
试听生成的作品,你会发现AI模仿的音色颇具特色,演唱连贯自然,节奏感良好,在转音、重音和高音部分都有不错的表现。
整个过程几分钟就能完成,操作可谓“有手就会”。用同样的方法,尝试周杰伦或邓紫棋的模型进行翻唱,也能得到风格迥异但同样有趣的结果。
得到翻唱音频后,制作视频就简单了。可以将音频按合唱节奏切成小段,每一段配上一张Q版人像图,然后上传到“即梦”这类AI对口型工具中生成视频片段。
需要注意的是,用图片生成对口型视频时,效果一定要选择“生动”模式。否则,如果只动嘴不动头,画面会显得非常僵硬。
最后,用剪映等视频剪辑软件,将所有生成的视频片段组合起来(如果有伴奏也一并加上),一个完整的AI合唱视频就诞生了。
那么,如果想用自己的声音,或者创建一个全新的语音模型来翻唱,又该如何操作呢?
02 Replay:一键分离人声,训练专属语音模型
我们以创建一个“懒羊羊”的声音模型为例。首先,需要访问Replay官网,下载并安装最新版的软件。
安装后首次打开软件,会弹出两个提示框。先别急着点确定,而是应该立刻前往左上角的“App - Show Settings”,修改文件的默认保存位置。
第一个路径是导出音频的位置,第二个则用于存放应用程序数据,包括语音模型和生成的所有音频。总之,尽量不要放在C盘,以免占用系统空间。
准备工作完成后,开始制作模型。可以从B站等平台找一段懒羊羊唱歌的视频,用剪映简单处理,只保留其声音清晰的片段,并导出为MP3或WA V格式。然后将这个音频文件上传到软件指定位置。
在分离选项中选择“仅干声”。
“渲染设备”这里,如果电脑有独立显卡(NVIDIA),选择CUDA会更快;如果没有,则选择CPU。其他设置保持默认,点击“生成”。
处理完成后,分离出的干声和伴奏会出现在左侧列表。单击即可分别试听和下载。
接下来,将下载好的纯净干声文件,上传到软件中“训练模型”的板块。这里可以上传多个音频文件,覆盖的声线越全面(比如包含说话、唱歌、不同情绪的声音),最终训练出的模型翻唱效果就越理想。一个经验是:如果训练素材中缺乏高音样本,模型在翻唱高音部分时容易失真甚至破音。
下方的设置,除了根据电脑情况选择渲染设备(CUDA或CPU),其他均可保持默认。然后点击“创建模型”。这个过程比较耗时,可能需要几个小时,请耐心等待。
训练完成后,模型会显示在相应的列表中。
现在,就可以用这个新鲜的“懒羊羊”模型来翻唱了。上传你想翻唱的歌曲,在模型选择处点击你刚训练好的模型。
下方的参数设置与在线翻唱时类似,可以适当调整人声和乐器的音高以匹配。保持默认设置通常也能得到不错的效果,点击“生成”。
不到一分钟,翻唱就完成了。分别保存翻唱后的干声和伴奏文件即可。
此外,Replay还有一个便利功能:你可以将从Weights下载的语音模型(解压后),放入软件设置中第二个路径下的“models”文件夹里。这样,这些丰富的云端模型就能在Replay中直接调用,极大地扩展了你的声音库。
制作合唱视频的思路也很清晰:用同一段伴奏,分别使用不同的语音模型生成各声部的翻唱干声,最后在剪映中将这些干声与伴奏合成,并配上对应的视频画面即可。
总的来说,仅用一分钟的语音素材就能达到相当不错的翻唱效果,体验下来,除了训练自定义模型需要一些时间(这更多是硬件限制),整体流程非常顺畅。尤其是人声分离功能,在许多平台都需要开通会员,而Replay和Weights都提供了免费且不限次数的使用,效果还相当出色。
最后提几个实用小贴士:如果原唱音乐带有复杂的和声或混响,可能会影响AI翻唱效果。对于合唱类歌曲,更稳妥的做法是分别用单人模型翻唱各声部,再到剪辑软件中合成。用自己的声音训练模型后,就能让AI轻松驾驭各种热门歌曲,无论是喊麦、说唱还是流行音乐,再也不用担心跑调。那些好听却难唱的歌曲,终于可以用另一种方式“学会”了。
虽然目前的AI翻唱还无法100%复刻原唱的嗓音和唱功,但模仿出七八分音色已不在话下。想象一下,让“赛博偶像”每天为你唱歌,是不是有点未来已来的感觉?
