可灵AI自2025年6月起,正式将“视频音效”生成能力整合到产品体系中。这意味着什么?如果你制作的视频只有画面在动、背景却一片死寂——下雨没有雨声,马路没有车流,咖啡馆缺少杯碟碰撞——这种“环境音缺失”的问题,如今终于有了系统化的解决方案。
这套音效功能背后,依托的是Kling-Foley多模态模型。通俗来说:它不只是给画面配上声音,而是能理解画面中发生的事件、物体的位置、运动的节奏,然后生成与之精确对齐的环境音轨。目前支持四种路径:文生音画、视频生音效、图生音画,以及手动参数调节。我们逐一来看。
一、使用文生音画同步生成环境音效
如果你还在创作阶段,尚未生成视频,这条路径最为自然。它让声音和画面从一开始就耦合在一起,而非后期拼凑。
具体操作:打开可灵AI的“视频生成”界面,选择“文生音画”入口。撰写提示词时,务必包含场景要素,例如“雨天城市街道,湿滑柏油路面,远处有模糊车流与近处滴答雨声”。参数设置中记得开启“音画同出”开关,并勾选“环境音效优先”。然后点击生成——输出的视频是完整的,画面、语音(若需要)、动作音效、立体声环境音全部一次性到位。
这种模式的优势在于,声音的空间定位与物体的距离、材质、运动状态精准匹配。例如雨滴落在柏油路与落在铁皮上的声音,系统不会混淆。
二、为已有视频补配环境音效(视频生音效)
这条路径更适合已生成了无声视频,或觉得现有环境音不够用、需要替换的场景。
操作入口在“多模态编辑”模块中,找到“视频生音效”。上传本地视频,或从历史创作库中选择。然后在提示词中补充环境描述,例如“室内咖啡馆,背景人声低语、咖啡机蒸汽声、轻柔爵士乐远距离混响”。点击生成,系统会分析视频帧序列中的光照变化、物体位移、镜头运动等线索,反向构建出匹配的声场。结果是一条带声像定位和动态混响的环境音轨,自动对齐视频时间轴。
整个过程只需几秒钟,无需任何音频专业背景。
三、通过图生音画触发环境音效生成
这个方式以静态图片为起点,模型不但要将其变成动态画面,还需根据图片中的空间构图、材质纹理、光影分布,推断出合理的环境声学特征。
比如你上传一张“雪山顶帐篷,晨光微照,积雪反光,远处有云层流动”的图片。提示词中补充“极寒环境、风声低频持续、帐篷布料轻微抖动声”,然后启用“音效协同生成”开关。生成后的视频会包含双声道立体声音轨,声源方位角与图片中主物体的朝向严格对应——官方数据是声像偏移误差小于±3°。换句话说,如果画面右侧有风吹过帐篷,声音也会从右侧传来,不会穿帮。
四、手动调节音效参数提升真实感
对于要求更高的创作者,自动生成的音效可能还不够“准”。比如你觉得声场太窄,或某个频段听起来不对劲——此时你可以在编辑区手动微调。
选中已生成的环境音轨,点击“高级参数”展开面板。调节“空间宽度”滑块,推荐值在75–88之间,这样能增强声场的横向延展性,但注意不要超过90,否则会导致相位抵消,反而产生失真。频段增益栏中,200–500Hz频段可提升+2.5dB,强化环境厚度;8–12kHz频段衰减-3dB,抑制高频毛刺。最后开启“动态跟随”开关,设定响应阈值为-22dBFS——这样音效能量会随画面运动幅度自动起伏,峰值响应延迟低于42ms,几乎感觉不到延迟。
这几个参数调好之后,整个场景的临场感会明显提升一个档次。
