具体来说,你只需输入一句话的创意需求,Pa vo就会自动处理所有流程,涵盖旁白生成、角色设计、音画同步等环节,省去了手动对轨、调音或切换工具的繁琐操作。

输入创意,启动AI Agent全流程
打开Pa vo官网(https://app.pa vo-ai.work/),登录后点击「新建项目」→ 选择「短剧/视频」模式 → 在中央输入框中输入你的完整创意描述。比如这样:“地铁站里,穿西装的年轻人盯着手机发呆,突然弹出一条‘你已被AI录取’通知,他抬头微笑,背景灯光随情绪变暖,BGM从冷色调钢琴渐变为轻快弦乐”。
注意,这一步不能只写画面。关键点在于,描述里必须包含人物动作、情绪变化和声音线索(比如BGM的转折、通知提示音),否则Agent无法触发音画联动的底层逻辑。
点击“生成”后,Pa vo会自动运行Harness调度系统,5–12秒内输出一张结构化需求卡片:包含标题、时长预估、画幅比例、分镜数量、风格标签和音效关键词,一目了然。
确认分镜与音效锚点
进入分镜编辑页,你会看到系统已经把原始文案拆解为3–7个镜头,每个镜头下方明确标注了音效类型和节奏锚点。例如:
镜头2:“手机震动+消息提示音(短促电子音)→ 持续0.8秒 → 钢琴单音切入”;
镜头4:“BGM升调转折点 → 同步灯光变暖 → 角色瞳孔反光增强”。
这些锚点是音画同步的底层依据,不可删除或拖动错位,否则会导致语音与画面脱节。如果觉得某处节奏不自然,唯一的办法是通过“重写该镜头描述”来调整,而不是手动拖拽时间轴。
确认无误后,点击右上角「锁定分镜」,系统会冻结所有音画绑定关系,进入批量合成阶段。
批量生成并合成音画一体视频
方法一:全自动合成(推荐新手)
点击「开始生成」→ 系统自动并行处理:Agnes-Image-2.1-Flash生成每帧画面 → Agnes-Video-2.0驱动动态运镜 → Agnes-2.0-Flash实时生成旁白文本并驱动TTS语音 → 背景音乐与环境音由音效引擎按锚点注入 → 最终封装为MP4。
整个过程约90–180秒,生成结果直接带完整音轨,没有静音片段、没有口型偏差、没有BGM突兀切入的情况。
方法二:分段精修后合成(适合有修改需求)
在分镜列表中勾选需要重做的镜头 → 点击「重生成」→ 输入更具体的画面指令(比如“主角嘴角上扬幅度加大,增加0.3秒停顿”)→ 等待单镜完成 → 返回总览页点击「合成剩余镜头」→ 系统自动补全缺失音轨并做跨镜声场平滑处理。
需要留神的是:重生成镜头后,原锚点会自动迁移至新视频起始帧,但环境音持续时间可能微调,必须检查衔接处是否出现空白或重叠。
