背景
2026 年,AI 视频生成已成为百炼平台上增长最为迅猛的应用场景之一。然而,一个略显尴尬的现实是:从“注册账号”到真正“产出成片”的用户转化率并不理想。

核心门槛并非技术能力不足,而是一些更现实的问题:
- 模型选择困难(HappyHorse 1.0 还是 1.1?text-to-video 还是 image-to-video?)
- API 调用费用不透明,担心盲目试错成本过高
- 单模型只能产出零散片段,从“5 秒短视频”到“完整作品”的路径几乎缺失
spark-video 正是为破解这些痛点而生:它将百炼 AI 视频领域的最佳实践封装为一个即用型 Skill,帮助用户跳过冗长的学习曲线,直接获得“一句话输入 → 完整 mp4 输出”的一站式体验。
spark-video 在百炼生态中的定位
百炼平台
├── 模型层:HappyHorse 1.1 / Qwen / Qwen-VL / CosyVoice
├── 工具层:百炼 CLI (bl)
└── 应用层:Skills(封装好的工作流)
└── spark-video:AI 视频端到端制作
spark-video 所调用的百炼模型:
| 模型 | 用途 |
|---|---|
| Qwen (text) | 编剧 / 分镜设计 |
| HappyHorse 1.0/1.1 | 视频渲染 |
| Qwen-VL | 画面质量审核(打分) |
| cosyvoice-v3-flash | 旁白配音(TTS) |
这意味着每次使用 spark-video,都会串联文本、视频、视觉、语音等多种模型,是百炼多模态能力的一次集中展现。
用户体验:从零到成片
安装
npm install -g bailian-cli
bl auth login
npx skills add modelstudioai/skills --skill spark-video -g
使用
用 spark-video 做一个30秒产品广告。产品:智能台灯,卖点是护眼 App控制。16:9。
流程(用户视角)
- AI 自动生成剧本 → 确认
- AI 设计分镜,并显示预估费用 → 确认
- AI 开始渲染(自动审核 + 重拍低质镜头)→ 确认
- AI 拼接成片 → 确认,获取 mp4 文件
整个过程,用户仅需“确认 4 次”即可完成。
费用透明
渲染前清晰显示预估成本:
预估:text tokens ~8,000 + video tokens ~35,000
预估费用:约¥12
是否继续?[y/N]
新用户享有免费额度,第一条视频几乎零成本即可体验。
设计亮点
1. 成熟方法论封装
spark-video 并非简单的“API 包装器”,而是凝聚了大量实战经验:
- 剧本拆解逻辑(如何将一句话自然拆解为多个适宜渲染的镜头)
- 角色一致性管理(有效避免“变脸”问题)
- 质量把控策略(Qwen-VL 评分 + 自动重渲机制)
- 并行渲染调度(组内串行保障连贯,组间并行提升效率)
2. 确认关卡设计
4+2 个 GATE 节点:
- GATE 0:选择模式(自动 / 精细控制)
- GATE 0.5:BGM 选择
- GATE 1:剧本确认
- GATE 2:分镜 + 费用确认
- GATE 3:渲染画面确认
- GATE 4:成片确认
每个 GATE 均支持回退修改,将创作主动权始终交还给用户。
3. 面向小白用户
核心设计理念:用户无需理解模型、参数或视频制作专业术语——只需清楚自己想要什么内容。
适用场景
| 场景 | 说明 | 适合度 |
|---|---|---|
| 产品宣传 | 30秒-2分钟产品广告 | ⭐⭐⭐⭐⭐ |
| 科普内容 | 知识类短视频 | ⭐⭐⭐⭐⭐ |
| 创意短片 | 社交媒体创意视频 | ⭐⭐⭐⭐ |
| 短剧 | 故事性内容 | ⭐⭐⭐⭐ |
| 长片(>5分钟) | 超长内容 | ⭐⭐ |
相关链接
- Skills 仓库:github.com/modelstudioai/skills
- 百炼控制台:bailian.console.aliyun.com
- 百炼 CLI:安装指南
- API Key:免费领取
百炼 spark-video:HappyHorse 视频模型 + Agent Skill 实现一句话出片
导读
阿里云百炼平台(Model Studio)的 AI Skills 生态正在持续壮大。继金融数据分析 Skill 之后,本次聚焦 spark-video——一个能让 AI Agent 自动完成从编剧到出片全流程的智能视频制作 Skill。
配合百炼 MCP 市场上的 HappyHorse 视频模型与 cosyvoice TTS 模型,spark-video 真正实现了“输入一句话 → 输出完整 mp4”的端到端能力。
百炼 + spark-video 的能力栈
用户 → spark-video Skill → 百炼平台
│ │
│── 一句话描述 ──→ │
│ │ Producer 调度
│ │
│ │── Screenwriter ──→ Qwen 文本模型(剧本生成)
│ │── Director ──→ Qwen 文本模型(分镜设计)
│ │── Render ──→ HappyHorse 视频模型(画面渲染)
│ │── Clip-Review ──→ Qwen-VL(视觉质量审核)
│ │── TTS ──→ cosyvoice-v3-flash(旁白配音)
│ │── Stitch ──→ ffmpeg(本地拼接)
│ │
│←── 完整 mp4 ──── │
调用的百炼模型
| 步骤 | 模型 | 用途 |
|---|---|---|
| 编剧/分镜 | Qwen(文本) | 剧本创作、镜头设计 |
| 渲染 | HappyHorse 1.0/1.1 | 视频片段生成 |
| QA 审核 | Qwen-VL(视觉) | 片段质量打分 |
| 配音 | cosyvoice-v3-flash | TTS 语音合成 |
快速开始
获取 API Key
百炼新用户享有免费额度,前往百炼控制台即可领取 API Key。
安装
# 安装百炼 CLI
npm install -g bailian-cli
bl auth login
# 安装 spark-video Skill
npx skills add modelstudioai/skills --skill spark-video -g
使用
在 AI Agent 中输入:
用 spark-video 做一个产品广告。项目:demo,第 1 集。产品是一款智能手表,卖点是 7 天续航和血氧监测。30秒,16:9。
实测案例:产品广告
输入:
用 spark-video 做一个高端无线耳机广告。产品图:~/Documents/headphone.webp
广告文案:"AirWa ve Pro——为拒绝妥协的耳朵而生。"
背景音乐循环播放。16:9。
AI 执行流程:
- 分析文案,拆解为 5 个镜头
- 设计每镜头画面(产品特写→场景→参数→LOGO)
- 调用 HappyHorse 模型并行渲染
- Qwen-VL 审核每段画面质量
- ffmpeg 拼接 + BGM 混音
- 输出
projects/headphone/001/final/headphone-001.mp4
结果:12 分钟完成,成本约 8 元。
核心架构
6 子技能协同
spark-video 拆分为 6 个独立子技能,由 Producer 统一编排调度:
- Screenwriter:根据 premise 撰写多场戏剧本
- Director:将剧本转化为可渲染的 JSON 分镜
- Cast:管理角色、场景及道具的一致性
- Clip-Review:渲染后自动进行质量审核
- VFX-Review:渲染前视觉效果预审
- Stitch:通过 ffmpeg 合成最终视频
并行渲染 DAG
- 同一场景内的连续镜头:串行执行(确保画面流畅连贯)
- 不同场景的镜头:并行处理(最多 4 路并发)
- 自动重试机制:质量评分低于 7/10 的镜头,自动改写 prompt 重新渲染
4+2 确认关卡
渲染是成本最高的环节,因此在渲染前必须获得用户确认。全流程共设 4 个主关卡 + 2 个条件关卡,确保用户始终掌握创意方向和成本控制权。
适用场景
- 产品广告(30秒-2分钟)
- 科普/教学视频(1-5分钟)
- 短剧/故事片(1-3分钟)
- 社交媒体内容(抖音/快手/B站/视频号)
相关资源
- spark-video 源码:GitHub
- 百炼 CLI:安装指南
- 百炼控制台:https://bailian.console.aliyun.com/?source_channel=hh_github
- API Key:免费领取
- 完整教程:modelstudioai.github.io/guide/
