你是否经常在短视频平台看到令人惊艳的AI生成内容,比如萌宠拟人或炫酷变装,却苦于不知如何复刻?从角色设定、场景构图到动作情绪,每一步都需要精心设计,过程繁琐耗时。
为此,我开发了一款智能解析技能(skill)。你只需提供一个视频分享链接或在线视频的真实地址,它就能深度解析视频内容,并反推出一套可直接用于AI视频生成的完整素材包。这套素材包括:文生视频的核心提示词、详细角色设定、风格关键词、分镜描述,甚至能提取角色的台词字幕。由于时间限制,目前主要支持解析抖音视频分享链接或在线真实视频地址,其他平台的解析思路可以参考文章中的方法自行实现。
以下是两个实际应用案例。第一个案例是解析热门“刀盾狗”视频:
将视频分享链接发送给 skill,它会自动反推生成提示词。之后,对AI生成的提示词进行人工审核与微调至关重要,这能确保细节精准,大幅降低AI生成时的随机性。将优化后的提示词粘贴到 libtv 中,使用 Seedance 2.0 Fast 模式生成视频。本例中固定了“刀盾狗”角色形象,以确保生成一致性:
成品视频:
第二个案例是解析流行的“化蝶为面”转场效果视频:
skill 会生成基础的文生图/视频提示词。我在此基础上进行了二次创作,在 libtv 中使用 Seedance 2.0 的文生视频模式进行生成:
成品视频:
最终生成的女主角形象效果出众,甚至激发了以其制作AI动画短片的灵感。言归正传,下面将详细介绍该技能的完整实现教程,感兴趣的朋友可以跟随步骤实操。
一、设计初衷与核心目标
开发此技能的初衷,并非打造一个简单的“视频内容总结工具”。市面上许多模型只能概括视频中有谁、发生了什么、是什么风格,但这些信息距离“我能据此制作出风格类似的视频”这一实际目标,仍有巨大差距。
真正的核心需求,是将一个爆款视频高效“翻译”成一套可复用、可执行的创作素材。这套素材应包含以下关键组成部分:
- 一句话核心提示词(概括精髓)
- 一版完整的详细 prompt(用于精细控制)
- 可直接用于生成的分镜描述
- 风格关键词与负面提示词(避免不想要的元素)
- 清晰的角色设定
- 角色台词与字幕文案
对于内容创作者而言,最痛苦的往往不是缺乏灵感,而是灵感涌现后,面临拆解困难、复刻不顺或重写效率低下的困境。本技能旨在彻底解决这一痛点。
二、Skill 整体架构设计
本次开发的 xfc-video-understand 技能,核心目标明确:“显著降低复刻或二次创作爆款视频的技术门槛”。它将反推视频提示词这一复杂过程,封装成一个稳定、可重复调用的自动化能力,无需每次手动分析。
从架构图可以看出,整个 skill 的工作流程分为三个核心阶段:
首先,接收用户输入,包括视频链接和自然语言需求(例如“分析这个视频内容”或“反推它的AI提示词”)。
接着,进行智能判断:若输入为抖音等平台的分享链接,则先调用解析接口获取真实视频地址;若已是可直接访问的在线视频地址,则跳过此步。随后,将视频地址交给强大的视频理解模型进行深度信息提取。
最后,将模型提取出的原始信息,智能整理、结构化输出为可直接投入下一生产环节的成果,如提示词、分镜脚本和台词文本。
三、Skill 实现详解与 OpenClaw 集成指南
在实现层面,我将 xfc-video-understand 的所有功能逻辑都封装在一个核心脚本中。以下是该技能当前的目录结构:
xfc-video-understand/
├── SKILL.md
├── config.json
├── requirements.txt
└── scripts/
└── understand_video.py
按照此结构创建对应文件夹即可开始。
3.1 SKILL.md 文件设计与编写
SKILL.md 文件是本技能的“说明书”,也定义了整个调用流程的入口。以下是我的编写思路,供您参考:
调用场景:用户传入了抖音分享链接或在线视频真实地址,并且需要分析视频内容
执行步骤:
1. 如果用户传入了抖音分享链接,则调用解析分享链接 API 提取真实视频地址
2. 调用 scripts/understand_video.py 解析视频内容
3. 将视频解析结果返回给用户
3.2 配置文件 (config.json) 设计
config.json 配置文件用于集中管理技能所需的所有 API Key,确保安全与便捷。各字段说明如下:
| 字段名 | 是否必填 | 作用说明 | 示例值 / 备注 |
|---|---|---|---|
dashscope_api_key |
是 | 用于调用通义千问视频理解模型的API密钥。 | sk-xxx |
tikhub_api_token |
是(当使用抖音分享链接解析时) | Tikhub平台的Token,用于将抖音分享链接解析成真实视频地址。 | Bearer Token |
dashscope_base_url |
否 | 阿里云大模型接口的调用地址,通常保持默认即可。 | https://dashscope.aliyuncs.com/compatible-mode/v1 |
dashscope_model |
否 | 默认使用的视频理解模型名称,可根据实际情况切换。 | qwen-vl-max-latest |
这种集中管理的优势明显:日常使用读取本地配置,环境切换时可通过参数覆盖。对于需要调用多个外部API的技能而言,这比将密钥分散在代码各处更稳定、更易于维护。
3.3 核心代码编写思路
scripts/understand_video.py 的设计逻辑清晰:首先读取 config.json 配置,然后判断用户输入的是可直接访问的 video_url,还是抖音的 share_url。若是分享链接,则优先调用 Tikhub 接口解析出真实视频地址。最后,将得到的 video_url 连同用户的提示词一并发送给通义千问视频模型进行深度理解。
核心代码结构如下:
def run(payload):
# 1. 读取配置文件 config.json
# 2. 判断传入的是 video_url 还是 share_url
# 3. 如果是 share_url,先调用 Tikhub 解析真实视频地址
# 4. 调用 Qwen-VL 分析视频内容
# 5. 返回统一结果:text / content / video_url / error_message
pass
def resolve_douyin_share_url(share_url, token):
# 调用 Tikhub 接口
# 从返回体里提取真实视频地址
pass
def analyze_video(api_key, video_url, prompt, model, base_url):
# 构造 OpenAI 兼容请求
# 把 video_url 和 prompt 一起发给通义千问视频模型
# 提取模型返回文本
pass
其中,resolve_douyin_share_url() 函数负责链接转换,analyze_video() 函数负责视频内容理解,而 run() 函数作为总调度,将流程串联并返回最终结果给上层工作流。
3.4 将 Skill 集成到 OpenClaw 平台
技能开发完成后,集成到 OpenClaw 平台调用非常简单。只需将整个 xfc-video-understand 技能文件夹上传至 OpenClaw 服务器指定的技能目录:/root/.openclaw/workspace/skills。
上传完成后,返回 OpenClaw 的会话界面,检查技能是否已成功加载。若加载成功,即可像文章开头演示的那样,直接输入视频链接使用该技能进行智能解析。
