AI视频提示词自动反推工具告别手动求取

时间：2026-05-28 08:05

为解决AI视频复刻时手动提取提示词的繁琐问题，开发了一款自动解析视频并生成素材的工具。该工具支持输入抖音链接或在线视频地址，可输出提示词、角色设定、风格关键词、分镜描述及台词等内容。目前主要适配抖音平台，用户需对生成结果进行人工微调，以确保准确性并降低生成过程的。

你是否经常在短视频平台看到令人惊艳的AI生成内容，比如萌宠拟人或炫酷变装，却苦于不知如何复刻？从角色设定、场景构图到动作情绪，每一步都需要精心设计，过程繁琐耗时。

为此，我开发了一款智能解析技能（skill）。你只需提供一个视频分享链接或在线视频的真实地址，它就能深度解析视频内容，并反推出一套可直接用于AI视频生成的完整素材包。这套素材包括：文生视频的核心提示词、详细角色设定、风格关键词、分镜描述，甚至能提取角色的台词字幕。由于时间限制，目前主要支持解析抖音视频分享链接或在线真实视频地址，其他平台的解析思路可以参考文章中的方法自行实现。

以下是两个实际应用案例。第一个案例是解析热门“刀盾狗”视频：

将视频分享链接发送给 skill，它会自动反推生成提示词。之后，对AI生成的提示词进行人工审核与微调至关重要，这能确保细节精准，大幅降低AI生成时的随机性。将优化后的提示词粘贴到 libtv 中，使用 Seedance 2.0 Fast 模式生成视频。本例中固定了“刀盾狗”角色形象，以确保生成一致性：

成品视频:

第二个案例是解析流行的“化蝶为面”转场效果视频：

skill 会生成基础的文生图/视频提示词。我在此基础上进行了二次创作，在 libtv 中使用 Seedance 2.0 的文生视频模式进行生成：

成品视频：

最终生成的女主角形象效果出众，甚至激发了以其制作AI动画短片的灵感。言归正传，下面将详细介绍该技能的完整实现教程，感兴趣的朋友可以跟随步骤实操。

一、设计初衷与核心目标

开发此技能的初衷，并非打造一个简单的“视频内容总结工具”。市面上许多模型只能概括视频中有谁、发生了什么、是什么风格，但这些信息距离“我能据此制作出风格类似的视频”这一实际目标，仍有巨大差距。

真正的核心需求，是将一个爆款视频高效“翻译”成一套可复用、可执行的创作素材。这套素材应包含以下关键组成部分：

一句话核心提示词（概括精髓）
一版完整的详细 prompt（用于精细控制）
可直接用于生成的分镜描述
风格关键词与负面提示词（避免不想要的元素）
清晰的角色设定
角色台词与字幕文案

对于内容创作者而言，最痛苦的往往不是缺乏灵感，而是灵感涌现后，面临拆解困难、复刻不顺或重写效率低下的困境。本技能旨在彻底解决这一痛点。

二、Skill 整体架构设计

本次开发的 xfc-video-understand 技能，核心目标明确：“显著降低复刻或二次创作爆款视频的技术门槛”。它将反推视频提示词这一复杂过程，封装成一个稳定、可重复调用的自动化能力，无需每次手动分析。

从架构图可以看出，整个 skill 的工作流程分为三个核心阶段：

首先，接收用户输入，包括视频链接和自然语言需求（例如“分析这个视频内容”或“反推它的AI提示词”）。

接着，进行智能判断：若输入为抖音等平台的分享链接，则先调用解析接口获取真实视频地址；若已是可直接访问的在线视频地址，则跳过此步。随后，将视频地址交给强大的视频理解模型进行深度信息提取。

最后，将模型提取出的原始信息，智能整理、结构化输出为可直接投入下一生产环节的成果，如提示词、分镜脚本和台词文本。

三、Skill 实现详解与 OpenClaw 集成指南

在实现层面，我将 xfc-video-understand 的所有功能逻辑都封装在一个核心脚本中。以下是该技能当前的目录结构：

xfc-video-understand/
├── SKILL.md
├── config.json
├── requirements.txt
└── scripts/
    └── understand_video.py

按照此结构创建对应文件夹即可开始。

3.1 SKILL.md 文件设计与编写

SKILL.md 文件是本技能的“说明书”，也定义了整个调用流程的入口。以下是我的编写思路，供您参考：

调用场景：用户传入了抖音分享链接或在线视频真实地址，并且需要分析视频内容
执行步骤：
1. 如果用户传入了抖音分享链接，则调用解析分享链接 API 提取真实视频地址
2. 调用 scripts/understand_video.py 解析视频内容
3. 将视频解析结果返回给用户

3.2 配置文件 (config.json) 设计

config.json 配置文件用于集中管理技能所需的所有 API Key，确保安全与便捷。各字段说明如下：

字段名	是否必填	作用说明	示例值 / 备注
`dashscope_api_key`	是	用于调用通义千问视频理解模型的API密钥。	`sk-xxx`
`tikhub_api_token`	是（当使用抖音分享链接解析时）	Tikhub平台的Token，用于将抖音分享链接解析成真实视频地址。	Bearer Token
`dashscope_base_url`	否	阿里云大模型接口的调用地址，通常保持默认即可。	`https://dashscope.aliyuncs.com/compatible-mode/v1`
`dashscope_model`	否	默认使用的视频理解模型名称，可根据实际情况切换。	`qwen-vl-max-latest`

这种集中管理的优势明显：日常使用读取本地配置，环境切换时可通过参数覆盖。对于需要调用多个外部API的技能而言，这比将密钥分散在代码各处更稳定、更易于维护。

3.3 核心代码编写思路

scripts/understand_video.py 的设计逻辑清晰：首先读取 config.json 配置，然后判断用户输入的是可直接访问的 video_url，还是抖音的 share_url。若是分享链接，则优先调用 Tikhub 接口解析出真实视频地址。最后，将得到的 video_url 连同用户的提示词一并发送给通义千问视频模型进行深度理解。

核心代码结构如下：

def run(payload):
    # 1. 读取配置文件 config.json
    # 2. 判断传入的是 video_url 还是 share_url
    # 3. 如果是 share_url，先调用 Tikhub 解析真实视频地址
    # 4. 调用 Qwen-VL 分析视频内容
    # 5. 返回统一结果：text / content / video_url / error_message
    pass

def resolve_douyin_share_url(share_url, token):
    # 调用 Tikhub 接口
    # 从返回体里提取真实视频地址
    pass

def analyze_video(api_key, video_url, prompt, model, base_url):
    # 构造 OpenAI 兼容请求
    # 把 video_url 和 prompt 一起发给通义千问视频模型
    # 提取模型返回文本
    pass

其中，resolve_douyin_share_url() 函数负责链接转换，analyze_video() 函数负责视频内容理解，而 run() 函数作为总调度，将流程串联并返回最终结果给上层工作流。

3.4 将 Skill 集成到 OpenClaw 平台

技能开发完成后，集成到 OpenClaw 平台调用非常简单。只需将整个 xfc-video-understand 技能文件夹上传至 OpenClaw 服务器指定的技能目录：/root/.openclaw/workspace/skills。

上传完成后，返回 OpenClaw 的会话界面，检查技能是否已成功加载。若加载成功，即可像文章开头演示的那样，直接输入视频链接使用该技能进行智能解析。

来源：https://juejin.cn/post/7626925113791266831

上一篇AI视频生成新突破Seedance2 0已能创造虚拟世界 下一篇从零搭建RAG系统第五步：Ollama安装与配置指南

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-01

RAG四标融合企业知识资产体系四库协同GEO优化实践

生成式AI正在彻底改写信息检索的底层逻辑。传统SEO依赖关键词堆砌和外链建设的策略，在大模型的内容采信规则下已经基本失效。取而代之的，是生成式引擎优化（GEO）。它不再关注外链数量，而是重点衡量你的知识是否结构化、证据链是否坚实、信源是否可靠——这些维度才是RAG（检索增强生成）架构真正看重的核心指