人工智能童装带货技能一句话生成视频

时间：2026-05-30 09:00

最近AI结合电商的带货模式持续升温，尤其在童装领域表现抢眼。一位经营线下童装店的朋友发来一段小女孩跳舞的视频，左下角挂着商品链接，流量与转化数据都很不错。他问我：“能不能做个傻瓜式操作，一句话就把视频做出来？”经过几天研究，这个需求终于实现了。基于实际场景，我搭建了一个名为xfc-sell-good

最近AI结合电商的带货模式持续升温，尤其在童装领域表现抢眼。一位经营线下童装店的朋友发来一段小女孩跳舞的视频，左下角挂着商品链接，流量与转化数据都很不错。他问我：“能不能做个傻瓜式操作，一句话就把视频做出来？”经过几天研究，这个需求终于实现了。基于实际场景，我搭建了一个名为xfc-sell-goods的Skill，下面直接展示用法和效果。

1. 童装带货原来这么简单

整个流程其实只需五步。

第一步：用豆包生成AI模特照片

第二步：进行换装操作

将要带货的童装替换给AI模特，提示词直接用大白话写就行：把图1的小女孩换上图2的套装和裙子。

第三步：获取热门童装带货的原视频（.mp4格式）

这一步之前有教程介绍过，但核心mcp服务在阿里云百炼下架了，源代码仍可继续使用。可以自己部署mcp服务，或选用其他工具完成。

第四步：向已集成带货Skill的智能体发送“人物替换”指令

上传原视频和AI模特图，直接说“替换小女孩”。

等几分钟，成品视频就出来了。左边是原视频，右边是替换后的效果。

第五步：向同一个智能体发送“动作模仿”指令

xfc-sell-goods不仅能做人物替换，还能实现动作模仿。用自己图片生成的跳舞视频，能有效规避内容同质化问题。

等几分钟，动作替换的视频也会生成。

2. Skill的构思以及实现

2.1. 技术选型

1. Running Hub主体替换工作流

一开始考虑使用RunningHub上的主体替换工作流。找了半天才找到一个合适的，但13秒的跳舞视频跑了整整20分钟……因时长问题直接淘汰。

2. wan2.7-videoedit视频编辑模型

这是阿里开源的视频编辑模型，支持通过自然语言指令编辑视频，还能参考图像替换视频元素。整个Skill围绕这个模型搭建。

2.2. 技术实现概述

原本以为写一个代码文件调用wan2.7-videoedit就行，后来规划技术路线发现一个文件搞不定，于是用CodeBuddy将这个Skill设计成了“高内聚低耦合”的结构。

上图为Skill的架构全景图。核心是一套分层调用链：用户传入视频和图片，发送视频编辑指令——“把视频里面的女生换成图片里面的女生，背景不变，只变动人物，背景音乐也不许变”。Skill收到请求后，会执行两个操作：

1. 判断用户传入的图和视频是在线地址还是本地地址。如果是本地地址，则用oss_uploader.py将图片和视频上传到OSS对象存储桶中（需提前购买OSS并将桶设置为公共读）。

2. 调用wan2.7-videoedit进行视频编辑。这是一个异步操作，发送编辑请求和获取成品视频是分开的两步。

2.3. Skill的集成调试

Skill完成后，集成方式很多：可以接入Claude Code、OpenClaw、Hermes等工具，按个人偏好选择。对于新手，推荐集成到Workbuddy里面。其实AI智能体这门技术，重心应放在Skill编写上，而不是纠结于框架选择。优秀的Skill能大幅提升效率，框架选自己顺手的就行。现在的AI编程工具已经足够易上手，完全可以用大白话搭建自己的Skill——这部分内容后续会更新。

到此，这个AI童装带货Skill的思路和实现过程就讲清楚了。