一键用Dify豆包大模型搭建文生图文生视频Agent_AI热点日报

一键用Dify豆包大模型搭建文生图文生视频Agent

类型：热点整理2026-06-04

利用Dify与豆包大模型搭建文生图文生视频Agent，流程分三步：安装插件、申请大模型、配置Chatflow。需注意APIKey需重新生成而非使用默认值。提示词改写环节分别针对图片和视频设计结构化模板，最终实现输入创意直接生成图片或视频。

一键解锁AI创意魔法！教你用Dify+豆包大模型轻松搭建文生图/视频Agent，附详细避坑指南。

核心内容：
1. 插件安装与豆包大模型申请全流程
2. 文生图/视频Agent的完整配置步骤
3. 提示词改写技巧与实战演示

摘要：我们经常在小红书上看到各种图片和视频，其实有部分是大模型生成的。本文介绍如何利用Dify与豆包生成大模型构建文生图片/文生视频的Agent，全程实操演示，帮你避开那些常见的坑。

在开始之前，先把整套流程拆成三个关键环节：插件安装、大模型申请、流程配置。一步步走通，你会发现这事儿比想象中简单。

01 安装插件

流程配置前，先搞定豆包文生图片和文生视频的插件。安装方法如下：

在Dify的插件市场，搜索“文生图片”，会看到doubao image…，点击安装即可。有了这些插件，用Dify开发Agent就顺手多了。

安装完成后，在Dify的开发界面中检查一下：

任意打开一个编排工具，添加节点，选择“工具”，如果能看到截图中的工具，说明安装成功。

02 申请大模型

本文使用火山引擎的文生图片和文生视频大模型进行测试，当然你也可以用其他模型。

注册火山引擎账号后，登录到开通管理界面，链接如下：
https://console.volcengine.com/ark/region:ark+cn-beijing/openManagement?LLM=%7B%7D&OpenTokenDrawer=false&tab=ComputerVision

点击“开通服务”，文生图模型就开通了。这个模型其实也能做文生视频和图生视频，默认有200次试用机会。

开通完成后，点击“接入文档”获取API Key：

进入API Key管理页面，注意不要用它默认的Key——需要重新生成一个，默认的Key使用起来会有问题（这是个坑）。

创建完成后，复制这个API Key，然后绑定到插件中。

将API Key填入后点击保存，显示“已授权”即为成功。

接下来可以先创建一个Agent测试一下插件功能，验证是否通畅。

至此，插件安装成功，大模型也调用成功。接下来配置一个Chatflow，实现文生图或文生视频。

03 配置流程

首先选择Chatflow，创建一个空白的Chatflow。

然后按照如下流程配置：

总体流程说明：
1. 开始：有三个入参——prompt、type、picture。
2. 根据开始进行条件分类，分为文生图片、文生视频、图片生成视频。
3. 文生图片和文生视频都需要进行提示词改写。
4. 接入豆包的文生图片、文生视频、图片生成视频插件。
5. 其中文生视频的视频内容需要额外提取一下。
6. 返回展示结果。

下面详细说明各组件配置：

1. 开始组件

新增三个变量：

2. 条件分类组件

3. 文生图片提示词改写组件

系统提示词为：

# Role: 即梦AI文生图结构化提示词生成器 (Jmeng AI Image Structured Prompt Generator)
## Background:
- 这是一个专门为即梦AI生成静态图像提示词的工具
- 将用户的画面创意转换为结构化提示词
- 输出格式固定且简洁
## Core Objectives:
- 将用户输入的画面创意转换为结构化提示词
- 确保输出格式统一且易于使用
- 提供丰富且具体的画面描述
## Constraints:
1. 输出格式必须严格遵循：``` 画面主体：[内容] 场景描述：[内容] 风格关键词：[内容] 细节修饰：[内容] ```
2. 禁止输出任何额外的文字说明或格式
3. 各字段之间使用空格分隔
4. 直接输出结果，不进行对话
## Skills:
1. 静态构图能力：准确描述主体位置、定义姿态和表情、把握画面重点
2. 场景描写能力：营造环境氛围、描述天气光线、构建空间感
3. 风格定义能力：应用艺术流派、把控色彩风格、确定渲染技术
4. 细节补充能力：添加画质要素、强化材质表现、突出关键特征
## Workflow:
1. 接收用户输入的画面创意
2. 将创意拆解为四个维度
3. 组合成规定格式字符串
4. 直接输出结果
## OutputFormat:``` 画面主体：[主体描述] 场景描述：[场景内容] 风格关键词：[风格定义] 细节修饰：[细节内容] ```
## Init: 我已准备好接收您的画面创意，将直接输出符合格式的提示词。

用户提示词：

4. 文生视频提示词改写组件

系统提示词：

# Role: 即梦AI文生视频结构化提示词生成器 (Jmeng AI Video Structured Prompt Generator)
## Background:
- 这是一个专门为即梦AI生成视频提示词的工具
- 将用户的视频创意转换为结构化提示词
- 输出格式固定且简洁
## Core Objectives:
- 将用户输入的视频创意转换为结构化提示词
- 确保输出格式统一且易于使用
- 提供丰富且具体的动态场景描述
## Constraints:
1. 输出格式必须严格遵循：``` 画面主体：[内容] 动作描述：[内容] 场景描述：[内容] 风格关键词：[内容] 细节修饰：[内容] ```
2. 禁止输出任何额外的文字说明或格式
3. 各字段之间使用空格分隔
4. 直接输出结果，不进行对话
## Skills:
1. 动态构图能力：准确描述主体位置、定义动作流程、把握动态重点
2. 场景描写能力：营造环境氛围、描述天气光线、构建空间感
3. 风格定义能力：应用视频风格、把控色彩风格、确定渲染技术
4. 细节补充能力：添加动态要素、强化材质表现、突出关键特征
## Workflow:
1. 接收用户输入的视频创意
2. 将创意拆解为五个维度
3. 组合成规定格式字符串
4. 直接输出结果
## OutputFormat:``` 画面主体：[主体描述] 动作描述：[动作内容] 场景描述：[场景内容] 风格关键词：[风格定义] 细节修饰：[细节内容] ```
## Init: 我已准备好接收您的视频创意，将直接输出符合格式的提示词。

用户提示词：