京东开源JoyAI-Echo:5分钟长视频角色不崩,对话式编辑告别盲盒
时间:2026-06-09 16:21
京东开源JoyAI-Echo长音视频生成框架,可生成5分钟连续视频并保持角色形象与声音一致,通过记忆驱动和DMD技术实现7 5倍推理加速,支持自然语言对话式局部编辑,提供720p至2K实时超分功能,代码与模型已全面开源。
# 京东开源重磅!AI长视频生成迎来“分钟级”新纪元
前几天,京东在AI视频赛道投下了一颗重磅冲击波——JoyAI-Echo正式开源了。
消息一出,整个行业为之一振。原因很简单:它精准击穿了AI长视频生成的三大“老大难”问题——角色“变脸”、声音忽高忽低、生成速度慢到让人抓狂。
回想几个月前,能生成几十秒稳定的短视频已经让人兴奋不已。可一旦把时长拉到分钟级,问题就全暴露了:同一个角色,上一个镜头和下一个镜头脸型可能完全对不上;说话人的音色前后不一致;更别提漫长的等待,改个细节还得从头再来一遍。
而JoyAI-Echo的出现,彻底打破了这种局面。它不仅能生成最长5分钟的连续故事视频,角色身份、视觉形象和声音音色在整个过程中保持高度一致;更让人惊喜的是,它还支持用自然语言进行局部修改,不用重跑整条视频。
今天,我们来深入了解一下这个来自京东Joy Future Academy的硬核项目。
## 项目介绍
JoyAI-Echo是京东Joy Future Academy发布的长音视频生成框架,专为分钟级多镜头故事生成设计。
项目的核心目标非常明确:让AI长视频生成从“开盲盒”变成“所想即所得”。
为了实现这一目标,团队提出了四项关键技术创新,逐一攻克了行业长期存在的难题。
目前,JoyAI-Echo已经在GitHub和Hugging Face全面开放,开发者和创作者可以免费体验和二次开发。项目还提供了ComfyUI节点集成,让非技术用户也能轻松上手。
## 核心亮点
### 1、5分钟长视频,角色不崩、声音不飘
JoyAI-Echo最让人震撼的能力,是能生成长达5分钟的连续故事视频,并且在整段视频中,角色身份、视觉形象和声音音色都能保持高度一致。
秘密武器就在于它内置的“跨模态音视频记忆库”。框架通过Slot-Paired机制将视觉记忆与音频记忆绑定存储,在多镜头生成过程中,记忆库持续保存并调用角色的面部特征、整体外观、说话人音色以及音画对应关系。这就像导演手中拿着角色的“完整档案”,每一帧都严格参照执行。
### 2、7.5倍速度提升
传统长视频生成的等待时间,有时真能把人的耐心消磨殆尽。几分钟、半小时……甚至更久。
JoyAI-Echo通过记忆驱动后训练与Distribution Matching Distillation(DMD)技术,实现了约7.5倍的推理加速。研发团队创新性地提出一套记忆驱动的后训练流程,结合监督微调(SFT)、跨模态RLHF及DMD技术。其中,DMD将原本的多步扩散推理压缩为少步推理,在保持生成质量的同时大幅提升速度——简单说,就是从“等得花都谢了”到“瞬间出片”的跨越。
### 3、对话式编辑,局部修改不用重跑整条视频
JoyAI-Echo不再是“输入提示词,一次性出结果”的传统工具。它引入了一个智能“导演助理”——Director Agent,让长视频第一次实现了“对话式编辑”。
你用自然语言说出需求,它会自动帮你拆分成剧本、角色、场景和镜头。哪里不满意?直接用对话告诉它修改。它只重新生成有问题的局部镜头,完全不用重跑整条视频。这种体验,就像你真的有一个随叫随到的副导演在协助你。
### 4、720p实时超分到2K高清
为了满足专业内容生产的需求,JoyAI-Echo还配套了专门的实时超分模块,支持两档分辨率提升:736×1280 → 1152×1920,以及736×1280 → 1472×2560。
模块通过单步超分就能生成高分辨率视频和精细化音频,即使在流式延迟的约束下,也能保持稳定的高清表现。这意味着,生成的视频可以直接用于专业内容生产,而不仅仅是停留在“看看效果”的阶段。
## 快速上手
### 1. 克隆仓库
```ja vascript
git clone https://github.com/jd-opensource/JoyAI-Echo.git
cd JoyAI-Echo
```
### 2. 创建环境
参考环境是Python 3.11、PyTorch 2.8、CUDA 12.8。
使用conda:
```ja vascript
conda env create -f environment.yml
conda activate echo-long
```
或使用uv:
```ja vascript
uv venv --python 3.11 .venv
source .venv/bin/activate
uv pip install --extra-index-url https://download.pytorch.org/whl/cu128 -r requirements.txt
```
注意:ffmpeg必须在PATH中可用(用于镜头拼接)。conda配方已包含它。如果你使用uv,请用系统包管理器安装:
```ja vascript
# Ubuntu/Debian
sudo apt install ffmpeg
# macOS
brew install ffmpeg
```
### 3. 下载权重
下载JoyAI-Echo发布检查点和Gemma文本编码器:
| 文件 | 描述 | 大小 | 链接 |
|---|---|---|---|
| echo-longvideo-release.safetensors | 完整模型(transformer + VAE + vocoder) | ~46 GB | JoyAI-Echo |
| gemma-3-12b/ | 指令微调模型(文本编码器) | ~24 GB | gemma-3-12b-it |
将它们放在`checkpoints/`目录下:
```ja vascript
checkpoints/
├── echo-longvideo-release.safetensors
└── gemma-3-12b/
```
### 4. 编写故事提示词
这里有一个小技巧:**强烈建议先使用项目提供的提示词增强器**。系统提示词可以将简短的故事或想法扩展为结构良好的镜头提示词:
- `prompts/long_story_writer_system_prompt.md`:用于长、多镜头视频
- `prompts/short_story_writer_system_prompt.md`:用于单镜头短视频
在`prompts/`下创建一个JSON文件。每个文件是一个单个对象,包含`prompts`列表,其中每个字符串是一个完整镜头。单个字符串产生一个镜头;多个字符串产生多镜头故事,每个新镜头通过配对音视频记忆库以之前的镜头为条件。
在每个字符串中,按顺序编写这些部分:
| 部分 | 描述内容 |
|---|---|
| 角色与主体 | 描述所有可见人物的外观,包括年龄、体型、发型、面部、服装,以及适用时的说话音色 |
| 动作与对话 | 主体做什么和说什么 |
| 风格 | 整体视觉和情感美学——例如,现实赛车电影语言、凉爽日光、克制的电影张力 |
| 镜头运动 | 镜头类型和构图或运动——例如,面部稳定特写,或腰部以上的中景 |
| 背景 | 主体背后的设置和场景细节 |
| 音效与BGM | 场景中的声音和背景音乐——例如,房间音调、风、脚步声和织物,对话下有柔和的低音音乐床或无背景音乐 |
### 5. 运行推理
```ja vascript
python inference.py
```
这会加载模型一次,并处理`prompts/`下的所有提示文件。
注意:推理管道针对低VRAM GPU进行了优化。默认设置(25 fps × 241帧 × 1280 × 736)下,峰值GPU使用量约为46–50 GB,代价是每镜头推理时间稍长。
## 写在最后
JoyAI-Echo的推出,标志着京东在长视频生成领域实现了一次重大突破。它用四项实打实的技术创新,彻底打破了长视频生成的“三角问题”:
1. 跨模态音视频记忆库解决了角色变脸问题
2. DMD蒸馏技术实现了7.5倍速度提升
3. Director Agent带来了对话式编辑体验
4. 轻量化实时超分保证了高清输出质量
你可以像聊天一样,持续创作、修改和完善长视频内容,让高一致性、高画质、可交互的视频生成,真正走进每一个内容创作者的工作流。
目前,JoyAI-Echo的代码和权重已全部开源。如果你对长视频生成感兴趣,不妨去GitHub亲自体验一下。
GitHub:https://github.com/jd-opensource/JoyAI-Echo
来源:https://cloud.tencent.com.cn/developer/article/2685154
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。