京东开源JoyAI-Echo：5分钟长视频角色不崩，对话式编辑告别盲盒

时间：2026-06-09 16:21

京东开源JoyAI-Echo长音视频生成框架，可生成5分钟连续视频并保持角色形象与声音一致，通过记忆驱动和DMD技术实现7 5倍推理加速，支持自然语言对话式局部编辑，提供720p至2K实时超分功能，代码与模型已全面开源。

# 京东开源重磅！AI长视频生成迎来“分钟级”新纪元前几天，京东在AI视频赛道投下了一颗重磅冲击波——JoyAI-Echo正式开源了。消息一出，整个行业为之一振。原因很简单：它精准击穿了AI长视频生成的三大“老大难”问题——角色“变脸”、声音忽高忽低、生成速度慢到让人抓狂。回想几个月前，能生成几十秒稳定的短视频已经让人兴奋不已。可一旦把时长拉到分钟级，问题就全暴露了：同一个角色，上一个镜头和下一个镜头脸型可能完全对不上；说话人的音色前后不一致；更别提漫长的等待，改个细节还得从头再来一遍。而JoyAI-Echo的出现，彻底打破了这种局面。它不仅能生成最长5分钟的连续故事视频，角色身份、视觉形象和声音音色在整个过程中保持高度一致；更让人惊喜的是，它还支持用自然语言进行局部修改，不用重跑整条视频。今天，我们来深入了解一下这个来自京东Joy Future Academy的硬核项目。 ## 项目介绍 JoyAI-Echo是京东Joy Future Academy发布的长音视频生成框架，专为分钟级多镜头故事生成设计。项目的核心目标非常明确：让AI长视频生成从“开盲盒”变成“所想即所得”。为了实现这一目标，团队提出了四项关键技术创新，逐一攻克了行业长期存在的难题。目前，JoyAI-Echo已经在GitHub和Hugging Face全面开放，开发者和创作者可以免费体验和二次开发。项目还提供了ComfyUI节点集成，让非技术用户也能轻松上手。 ## 核心亮点 ### 1、5分钟长视频，角色不崩、声音不飘 JoyAI-Echo最让人震撼的能力，是能生成长达5分钟的连续故事视频，并且在整段视频中，角色身份、视觉形象和声音音色都能保持高度一致。秘密武器就在于它内置的“跨模态音视频记忆库”。框架通过Slot-Paired机制将视觉记忆与音频记忆绑定存储，在多镜头生成过程中，记忆库持续保存并调用角色的面部特征、整体外观、说话人音色以及音画对应关系。这就像导演手中拿着角色的“完整档案”，每一帧都严格参照执行。 ### 2、7.5倍速度提升传统长视频生成的等待时间，有时真能把人的耐心消磨殆尽。几分钟、半小时……甚至更久。 JoyAI-Echo通过记忆驱动后训练与Distribution Matching Distillation（DMD）技术，实现了约7.5倍的推理加速。研发团队创新性地提出一套记忆驱动的后训练流程，结合监督微调（SFT）、跨模态RLHF及DMD技术。其中，DMD将原本的多步扩散推理压缩为少步推理，在保持生成质量的同时大幅提升速度——简单说，就是从“等得花都谢了”到“瞬间出片”的跨越。 ### 3、对话式编辑，局部修改不用重跑整条视频 JoyAI-Echo不再是“输入提示词，一次性出结果”的传统工具。它引入了一个智能“导演助理”——Director Agent，让长视频第一次实现了“对话式编辑”。你用自然语言说出需求，它会自动帮你拆分成剧本、角色、场景和镜头。哪里不满意？直接用对话告诉它修改。它只重新生成有问题的局部镜头，完全不用重跑整条视频。这种体验，就像你真的有一个随叫随到的副导演在协助你。 ### 4、720p实时超分到2K高清为了满足专业内容生产的需求，JoyAI-Echo还配套了专门的实时超分模块，支持两档分辨率提升：736×1280 → 1152×1920，以及736×1280 → 1472×2560。模块通过单步超分就能生成高分辨率视频和精细化音频，即使在流式延迟的约束下，也能保持稳定的高清表现。这意味着，生成的视频可以直接用于专业内容生产，而不仅仅是停留在“看看效果”的阶段。 ## 快速上手 ### 1. 克隆仓库 ```ja vascript git clone https://github.com/jd-opensource/JoyAI-Echo.git cd JoyAI-Echo ``` ### 2. 创建环境参考环境是Python 3.11、PyTorch 2.8、CUDA 12.8。使用conda： ```ja vascript conda env create -f environment.yml conda activate echo-long ``` 或使用uv： ```ja vascript uv venv --python 3.11 .venv source .venv/bin/activate uv pip install --extra-index-url https://download.pytorch.org/whl/cu128 -r requirements.txt ``` 注意：ffmpeg必须在PATH中可用（用于镜头拼接）。conda配方已包含它。如果你使用uv，请用系统包管理器安装： ```ja vascript # Ubuntu/Debian sudo apt install ffmpeg # macOS brew install ffmpeg ``` ### 3. 下载权重下载JoyAI-Echo发布检查点和Gemma文本编码器： | 文件 | 描述 | 大小 | 链接 | |---|---|---|---| | echo-longvideo-release.safetensors | 完整模型（transformer + VAE + vocoder） | ~46 GB | JoyAI-Echo | | gemma-3-12b/ | 指令微调模型（文本编码器） | ~24 GB | gemma-3-12b-it | 将它们放在`checkpoints/`目录下： ```ja vascript checkpoints/ ├── echo-longvideo-release.safetensors └── gemma-3-12b/ ``` ### 4. 编写故事提示词这里有一个小技巧：**强烈建议先使用项目提供的提示词增强器**。系统提示词可以将简短的故事或想法扩展为结构良好的镜头提示词： - `prompts/long_story_writer_system_prompt.md`：用于长、多镜头视频 - `prompts/short_story_writer_system_prompt.md`：用于单镜头短视频在`prompts/`下创建一个JSON文件。每个文件是一个单个对象，包含`prompts`列表，其中每个字符串是一个完整镜头。单个字符串产生一个镜头；多个字符串产生多镜头故事，每个新镜头通过配对音视频记忆库以之前的镜头为条件。在每个字符串中，按顺序编写这些部分： | 部分 | 描述内容 | |---|---| | 角色与主体 | 描述所有可见人物的外观，包括年龄、体型、发型、面部、服装，以及适用时的说话音色 | | 动作与对话 | 主体做什么和说什么 | | 风格 | 整体视觉和情感美学——例如，现实赛车电影语言、凉爽日光、克制的电影张力 | | 镜头运动 | 镜头类型和构图或运动——例如，面部稳定特写，或腰部以上的中景 | | 背景 | 主体背后的设置和场景细节 | | 音效与BGM | 场景中的声音和背景音乐——例如，房间音调、风、脚步声和织物，对话下有柔和的低音音乐床或无背景音乐 | ### 5. 运行推理 ```ja vascript python inference.py ``` 这会加载模型一次，并处理`prompts/`下的所有提示文件。注意：推理管道针对低VRAM GPU进行了优化。默认设置（25 fps × 241帧 × 1280 × 736）下，峰值GPU使用量约为46–50 GB，代价是每镜头推理时间稍长。 ## 写在最后 JoyAI-Echo的推出，标志着京东在长视频生成领域实现了一次重大突破。它用四项实打实的技术创新，彻底打破了长视频生成的“三角问题”： 1. 跨模态音视频记忆库解决了角色变脸问题 2. DMD蒸馏技术实现了7.5倍速度提升 3. Director Agent带来了对话式编辑体验 4. 轻量化实时超分保证了高清输出质量你可以像聊天一样，持续创作、修改和完善长视频内容，让高一致性、高画质、可交互的视频生成，真正走进每一个内容创作者的工作流。目前，JoyAI-Echo的代码和权重已全部开源。如果你对长视频生成感兴趣，不妨去GitHub亲自体验一下。 GitHub：https://github.com/jd-opensource/JoyAI-Echo

来源：https://cloud.tencent.com.cn/developer/article/2685154

开盲盒

上一篇EXPLAIN执行计划深度解析：从type到Extra全掌握 下一篇Vibe coding后醒悟：可持续开发需回归半古法编程

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-01

SVD奇异值分解的三步：双对角化、Givens收敛与排序

写在前面：万能的 SVD，缺席的算法SVD 是线性代数的瑞士军刀。你做主成分分析（PCA），底层是 SVD；你做推荐系统的协同过滤，底层是 SVD；你算伪逆、解最小二乘，底层是 SVD；你做图像压缩、信号去噪、潜在语义分析（LSA），底层还是 SVD。统计软件里凡是涉及 "降维 " "求秩 " "解超定方程组

AI教程 · 2026-07-01

大模型位置编码深度解析：模型如何理解顺序？

注意力机制的“位置盲区” 上一章我们探讨了注意力机制如何借助 QKV（Query-Key-Value）矩阵计算 Token 之间的相关性。然而，其中隐藏着一个关键的问题：注意力机制天生就像个“路痴”——它根本无法感知 Token 的前后顺序！问题演示我们来观察这两个句子： "猫吃鱼 " "鱼

AI教程 · 2026-07-01

深度学习从零理解Transformer模型原理与架构详解

从零理解 Transformer：注意力机制全解析 Transformer 架构彻底改写了自然语言处理的技术版图——从 BERT 到 GPT-4，从 T5 到 LLaMA，几乎所有现代大语言模型都长在 Transformer 的根上。但说实话，很多开发者的理解还停在“调 API”层面。本文从直觉出发

AI教程 · 2026-07-01

Rust构建AI自演化主板：18个异构器官长出C++骨骼

用 Rust 手搓 AI 自演化主板：当 18 个异构器官长出 C++ 骨骼第一章物理层：让 Rust C++ CUDA 共享同一根血管在多语言实时系统开发中，最棘手的难题莫过于数据拷贝。一个 MarketTick 信号若从 Rust 传递至 C++ 算子，再送入 CUDA 核函数，最后返

AI教程 · 2026-07-01

大模型可观测性升温：响应时间、Token与调用链成AI系统新指标

2026年，大模型应用正迈入全新阶段：核心关注点从“功能是否可用”转向“运行是否稳定”。回顾过往，大家对大模型的注意力基本集中在模型效果本身——回答准确度如何、生成速度快慢、能否对接知识库、是否支持多轮对话。这些固然是基础能力，但当模型真正嵌入客服、办公、研发、运维、数据分析等核心业务场景后，新的