游乐游手机版
首页/AI教程/文章详情

京东开源JoyAI-Echo:5分钟长视频角色不崩,对话式编辑告别盲盒

时间:2026-06-09 16:21
京东开源JoyAI-Echo长音视频生成框架,可生成5分钟连续视频并保持角色形象与声音一致,通过记忆驱动和DMD技术实现7 5倍推理加速,支持自然语言对话式局部编辑,提供720p至2K实时超分功能,代码与模型已全面开源。
# 京东开源重磅!AI长视频生成迎来“分钟级”新纪元 前几天,京东在AI视频赛道投下了一颗重磅冲击波——JoyAI-Echo正式开源了。 消息一出,整个行业为之一振。原因很简单:它精准击穿了AI长视频生成的三大“老大难”问题——角色“变脸”、声音忽高忽低、生成速度慢到让人抓狂。 回想几个月前,能生成几十秒稳定的短视频已经让人兴奋不已。可一旦把时长拉到分钟级,问题就全暴露了:同一个角色,上一个镜头和下一个镜头脸型可能完全对不上;说话人的音色前后不一致;更别提漫长的等待,改个细节还得从头再来一遍。 而JoyAI-Echo的出现,彻底打破了这种局面。它不仅能生成最长5分钟的连续故事视频,角色身份、视觉形象和声音音色在整个过程中保持高度一致;更让人惊喜的是,它还支持用自然语言进行局部修改,不用重跑整条视频。 今天,我们来深入了解一下这个来自京东Joy Future Academy的硬核项目。 ## 项目介绍 JoyAI-Echo是京东Joy Future Academy发布的长音视频生成框架,专为分钟级多镜头故事生成设计。 项目的核心目标非常明确:让AI长视频生成从“开盲盒”变成“所想即所得”。 为了实现这一目标,团队提出了四项关键技术创新,逐一攻克了行业长期存在的难题。 目前,JoyAI-Echo已经在GitHub和Hugging Face全面开放,开发者和创作者可以免费体验和二次开发。项目还提供了ComfyUI节点集成,让非技术用户也能轻松上手。 ## 核心亮点 ### 1、5分钟长视频,角色不崩、声音不飘 JoyAI-Echo最让人震撼的能力,是能生成长达5分钟的连续故事视频,并且在整段视频中,角色身份、视觉形象和声音音色都能保持高度一致。 秘密武器就在于它内置的“跨模态音视频记忆库”。框架通过Slot-Paired机制将视觉记忆与音频记忆绑定存储,在多镜头生成过程中,记忆库持续保存并调用角色的面部特征、整体外观、说话人音色以及音画对应关系。这就像导演手中拿着角色的“完整档案”,每一帧都严格参照执行。 ### 2、7.5倍速度提升 传统长视频生成的等待时间,有时真能把人的耐心消磨殆尽。几分钟、半小时……甚至更久。 JoyAI-Echo通过记忆驱动后训练与Distribution Matching Distillation(DMD)技术,实现了约7.5倍的推理加速。研发团队创新性地提出一套记忆驱动的后训练流程,结合监督微调(SFT)、跨模态RLHF及DMD技术。其中,DMD将原本的多步扩散推理压缩为少步推理,在保持生成质量的同时大幅提升速度——简单说,就是从“等得花都谢了”到“瞬间出片”的跨越。 ### 3、对话式编辑,局部修改不用重跑整条视频 JoyAI-Echo不再是“输入提示词,一次性出结果”的传统工具。它引入了一个智能“导演助理”——Director Agent,让长视频第一次实现了“对话式编辑”。 你用自然语言说出需求,它会自动帮你拆分成剧本、角色、场景和镜头。哪里不满意?直接用对话告诉它修改。它只重新生成有问题的局部镜头,完全不用重跑整条视频。这种体验,就像你真的有一个随叫随到的副导演在协助你。 ### 4、720p实时超分到2K高清 为了满足专业内容生产的需求,JoyAI-Echo还配套了专门的实时超分模块,支持两档分辨率提升:736×1280 → 1152×1920,以及736×1280 → 1472×2560。 模块通过单步超分就能生成高分辨率视频和精细化音频,即使在流式延迟的约束下,也能保持稳定的高清表现。这意味着,生成的视频可以直接用于专业内容生产,而不仅仅是停留在“看看效果”的阶段。 ## 快速上手 ### 1. 克隆仓库 ```ja vascript git clone https://github.com/jd-opensource/JoyAI-Echo.git cd JoyAI-Echo ``` ### 2. 创建环境 参考环境是Python 3.11、PyTorch 2.8、CUDA 12.8。 使用conda: ```ja vascript conda env create -f environment.yml conda activate echo-long ``` 或使用uv: ```ja vascript uv venv --python 3.11 .venv source .venv/bin/activate uv pip install --extra-index-url https://download.pytorch.org/whl/cu128 -r requirements.txt ``` 注意:ffmpeg必须在PATH中可用(用于镜头拼接)。conda配方已包含它。如果你使用uv,请用系统包管理器安装: ```ja vascript # Ubuntu/Debian sudo apt install ffmpeg # macOS brew install ffmpeg ``` ### 3. 下载权重 下载JoyAI-Echo发布检查点和Gemma文本编码器: | 文件 | 描述 | 大小 | 链接 | |---|---|---|---| | echo-longvideo-release.safetensors | 完整模型(transformer + VAE + vocoder) | ~46 GB | JoyAI-Echo | | gemma-3-12b/ | 指令微调模型(文本编码器) | ~24 GB | gemma-3-12b-it | 将它们放在`checkpoints/`目录下: ```ja vascript checkpoints/ ├── echo-longvideo-release.safetensors └── gemma-3-12b/ ``` ### 4. 编写故事提示词 这里有一个小技巧:**强烈建议先使用项目提供的提示词增强器**。系统提示词可以将简短的故事或想法扩展为结构良好的镜头提示词: - `prompts/long_story_writer_system_prompt.md`:用于长、多镜头视频 - `prompts/short_story_writer_system_prompt.md`:用于单镜头短视频 在`prompts/`下创建一个JSON文件。每个文件是一个单个对象,包含`prompts`列表,其中每个字符串是一个完整镜头。单个字符串产生一个镜头;多个字符串产生多镜头故事,每个新镜头通过配对音视频记忆库以之前的镜头为条件。 在每个字符串中,按顺序编写这些部分: | 部分 | 描述内容 | |---|---| | 角色与主体 | 描述所有可见人物的外观,包括年龄、体型、发型、面部、服装,以及适用时的说话音色 | | 动作与对话 | 主体做什么和说什么 | | 风格 | 整体视觉和情感美学——例如,现实赛车电影语言、凉爽日光、克制的电影张力 | | 镜头运动 | 镜头类型和构图或运动——例如,面部稳定特写,或腰部以上的中景 | | 背景 | 主体背后的设置和场景细节 | | 音效与BGM | 场景中的声音和背景音乐——例如,房间音调、风、脚步声和织物,对话下有柔和的低音音乐床或无背景音乐 | ### 5. 运行推理 ```ja vascript python inference.py ``` 这会加载模型一次,并处理`prompts/`下的所有提示文件。 注意:推理管道针对低VRAM GPU进行了优化。默认设置(25 fps × 241帧 × 1280 × 736)下,峰值GPU使用量约为46–50 GB,代价是每镜头推理时间稍长。 ## 写在最后 JoyAI-Echo的推出,标志着京东在长视频生成领域实现了一次重大突破。它用四项实打实的技术创新,彻底打破了长视频生成的“三角问题”: 1. 跨模态音视频记忆库解决了角色变脸问题 2. DMD蒸馏技术实现了7.5倍速度提升 3. Director Agent带来了对话式编辑体验 4. 轻量化实时超分保证了高清输出质量 你可以像聊天一样,持续创作、修改和完善长视频内容,让高一致性、高画质、可交互的视频生成,真正走进每一个内容创作者的工作流。 目前,JoyAI-Echo的代码和权重已全部开源。如果你对长视频生成感兴趣,不妨去GitHub亲自体验一下。 GitHub:https://github.com/jd-opensource/JoyAI-Echo
来源:https://cloud.tencent.com.cn/developer/article/2685154
上一篇EXPLAIN执行计划深度解析:从type到Extra全掌握 下一篇Vibe coding后醒悟:可持续开发需回归半古法编程
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
SVD奇异值分解的三步:双对角化、Givens收敛与排序
AI教程 · 2026-07-01

SVD奇异值分解的三步:双对角化、Givens收敛与排序

写在前面:万能的 SVD,缺席的算法SVD 是线性代数的瑞士军刀。你做主成分分析(PCA),底层是 SVD;你做推荐系统的协同过滤,底层是 SVD;你算伪逆、解最小二乘,底层是 SVD;你做图像压缩、信号去噪、潜在语义分析(LSA),底层还是 SVD。统计软件里凡是涉及 "降维 " "求秩 " "解超定方程组

大模型位置编码深度解析:模型如何理解顺序?
AI教程 · 2026-07-01

大模型位置编码深度解析:模型如何理解顺序?

注意力机制的“位置盲区” 上一章我们探讨了注意力机制如何借助 QKV(Query-Key-Value)矩阵计算 Token 之间的相关性。然而,其中隐藏着一个关键的问题: 注意力机制天生就像个“路痴”——它根本无法感知 Token 的前后顺序! 问题演示 我们来观察这两个句子: "猫 吃 鱼 " "鱼

深度学习从零理解Transformer模型原理与架构详解
AI教程 · 2026-07-01

深度学习从零理解Transformer模型原理与架构详解

从零理解 Transformer:注意力机制全解析 Transformer 架构彻底改写了自然语言处理的技术版图——从 BERT 到 GPT-4,从 T5 到 LLaMA,几乎所有现代大语言模型都长在 Transformer 的根上。但说实话,很多开发者的理解还停在“调 API”层面。本文从直觉出发

Rust构建AI自演化主板:18个异构器官长出C++骨骼
AI教程 · 2026-07-01

Rust构建AI自演化主板:18个异构器官长出C++骨骼

用 Rust 手搓 AI 自演化主板:当 18 个异构器官长出 C++ 骨骼第一章 物理层:让 Rust C++ CUDA 共享同一根血管在多语言实时系统开发中,最棘手的难题莫过于数据拷贝。一个 MarketTick 信号若从 Rust 传递至 C++ 算子,再送入 CUDA 核函数,最后返

大模型可观测性升温:响应时间、Token与调用链成AI系统新指标
AI教程 · 2026-07-01

大模型可观测性升温:响应时间、Token与调用链成AI系统新指标

2026年,大模型应用正迈入全新阶段:核心关注点从“功能是否可用”转向“运行是否稳定”。 回顾过往,大家对大模型的注意力基本集中在模型效果本身——回答准确度如何、生成速度快慢、能否对接知识库、是否支持多轮对话。这些固然是基础能力,但当模型真正嵌入客服、办公、研发、运维、数据分析等核心业务场景后,新的