京东开源JoyAI-Echo长音视频生成框架，声称全球第一梯队

时间：2026-06-04 13:10

京东推出JoyAI-Echo长音视频生成框架，解决角色不一致、音色突变和生成缓慢问题。内置记忆库保持长视频中角色与音色高度一致，结合SFT、跨模态RLHF和DMD技术实现7 5倍推理加速，并具备对话式编辑、DirectorAgent及实时超分模块，宣称进入全球第一梯队。

就在近日，京东放出一个重磅消息——正式推出名为 JoyAI-Echo 的长音视频生成框架。这款产品一上线，就直奔行业中最棘手的三大难题：角色容易崩坏、声音突变不稳定、以及生成速度如同龟速。此外，它还搭载了“对话式编辑”功能，意味着未来想要调整某个镜头，无需再把整条视频从头生成一遍。

京东官方表示，JoyAI-Echo 的发布，意味着他们在长视频生成领域已经迈入全球第一梯队。这句话听起来颇为自信，但从技术细节来看，确实有不少亮点。

该框架内置了一个专用的“记忆库”。在多镜头生成过程中，它能持续保留并调用角色的外观特征以及说话人的音色信息。实测显示，在长达5分钟的视频里，角色的身份、视觉形象、声音音色都能保持高度一致——再也不会出现同一个人演着演着突然变成另一个人的尴尬情况。

研发团队还提出了一种记忆驱动的后训练流程，结合了 SFT、跨模态 RLHF 以及 Distribution Matching Distillation（DMD）技术。这不仅提升了生成质量，还同时实现了推理加速。仅 DMD 一项，就带来了约 7.5 倍的速度提升。另外，JoyAI-Echo 里还整合了一个智能“导演助理”——Director Agent，用户只需用自然语言描述需求，它就能自动拆解成剧本、角色、场景和镜头。

除此之外，它还配备了一套实时超分模块。通过单步超分即可生成高分辨率视频与精细化音频，支持两档分辨率提升：736×1280 → 1152×1920 和 736×1280 → 1472×2560。对于追求画质的应用场景，这项能力非常实用。

总体而言，这次京东在长视频生成上的突破，解决的都是一线落地的硬骨头。从角色一致性到生成效率，再到编辑的灵活性，可谓提供了一套完整的解决方案。

来源：https://www.163.com/dy/article/KUHJ98SQ0511B8LM.html

上一篇美国行业团体致函特朗普政府敦促增产内存应对AI存储危机 下一篇上汽奥迪高管诚意定价破局创新技术逐鹿豪华电动赛道

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-06-27

存储芯片价格暴涨10倍现存相关企业超87万家

存储芯片价格暴涨，8TB固态硬盘售价达2 5万元，DDR5内存均价涨288%，车规级芯片涨180%。根源系AI算力爆发挤占产能，云厂商锁死供给，下游手机被迫涨价。紧缺格局至少持续至2026年。目前国内芯片相关企业超87万家，广东占比31 65%。

科技数码 · 2026-06-27

长恨歌六月惠民福利月系列活动上线

先说一个趋势判断：当前“十五五”规划周期已进入关键阶段，文旅深度融合、品质升级、惠民让利、消费激活这几条主线正在同步加速推进。今年暑期，全国文旅市场迎来一轮消费热潮，而“跟着演出去旅行”这个现象级趋势，正从小众选择进化为一股足以撬动地方文旅经济的新势力。在这个关键节点上，作为陕西文旅的标杆产品，舞剧