就在近日,京东放出一个重磅消息——正式推出名为 JoyAI-Echo 的长音视频生成框架。这款产品一上线,就直奔行业中最棘手的三大难题:角色容易崩坏、声音突变不稳定、以及生成速度如同龟速。此外,它还搭载了“对话式编辑”功能,意味着未来想要调整某个镜头,无需再把整条视频从头生成一遍。

京东官方表示,JoyAI-Echo 的发布,意味着他们在长视频生成领域已经迈入全球第一梯队。这句话听起来颇为自信,但从技术细节来看,确实有不少亮点。
该框架内置了一个专用的“记忆库”。在多镜头生成过程中,它能持续保留并调用角色的外观特征以及说话人的音色信息。实测显示,在长达5分钟的视频里,角色的身份、视觉形象、声音音色都能保持高度一致——再也不会出现同一个人演着演着突然变成另一个人的尴尬情况。
研发团队还提出了一种记忆驱动的后训练流程,结合了 SFT、跨模态 RLHF 以及 Distribution Matching Distillation(DMD)技术。这不仅提升了生成质量,还同时实现了推理加速。仅 DMD 一项,就带来了约 7.5 倍的速度提升。另外,JoyAI-Echo 里还整合了一个智能“导演助理”——Director Agent,用户只需用自然语言描述需求,它就能自动拆解成剧本、角色、场景和镜头。
除此之外,它还配备了一套实时超分模块。通过单步超分即可生成高分辨率视频与精细化音频,支持两档分辨率提升:736×1280 → 1152×1920 和 736×1280 → 1472×2560。对于追求画质的应用场景,这项能力非常实用。
总体而言,这次京东在长视频生成上的突破,解决的都是一线落地的硬骨头。从角色一致性到生成效率,再到编辑的灵活性,可谓提供了一套完整的解决方案。
