6月22日,阿里巴巴正式推出视频生成模型HappyHorse 1.1。此次升级基于用户在实际创作中的真实反馈与需求,重点围绕动态表现力、主体一致性、指令遵循能力、视觉呈现质量以及音频表达这五大维度进行了系统优化。简而言之,该模型在专业内容生产场景中,实现了创作质量、可控性与应用效率的全面提升。

通过强化对多张参考图信息的理解与融合能力,HappyHorse 1.1的多图参考生成视频性能显著增强,生成视频与参考素材之间的一致性更加出色。无论是在商品细节与品牌元素的精准保留,还是在角色与场景灵活组合后保持主体稳定,亦或是多分镜与N宫格参考的理解方面,该模型均能实现更精准的视觉还原,满足各类复杂创作需求。
此外,模型还加强了长上下文语义理解、场景规划能力以及角色关系建模,使得复杂指令下的遵循能力与镜头编排稳定性实现了质的飞跃。用户的创作意图能被更准确地捕捉,从而完成多场景、多角色的连贯演绎。无论是简短描述还是复杂的叙事输入,模型都能生成更丰富、更自然、更符合预期的视觉表达。
HappyHorse作为阿里巴巴自主研发的原生多模态AI视频生成大模型,采用150亿参数的单流Transformer架构,将文本、图像、视频、音频统一编码,实现了真正原生的音视频同步生成。自4月27日首次亮相以来,HappyHorse 1.0已在短剧制作、电商广告、品牌营销、游戏CG等核心内容生产场景中广泛落地。
目前,HappyHorse正式版、阿里云百炼以及千问云均已接入最新版本。同时,该模型的所有能力同步开放API调用,面向企业级客户与开发者提供完整的集成方案。
