6月22日,阿里巴巴正式推出了视频生成模型HappyHorse 1.1版本。相较于1.0版本,此次升级涵盖了动态表现力、主体一致性、指令遵循、视觉质感以及音频能力五大核心维度——可以说是一次全栈式的硬核迭代。

先看动态表现力,这始终是视频生成模型公认的技术难点。在1.0版本中,部分画面曾出现动作缓慢、节奏感欠佳的问题。到了1.1版本,研发团队在运动建模与时间序列一致性方面进行了针对性优化,动作的连贯性和力量感均有明显提升。简单来说,画面终于能够真正“动”起来,而不再是静态图像的机械拼接。


对于内容创作者来说,主体一致性一直是核心痛点——只要保持稳定,抽卡率就能显著下降。1.1版本支持一次性输入9张角色参考图,在灵活组合商品细节、品牌元素、角色与场景的基础上,实现更加稳定的输出。更进一步,它对多分镜及N宫格参考理解能力也做了增强。这意味着,在多角色短剧、直播带货、多人物广告等场景中,此前令人头疼的“角色变脸”问题,终于变得可控。
在指令遵循方面,无论是简短描述还是复杂叙事输入,1.1版本对提示词的理解能力都有了显著提升。举例来说,对于打斗这类高强度动态场景,仅用简洁的提示词就能准确捕捉并生成画面。而在处理复杂提示词时,镜头编排的稳定性也得到了升级,能够高质量地完成多场景、多角色的连贯演绎。

视觉质感与音频能力同样是此次专项提升的重点。此前用户反馈较为集中的“油光感”“过度锐化”等问题,在1.1版本中都得到了显著改善。皮肤上的痘印、法令纹、毛孔等真实细节被完好保留,这对短剧、广告等追求高画质的场景而言,无疑是实实在在的加分项。台词表达也更为自然,语速、停顿、语气能够根据场景与情绪的变化动态调整。用户还可在提示词中直接描述背景、环境音效等细节,创作自由度进一步提升。
在技术规格方面,HappyHorse 1.1与1.0版本保持一致:单次生成时长3到15秒,支持720p和1080p分辨率,以及自由的宽高比。自发布以来,该模型已服务于短剧制作、电商广告、品牌营销、游戏CG等多个内容生产场景,模型能力仍在持续迭代升级中。目前,官方平台及阿里云百炼、千问云已接入了最新版本。
