2025年年中之际,阿里巴巴旗下文生视频大模型迎来重磅升级——HappyHorse 1.1版本正式发布。这是自1.0版本亮相以来,规模最大、覆盖最全的一次全方位迭代。新版模型围绕动态表现、主体保真、指令理解、画面质感与音频同步五大核心维度,进行了系统性优化。目前,该版本已在HappyHorse官网、阿里云百炼及千问云平台同步开放调用,全面支持创作者使用。
在基础规格方面,1.1版本延续了前代的灵活特性。单次依然可生成3至15秒的视频片段,原生支持720P与1080P两种高清分辨率,并能兼容任意自定义宽高比。这一设计思路目标明确:覆盖短视频、广告短片、短剧分镜预览等多元化创作场景,满足不同用户的实际需求。

动态表现力升级:告别动作卡顿与画面失真
动态效果无疑是本次升级的核心亮点。新版模型重构了内部运动及时序建模逻辑,着力改善旧版中偶尔出现的动作迟缓和动态张力不足问题。实际效果显著——在舞蹈、打斗、流体运动、布料摆动等复杂画面中,动作连贯性得到大幅提升。这意味着算法层面有效缓解了业界长期存在的动作失真与画面拖影等“通病”。
主体一致性增强:角色不再“变脸”
另一个常见痛点——“角色变脸”现象,在新版本中得到明显改善。模型现在可同时输入多达9张角色或商品参考图片,强化了对多分镜、多素材的融合理解能力。这意味着在生成过程中,人物的五官特征、品牌Logo以及产品精细细节都能更稳定地保留。对于需要多人物连续镜头或系列化内容的场景,例如直播带货视频、系列广告或连续短剧的批量生产,这无疑是一个重大利好。

理解与质感:从指令到画质的全面精进
在指令遵循方面,模型能力进一步提升。无论是简短关键词提示,还是包含多场景、多人物关系及复杂镜头调度的长段叙事描述,模型都能精准拆解并执行。这使得复杂分镜的画面排布更加稳定,整体叙事逻辑也更趋完整。
画质方面,本次完成了更精细化的调校。一个直观改进是:大幅削弱了AI生成内容常见的“油光感”、过度锐化以及不真实的磨皮效果。皮肤毛孔、衣物纹理褶皱等真实细节得以完整保留,使生成的人像及实景视频在质感上更贴近实拍效果,已达到商业广告的高清输出标准。

原生音画同步:告别后期对口型
音频生成部分延续了原生音画同步的架构优势。这与当前主流“先出画面,再后期配音”方案截然不同。HappyHorse采用一体化建模,将文本、画面和音频在同一序列中处理,实现生成过程同步输出匹配口型的原声音频。它支持中、英、日、韩、德、法、阿拉伯共7种语言唇形对齐,基本做到“出片即成品”,无需二次调音对齐音画。
最后看底层技术。模型基于15B参数的单Transformer流式架构,并搭配蒸馏去噪优化。这套组合拳带来的直接优势是推理效率高、成本控制出色。官方数据显示,仅需单张H100显卡即可快速输出1080P成片。对于算力资源有限的中小创作者以及有批量商用生产需求的企业来说,这一方案大幅降低了入门门槛。
