01 鹅厂已就位
腾讯终于亮出了自己的AI视频王牌——「混元视频模型」。
近期有幸获得内测资格,利用周末两天时间,从早到晚一口气生成了超过300支视频,进行了高强度深度体验。
先说核心感受:作为腾讯推出的首款文生视频作品(目前支持生成5秒视频),整体表现相当扎实。在几个关键维度上——例如对指令的准确理解、画面动态与稳定性、镜头语言的运用、写实质感,以及对物理规律的遵循——都做得不错,而且“翻车”的概率很低。
更令人惊喜的是,在一些特定领域,比如镜头转换、动作特效、科幻魔幻风格的呈现,乃至对抽象概念的理解上,它甚至展现出了超出预期的能力。
口说无凭,直接看效果:
体验入口:腾讯元宝APP - AI应用 - AI视频。
02 实测10个风格、30个案例
为了系统评估混元视频模型的能力,我们选取了十个常见且重要的应用风格进行测试。这十个风格分别是:特写、写实、人物、动物、科幻、特效、动画、艺术/抽象、运动、多人场景/大场面/多镜头。
每个风格下,都设计了3到5个不同的提示词来生成视频,以此检验模型的稳定性和表现力。
提示词的构思过程大致是:先有一个基础想法,用一句话描述,然后借助AI工具进行优化和扩写,最后再根据个人理解手动调整,形成最终发送给模型的指令。
纵观各类提示词,其核心框架万变不离其宗,主要围绕以下几个模板展开:
- 模板1:主体 + 场景 + 运动
- 模板2:主体(描述)+ 场景(描述)+ 运动(描述)+(镜头语言)+(氛围)+(风格)
- 模板3:主体 + 场景 + 运动 +(风格)+(氛围)+(运镜)+(光线)+(景别)
对于初学者而言,抓住主体、场景、运动这三个核心要素就足够了。其他更细致的描述,如果拿捏不准,完全可以借助生成界面提供的风格、光线、运镜等标签来快速选择。
铺垫完毕,接下来就看看实际生成的案例效果。需要说明的是,以下所有案例均来自实际测试,并非官方演示素材。
(1)写实
写实风格是检验视频模型的“基本功”,重点考察模型对真实世界细节的还原能力,包括场景、人物表情与动作、物体纹理以及光影变化等。
1)一只啄木鸟正在树上啄洞,写实风格。
2)一位身着汉服的中国女子,长发随风飘动。镜头切换至正面特写,背景是张家界风光。
3)一只戴着红围巾的企鹅在花海中漫步,红围巾与花海色彩形成鲜明对比。背景花海随风轻摆,花瓣飘落,晨露闪烁。
4)超长焦镜头横移,拍摄工业废弃厂房。主光源从破碎的天窗渗入,为自然光。
(2)特写
特写镜头是视频模型的优势领域,各家比拼的关键在于对细节的刻画能力,比如物体的运动轨迹、人物的肢体语言与面部微表情、以及画面的整体质感。
一个出色的特写镜头,能瞬间拉近观众与画面的距离,营造强烈的临场感。
5)一名男子惊恐地望向远方,背景是一座正在燃烧爆炸的城市。镜头对准男子的面部,捕捉其惊恐的表情。
6)镜头缓缓推近。背景是一个小巧温馨的客厅,一位年轻女子正全神贯注地坐在沙发上看书。咖啡桌上放着一杯冒着热气的茶。
7)一只形态怪异可怖的远古生物在泥土中爬行。
(3)人物
人物生成是视频模型的“试金石”。我们人类对同类的肤色、肢体动作、表情乃至衣着细节都极为敏感,任何不自然之处都容易被察觉。
不过话说回来,目前文生视频技术在人物表现上普遍面临挑战。要想获得更稳定、真实、一致的人物视频,图生视频通常是更可靠的选择。
8)一个小男孩正全神贯注地搭建积木。
9)一个小女孩拿着气球,慢慢地向前奔跑。
10)一个男人坐在沙发上看电视,随后双手抱头,露出极为惊讶的表情。
(4)动物
相比人物,当前主流视频模型在动物生成上的表现通常要好上一个台阶。当然,前提是动物得“动”起来,而不是仅仅做画面的缩放。
从测试的多个案例来看,混元视频模型在动物写实方面表现颇佳,甚至带有些许纪录片的味道。
11)非洲草原上,一只猎豹正在急速奔跑,追逐前方的羚羊。
12)大兴安岭,一只老虎在白雪皑皑的森林中急速奔跑。
13)故宫红墙前的树枝上,一只喜鹊正在觅食。
(5)科幻、魔幻、玄幻
幻想风格是吸引许多人使用AI生成视频的重要原因,它极大地释放了创作想象力。
这类风格特别考验模型数据集的广度和泛化能力(即处理未见过的、新颖数据的能力),能否将天马行空的想象转化为具体的光影、色彩、变形与动作特效。
这部分我们放置的案例最多。考虑到视频转成动图可能压缩画质,部分案例直接保留了原视频链接。
14)一艘飞船正在穿越小行星带。
15)一艘飞船穿越五彩斑斓的时光隧道。
16)两个巨型机器人在城市中激战,每一次碰撞都产生巨大冲击波,将周围的建筑震成碎片。
17)昏暗的废弃走廊中,一支海军陆战队正在谨慎穿行。
18)乌云密布、电闪雷鸣的云端,一条巨龙突然破云而出,飞奔而来。
这想象力,看来模型没少“观摩”《权力的游戏》。
(6)特效
特效(Special Effects)是影视视觉艺术的核心,常见的如爆炸、烟雾、火焰、高速运动等。
特效镜头同样主要检验模型的泛化能力和对复杂指令的细节执行水平。
19)暴风雪中,一列蒸汽火车在崎岖山间穿行,车头喷出的黑烟直冲云霄,车厢在皑皑白雪中留下深邃轨迹。
20)一座破旧仓库内部,突然发生爆炸。
21)雾蒙蒙的夜晚,明亮的月光下,一艘中世纪帆船在诡异氛围笼罩的海上航行。
22)五颜六色的水母在海底自由游动。它们身体呈现透明的蓝、紫、粉色,在水中散发出迷人光芒。
(7)动画
动画风格主要考察模型对不同艺术风格的兼容性和审美水平,比如2D、3D、矢量、黏土、水墨、宫崎骏、迪士尼等。
先来一个参考了Sora的经典提示词案例。
23)动画场景特写:一只毛茸茸的小怪物跪在一支正在融化的红色蜡烛旁。艺术风格为3D写实,注重光影与纹理。画面氛围充满惊奇与好奇,小怪物睁大眼睛、张着嘴凝视火焰。它的姿态和表情透露出天真与顽皮,仿佛第一次探索周围世界。温暖的色调和戏剧性的光线进一步增强了图像的温馨氛围。
再来看看宫崎骏风格的表现。
24)一片奇幻花园映入眼帘,园中长满形态各异、色彩缤纷的奇花异草。一群活泼可爱、身着五彩衣裳的小精灵在花草间嬉戏玩耍。吉卜力动画风格,让人仿佛置身于宫崎骏创造的梦幻世界。
(8)艺术/抽象
艺术风格主要挑战模型对图形、空间、色彩和力量变化的抽象理解能力。测试了几个案例,没想到混元在抽象艺术视频上也能有所发挥。
25)粒子旋转,汇聚成抽象的形态。
26)由不同颜色组成的不规则图形,缓慢旋转。
27)5度斜角固定镜头,浅景深对焦,紫红色霓虹灯与青色全息投影交织。画面中央,一位着装前卫的机械舞者张开双臂,向观众致意。
(9)运动
运动生成被视为视频模型“皇冠上的明珠”,因为其挑战性最大。
要生成符合真实世界物理规律的运动视频,模型需要对空间关系、不同物体的受力与形态变化、以及各种运动的语义有深刻理解。这需要相当深厚的技术积累。
28)日落时分的越野赛道,一辆改装福特F-150猛禽呼啸而过。加高的悬挂让巨大的防爆轮胎在泥地上肆意翻腾,飞溅的泥浆在防滚架上形成斑驳图案。车身贴花在金色阳光下闪烁,机械增压器的呼啸与排气轰鸣交织。
29)慢动作回旋镜头,雷暴天气伴随闪电,一位英姿飒爽的中国侠客在竹林中于雨中舞剑。
30)一辆越野车在险峻山腰行驶,远处的贡嘎雪山在视野中缓缓升起并逐渐清晰。
(10)多人场景/大场面/多镜头
多人场景涉及多人物动作协调与巨大的算力需求,目前很多视频模型在此类任务上容易“崩坏”,包括一些知名模型。那么,混元的表现如何呢?
31)镜头从骑马骑士的脚部特写开始缓缓上移,最终定格在骑士坚毅的面部,他目视前方。背景是中世纪战场,两军交战,人仰马翻。
32)一群人围坐在篝火旁,有说有笑,充满欢声笑语。
十个风格领域测试完毕,可以得出以下几点总结:
1)指令遵循度高。模型对提示词的理解比较到位。建议在构思提示词时,注重画面逻辑的清晰和指令的明确,避免堆砌过多修饰词或并列多个主体,以免干扰模型的“注意力”。
2)动态表现与画面稳定性佳。在测试的300多支视频中,虽有失败案例,但没有出现单纯通过缩放画面来模拟运动的“PPT式”视频。动作自然,速度正常,慢镜头或动画感很弱。
3)镜头语言理解到位。如果指定了镜头类型和景别,模型会严格遵循。若未指定,模型也能根据提示词自行设计镜头,有时能带来惊喜。例如下面这个案例,效果就相当出色。
提示词:超大海浪,冲浪者在浪花上起跳,完成空中转体。摄影机从海浪内部穿越而出,捕捉阳光透过海水的瞬间。水花在空中形成完美弧线,冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。
4)5秒视频也能实现镜头切换。在部分场景下(通常是描述较长的提示词),即使只有5秒时长,混元模型也能自动进行镜头切换,并在切换后保持主体的连贯性。
5)在科幻、魔幻、写实纪录片、特效、运动等风格上表现出色,成片率高。尤其是魔幻风格,颇有《权游》质感,推测这与腾讯自身的视频数据储备有关。
6)“抽卡”次数少。如果指令清晰,有时一次生成就能得到满意结果。最多再生成3-5次,基本也能获得理想的视频。
7)对新手友好。在输入界面,提供了风格、景别、光线、镜头运动以及多种模式(如流畅运镜、丰富动作、导演模式)的标签选择,降低了上手门槛。
别小看这些标签。在实际测试中,它们对最终视频效果的提升帮助很大,特别是在确定视频风格和运镜方式时。
当然,测试中也发现了一些有待改进之处:
1)泛化能力仍有提升空间。对于一些生僻、冷门或未经训练的描述词(如特定主体、场景、动作),模型还无法准确识别,这在一定程度上限制了其创造性。
2)画质需进一步提升。目前输出分辨率为720P(实测确为720P),虽然提供了“高品质”模式,但对于专业创作者而言,这还不够。
3)对本土人物的理解有待加强。如果提示词中未注明“亚洲人”,模型默认生成的人物形象往往偏向欧洲人特征。当然,文生视频技术本身在人物一致性上就不占优,更优解可能需等待图生视频功能。此外,模型在人物情绪的表达上也稍显薄弱。
03 写在最后
经过连续数日的高强度测试,一个基本的判断是:作为初代模型,混元视频的整体质量非常高,优于许多同类产品的第一版表现。
据了解,这得益于其在几个关键技术点的创新:
- 采用新一代语言模型作为文本编码器,增强了语义理解和画面构建能力;
- 全程使用全注意力(full attention)机制,而非时空分离模块,使得帧与帧之间的衔接更为流畅自然;
- 使用自研的图像视频混合VAE(3D变分自编码器),提升了在细节(如人脸、手指、高速镜头)上的表现力。
而更为关键的一步是,腾讯宣布将这一模型开源。
从现在起,无论是个人开发者还是企业,都可以在Hugging Face和GitHub上免费获取并使用这个模型。
- 代码仓库:https://github.com/Tencent/HunyuanVideo
- 模型地址:https://huggingface.co/tencent/HunyuanVideo
这个举动可谓相当大气。一个130亿参数的模型,说开源就开源,并且是完整公开模型权重、推理代码及算法细节。
要知道,视频生成模型技术门槛高,敢于且能够开源的厂商寥寥无几。即便是某些被誉为“开源标杆”的厂商,其视频模型也未必选择开源路线。
混元视频模型选择“上线即开源”,这份气度和格局值得肯定。至此,腾讯混元系列已开源了文生文、文生图、3D生成以及最新的文生视频模型,形成了较为完整的开源AI生成能力矩阵。
