游乐游手机版
首页/AI热点日报/热点详情

实测四大开源AI视频模型:阿里腾讯阶跃星辰智谱无限生成时代

类型:热点整理2026-07-01
开源视频模型赛道,终于卷到新阶段了。前有智谱CogVideoX v1 5、腾讯混元HunyuanVideo、阶跃星辰Step-Video-T2V先后亮相,昨天阿里又甩出了一款全新的Wan2 1。四大模型齐聚,让人不禁想问:到底哪个生成效果更胜一筹?先来看一组大家都熟悉的prompt对比效果——坦率地

开源视频模型赛道,终于卷到新阶段了。前有智谱CogVideoX v1.5、腾讯混元HunyuanVideo、阶跃星辰Step-Video-T2V先后亮相,昨天阿里又甩出了一款全新的Wan2.1。四大模型齐聚,让人不禁想问:到底哪个生成效果更胜一筹?

先来看一组大家都熟悉的prompt对比效果——坦率地说,单从这一组画面,差异不算特别明显。如果测试的维度更全面、更刁钻一些呢?恐怕结果就没那么“宽容”了。

所以今天,索性玩一次大的——用同一个提示词,喂给四个模型,来一场真实的横向测评,不吹不黑,看看开源视频模型的实力到底掰开了是什么样。百镜系列,又来了。

100镜实测四大开源AI视频模型 - 阿里、腾讯、阶跃星辰和智谱,无限生成的Time要来了


一、物理规律

老规矩,先看物理规律复现能力。考验模型能不能理解现实世界怎么“动”。

第一个测试科目:切东西。切东西看起来简单,其实很不简单——得同时处理好手部动作和刀与物体间的作用力。四个模型都成功切下了苹果,刀和果肉之间的受力关系也基本在线。但混元的画面让人看得心惊,总感觉刀会切到手;通义万相则顺滑得有点不真实,像擦过黄油一样。

那如果换成了物体掉落地面呢?这是另一个经典测试。希望看到的是正常物理速度,而不是夸张的“跳飞”或“弹射”。

结果是:每个模型对苹果落地瞬间的还原都还不错,接近真实。细挑毛病的话,智谱清影的灰尘飞扬得大了一些,阶跃星辰那边,苹果落地后又多了一滴不知名液体的“乱入”。

从这两个简单测试能感受到,视频模型确实在朝着更贴近真实物理的方向进化。只看这种效果,也比最初那批AI视频模型好太多了——有些片段甚至已经让人分不清真伪。

二、人物

到了人物部分,先看各模型对脸部细节的把控。

prompt:白发老人微笑,皱纹舒展,手持蒲公英,微风轻拂,蒲公英种子缓慢飘散

用的是同一段提示词。但阶跃星辰生成出的白发老人,怎么看都像从古装片数据集里穿越出来的……而且蒲公英去哪了?另外三家的蒲公英也都未表现出种子飘散的细节。不过面部处理都还不错,混元还做了个很有意思的面部虚焦效果。

接着,试一个大家熟悉的复杂人物互动场景:

prompt:一位身穿深黄色防护服的女医生的电影镜头。镜头慢慢拉近她的脸,轻轻平移以强调她眉毛上刻下的担忧和焦虑。她弓着背坐在实验室桌子上,聚精会神地凝视着显微镜,戴着手套的手小心翼翼地调整焦距。浅浅的景深聚焦在她眼睛上,反映了她所承受的巨大压力和责任。

有意思的是,只有混元生成的人物是亚洲人脸,其他三个模型清一色欧洲面孔——训练数据集的不同,在这一点上毫不掩饰。除此以外,各家对于指令执行得都比较到位。

最后,试一段芭蕾舞动作,检验模型对复杂人体运动的把控:

prompt:一名舞者在跳芭蕾舞,蓝色的背景,舞台上,全景镜头拍摄舞者优雅的身姿和飘逸的舞蹈动作

如果非要做个排序的话,大约是这个顺序:阶跃星辰 > 通义万相 > 腾讯混元 ≈ 智谱清影。阶跃不仅完成度最高,还顺带生成了多人物镜头,而且每个人物都没崩。通义万相的动作也比较完整。相比之下,混元和清影中,仔细看都能发现腿部动作的错乱或扭曲。

这结果表明,人物动作依然是视频模型需要重点攻克的方向。其实就芭蕾这个场景,动作并不算复杂,人物手里甚至没有道具,生成空间相当自由——但各家在不同程度上都出了些问题。要想获得理想片段,还得靠多次抽卡。

三、动物

人物测完,按流程测动物。看毛发是否自然、运动是否流畅,以及模型对生物物种的想象力。

prompt:一个低角度镜头捕捉到一群粉红色的火烈鸟优雅地涉水在郁郁葱葱、宁静的泻湖中。它们鲜艳的粉红色羽毛与周围植被的翠绿和清澈碧绿的海水形成鲜明对比。阳光从水面上闪闪发光,在火烈鸟的羽毛上产生波光粼粼的倒影。当鸟儿穿过浅水区时,它们优雅、弯曲的脖子被淹没在水中,它们的动作产生柔和的涟漪,蔓延到整个泻湖。构图强调了场景的宁静和自然美景,突出了生态系统的微妙平衡和这些壮丽鸟类与生俱来的优雅。清晨柔和的漫射光线将整个场景沐浴在温暖、空灵的光芒中。

在阶跃星辰的想象里,红色的鸭子就等于火烈鸟?清影的“座机画质”是什么情况?混元的火烈鸟则多得有些离谱……

再来测高速运动——猎豹奔跑:

prompt:一只猎豹正在非洲草原上快速飞奔,它的身体呈现出流畅的流线型,肌肉线条紧绷,充满了力量和速度。猎豹的眼神专注而锐利,镜头快速捕捉猎豹飞奔的身影,整个画面充满了紧张和刺激的气氛,让人感受到了猎豹的凶猛和力量。

必须要说,通义万相对高速运动物体背景的处理确实强,能明显感受到猎豹飞奔时的环境氛围。

最后一个不常见的物种——拟态章鱼,考验模型对冷门生物的想象力:

prompt:水下微距摄影,一只拟态章鱼在色彩斑斓的珊瑚礁中巧妙变色伪装,其触手缓慢而优雅地蠕动,探索着周围的环境。细小的气泡从章鱼身边缓缓上升,阳光透过清澈的海水,近距离特写镜头,捕捉章鱼与自然环境的完美融合。

综合来看,通义万相还是做得最好的那个。阶跃的章鱼头部有些变形;混元虽然在“拟态章鱼”腿上掉了链子,但水中的气泡细节很扎实;清影整体画面不错,不过运动幅度太小了。

四、场景

完整的视频制作,少不了空镜和大场景镜头。这类镜头极端考验模型对画面中各种细节的展现力。

prompt:暴风雨肆虐的夜晚,一座哥特式灯塔矗立于海岸边,被狂风巨浪包围。闪电划破漆黑的天际,瞬间照亮了灯塔的轮廓,展现出其尖顶和复杂的石砌结构。巨浪猛烈地拍打着礁石,溅起层层白沫。镜头捕捉到闪电照亮灯塔的那一刹那,采用纪实摄影风格,营造出紧张而神秘的氛围。中远景,低角度拍摄,强调自然力量与人类建筑的对抗。

再来一个更科幻的场景:

prompt:未来主义赛博朋克风格,繁忙的都市上空,悬浮列车在透明轨道上穿梭,留下绚烂尾迹。全息广告牌闪烁着霓虹色彩,展示着虚拟模特与产品。空中花园绿意盎然,樱花树绽放,粉色花瓣随微风轻舞飘落。广角镜头捕捉壮观的城市全景,强调科技与自然的融合。

两组画面看下来,四个模型各有各的亮点,各有各的侧重。但仔细看,大场景中的微小细节依然不够精细——这其实是AI视频长期以来的通病,也是它仍然不太能直接上大屏播放的原因。一个画面中,总难免有那么一两个“不忍细看”的地方。不过,多迭代几次,说不定这个短板就会被彻底击穿。

五、风格化

风格化测试本质是对模型技术成熟度的压力测试——既能验证它能否适配不同场景,也能暴露它在图像风格合成上的短板。

这次挑了四种风格:水墨风、简单2D动画、皮克斯3D动画和新海诚动画。

水墨风格:

prompt:水墨动画风格,仙鹤展翅高飞,优雅地掠过烟波浩渺的山水之间,其身影仿佛与周围的云雾融为一体,画面以中国传统山水为背景,远山近水层次分明,仙鹤的动态展现了生命的活力与自由。整体色调以黑白灰为主,突出水墨特有的淡雅韵味,近景捕捉仙鹤飞翔的瞬间,展现出水墨动画独有的飘逸美感。

简单2D动画:

prompt:复古手绘卡通风格,一辆古老的蒸汽火车正穿越绚烂的彩虹桥,车厢内热闹非凡,挤满了各式各样的会说话的动物。火车头喷出浓厚的蒸汽,车身由明亮的红绿两色组成,窗户敞开着,露出车内动物们好奇的脸庞,整个画面充满了梦幻与童趣,宛如童话世界的一幕,远景。

皮克斯3D动画:

prompt:皮克斯风格的3D动画场景,一只毛茸茸的小橘猫正坐在一艘旧木船上,随着轻柔的海浪悠闲地向前漂流。小猫眼神好奇,耳朵竖起,似乎在聆听大海的声音。它四肢微曲,尾巴轻轻摆动,展现出对未知旅程的期待。木船表面有着岁月的痕迹,边缘挂着几只彩色救生圈,增添了几分童趣。背景是广阔蔚蓝的大海与天空,远景,采用跟随镜头,展现小猫与海浪互动的过程。

新海诚动画:

prompt:新海诚动画风格,细腻的光影变化和唯美的画面构图。阳光透过茂密的树叶洒在森林中,一个小女孩站在中央,光芒在她的头发和肩膀上跳跃,营造出一种梦幻般的氛围。镜头缓慢推进,聚焦在她的身影上,仿佛在探索她的内心世界。随着她的头发在微风中轻轻飘动,镜头切换到她的视角,仰望天空,一只蝴蝶从画面右侧飞入,轻盈地在她面前盘旋,镜头跟随蝴蝶的飞舞轨迹,展现出森林的生机与活力。整段视频充满了温馨与宁静的氛围,仿佛一幅动态的童话画卷。

总体来看,每个模型都有自己拿手和不拿手的风格。很难说哪家能通吃所有风格,但大致可以总结出:混元更擅长新海诚,清影在2D手绘上更自如,通义万相适合水墨风,阶跃的皮克斯动画比较有味道。

在模型还没有进化成全能的“六边形战士”之前,能做的就是多试,多掌握每一款模型的调性,把它的擅长风格用到极致。

一些思考

你会发现一个规律:视频模型更新时,往往先把文生视频端出来,后面才会推图生视频。为什么会这样?因为文生视频的门槛最低——输入一段文字就能得到视频片段,使用者之间的最终成品差异不会太大。不像图生视频,在“图片”这一步就会产生更多变量。

但也恰恰是这种最简单的测试,更能考验模型的底层能力。说句不算太夸张的话:如果文生视频能力都平平,那图生视频的表现……你们懂的。(当然,前提是它已经推出了图生视频功能。也并非100%对应,具体还要具体测。)

那么,开源又有什么意义?

视频模型开源,好比把“生成视频的魔法配方”免费公开——所有人不仅能用,还能低成本地改、低成本地升级。一个人改一个配方可能不够,但一万个人改一万个版本,总会有人解决掉那些最难缠的bug。归根到底一句话,开源就是“众人拾柴火焰高”,让AI视频技术更快、更广、更低成本地普及下去。这是开发者的福音,也是AI技术必须向前推进的方式。

来源:https://www.53ai.com/news/OpenSourceLLM/2025022747061.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。