游乐游手机版
首页/AI热点日报/热点详情

AI视频告别抽卡时代 导演模型引领新趋势

类型:热点整理2026-06-07
抽卡时代,眼看着就要翻篇了。 过去一年多,大家对AI视频的体感,说白了就两个字:抽卡。输入一段prompt,点下生成,盯着进度条等模型吐出几秒钟的画面——好看就留下,不好看就改改词再来一发。它确实能炸出几秒惊艳的画面,但扔给创作者的,从来不是一段能直接拿来用的素材,而是一张抽中了就用、抽不中重抽的卡

抽卡时代,眼看着就要翻篇了。

过去一年多,大家对AI视频的体感,说白了就两个字:抽卡。输入一段prompt,点下生成,盯着进度条等模型吐出几秒钟的画面——好看就留下,不好看就改改词再来一发。它确实能炸出几秒惊艳的画面,但扔给创作者的,从来不是一段能直接拿来用的素材,而是一张抽中了就用、抽不中重抽的卡。

抽卡最磨人的地方,其实不是画面不够真,而是不可控。你想要一个满分成片,模型却给你十个各有七八分、彼此还对不上号的片段——你没法跟它商量“这个镜头别动,只换一下人物动作”,唯一能做的就是重新摇一次反赌,赌下一发更好。

不过,这套玩法最近明显变了。这一两个月里,几款新视频模型几乎前后脚冒出来,产品形态、技术路线、面向的市场各不相同,但释放出的信号却出奇一致:竞争的重点不再是“谁能一次性生成一段更好看的视频”,而是“谁生成的东西能被持续地修改、控制和复用”。换句话说,AI视频正在从一个出片机器,进化成一套生产工具。

问题也随之而来:当AI视频走到这一步,创作者的核心竞争力会不会从剪辑,转向一种更接近导演的东西?毕竟我们不再需要“赌”视频生成的内容了——那么,更好地表达与镜头设计,会不会成为未来AI视频创作的重心?

不能二次编辑的视频模型,不是好AI

AI视频“能编辑”这个方向,最近热度最高的莫过于谷歌和Runway这两家。

Runway端出的是Aleph 2.0,主打基于原视频语境做修改。说白了,它不再把每次生成都当成一张白纸,而是认得你手上这段素材里有什么,能在理解原片的前提下做局部改动——而不是动一下就推倒重来。谷歌这边是Gemini Omni,走的是另一条路:对话式的连续编辑。你可以像跟人聊天一样,一句句往下提要求,让模型在上一版的基础上接着改,而不是每提一个新需求就从头再摇一次。

比如,我们在Gemini上要求它生成一段视频:一只白色陶瓷杯放在木桌上,镜头缓慢推进,杯子旁边有一本笔记本和一支黑色钢笔,自然日光,真实手机拍摄感,背景是普通工作室的广告质感。第一轮生成的画面已经相当令人满意。但看起来并不像一段真正的广告片。

于是我们直接让它基于这段素材,把画面变得更像咖啡品牌广告片——比如给杯中咖啡增加细微热气,在杯壁加入柔和高光等。

不难看出,杯子、钢笔、笔记本,甚至背后的场景都没变。变的是什么呢?咖啡出现的时间、运镜的手法、热气萦绕的效果。这正是AI视频从生成走向编辑的中间状态:过去是写一句prompt等模型出片,现在变成了先生成一条基础素材,再告诉模型哪里还不够好。创作者开始像导演一样给出修改方向,只是模型还没法像剪辑软件那样精确服从。它不再只是抽卡,但也还没长成真正的后期工具。

Gemini这种对话式的改法只是其中一条路。国内的可灵和Seedance 2.0,则在把“能改”这件事往更系统的方向推,只是各自挑的切口不太一样。

可灵O1的打法,是把一整套活儿收进一个引擎。生成、修改、参考、风格重绘、镜头延展——这些过去要么做不到、要么得在好几个工具之间来回倒腾的事,它想让你在一个地方就从头做到尾。这个思路聪明在,它没把自己当成一个单点功能很强的生成器,而是想做成一张创作台。对创作者来说,最磨人的从来不是某一步有多难,而是一支片子得在七八个工具之间搬来搬去、导入导出反复横跳。可灵想啃的正是这块衔接上的内耗。

Seedance 2.0挑的切口则是多模态。它把文字、图片、视频、音频都变成能喂进去的参考,用来增强参考生成、视频延展和音画同步。过去我们谈视频模型,下意识只盯着画面好不好看。可视频从来不只是会动的画面——它是画面、动作、声音、节奏几样东西咬合在一起的结果。Seedance把声音和动作也拉进可控范围,等于在提醒一件事:视频模型不能只会画画,它还得听得懂节奏,知道这一刀该剪在哪一拍上。

更直白地说,从整个视频模型的发展方向来看,抽卡时代已经彻底结束了。接下来是“可编辑时代”——哪家模型能够把整个流程打通,给用户最直观的优化提示词、二次编辑修改方案,谁就能继续占领高地。

AI视频不再碰运气,人类要干的活也变了

绕了一大圈,回到开头那个问题。当AI生视频已经不是抽卡,人在整个工作流里的角色,到底会不会变?答案是肯定的。

过去,一个优秀的视频创作者,靠的是剪辑、调色、转场、配乐这些手上功夫,一帧帧抠出自己的风格。这些能力不会作废,但当模型能听懂“保留这个运镜,只把质感往广告片靠”的时候,真正拉开差距的,开始变成另一套东西:会不会描述镜头、能不能控制节奏、判不判断得出哪一处该留、哪一处该推倒重做。说白了,是“导演模型”的能力。

AI视频不会立刻取代剪辑,也不会让创作者沦为只会写prompt的提示词工人。这两种极端说法都太省事了。更准确的变化是:视频生产的重心正在从“素材加工”挪向“意图调度”。过去你是亲手把素材一刀刀拼成成片,往后你更多是在告诉模型,我要什么、不要什么、这一版哪里还差口气。

而这套调度能力,恰恰是有门槛的。谁能把脑子里那个模糊的创意,拆成模型听得懂的镜头语言?谁能在模型吐出一版结果时,一眼判断出它到底可不可用、还差在哪?谁就更像未来那个“模型导演”。导演自己未必扛摄影机、未必剪每一刀,但他清楚整部片子要什么,知道每个岔路口该往哪边走。AI视频成熟之后,创作者要做的也是这件事。

工具换了,门槛自然也不一样了。可创作最核心的东西其实没变——依然是你脑子里那个清晰的成片,以及你愿不愿意一遍遍把模型调到位。抽卡的时代要过去了,赌徒会越来越少,真正稀缺的,是那个知道自己想要什么、并且有本事让模型把它交出来的人。

AI不会取代打工人,但会推着他们向前走

每次有个新工具把某项手艺活自动化掉,总有人喊饭碗要没了。可回头看,工具升级真正干掉的从来不是这群人,而是他们工作里最机械的那部分。

最经典的例子是电子表格。VisiCalc和后来的Excel出现之前,会计和财务一天里大把时间耗在拿计算器一格格算、一笔笔记账上。表格软件把这些重复计算全包了,结果不是会计失业,而是他们从“算数的人”变成了“做模型、看趋势、给决策当参谋的人”。最枯燥的执行被收走,腾出来的精力反而让这份工作更值钱了。

非线性剪辑软件普及之前,剪辑是真要拿刀片去切胶片、对着磁带一帧帧倒的,所以才有“剪视频”这种话术。然而Premiere、Final Cut这类软件出来后,物理意义上的“剪”消失了,可剪辑师并没有消失——他们从体力活里抽身,把注意力放到了节奏、叙事和情绪这些更高一层的判断上。工具替掉的是手上的苦力,留下的是脑子里的取舍。

AI编程助手出来之后,程序员里最先慌的是“以后是不是不用我写代码了”。可真实的变化是,他们花在一行行敲样板代码上的时间被压缩了,更多精力转去审模型写得对不对、把架构和边界想清楚、判断哪段能信哪段得返工。会写代码依然重要,但更稀缺的能力,变成了知道该让模型写什么。如今流行的Vibe Coding,某种意义上确实降低了“入门”的门槛,但真正要从0开发到交付,Vibe Coding出来的作品往往很难过关。

回到AI视频本身,它的下一阶段,比的不再是谁画面更真,而是谁更稳定、更可控、更可编辑。创作者也不会只剩写prompt这一件事,反而更像一个模型导演——知道该保留什么、改什么、用什么参考去约束模型、怎么让它连续改到可用为止。剪辑这门手艺不会消失,但创作者最值钱的能力,正在从“把软件用得多熟”,换成“把模型调度得多准”。

工具一直在往上走,打工人要做的,是努力让自己始终站在AI工具无法取代的位置上。抽卡的时代要过去了,赌徒会越来越少,而真正稀缺的,永远是那个知道自己想要什么、并且有本事让模型把它交出来的人。

来源:https://36kr.com/p/3839968025705096

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。