AI视频告别抽卡时代导演模型引领新趋势_AI热点日报

AI视频告别抽卡时代导演模型引领新趋势

类型：热点整理2026-06-07

抽卡时代，眼看着就要翻篇了。过去一年多，大家对AI视频的体感，说白了就两个字：抽卡。输入一段prompt，点下生成，盯着进度条等模型吐出几秒钟的画面——好看就留下，不好看就改改词再来一发。它确实能炸出几秒惊艳的画面，但扔给创作者的，从来不是一段能直接拿来用的素材，而是一张抽中了就用、抽不中重抽的卡

抽卡时代，眼看着就要翻篇了。

过去一年多，大家对AI视频的体感，说白了就两个字：抽卡。输入一段prompt，点下生成，盯着进度条等模型吐出几秒钟的画面——好看就留下，不好看就改改词再来一发。它确实能炸出几秒惊艳的画面，但扔给创作者的，从来不是一段能直接拿来用的素材，而是一张抽中了就用、抽不中重抽的卡。

抽卡最磨人的地方，其实不是画面不够真，而是不可控。你想要一个满分成片，模型却给你十个各有七八分、彼此还对不上号的片段——你没法跟它商量“这个镜头别动，只换一下人物动作”，唯一能做的就是重新摇一次反赌，赌下一发更好。

不过，这套玩法最近明显变了。这一两个月里，几款新视频模型几乎前后脚冒出来，产品形态、技术路线、面向的市场各不相同，但释放出的信号却出奇一致：竞争的重点不再是“谁能一次性生成一段更好看的视频”，而是“谁生成的东西能被持续地修改、控制和复用”。换句话说，AI视频正在从一个出片机器，进化成一套生产工具。

问题也随之而来：当AI视频走到这一步，创作者的核心竞争力会不会从剪辑，转向一种更接近导演的东西？毕竟我们不再需要“赌”视频生成的内容了——那么，更好地表达与镜头设计，会不会成为未来AI视频创作的重心？

不能二次编辑的视频模型，不是好AI

AI视频“能编辑”这个方向，最近热度最高的莫过于谷歌和Runway这两家。

Runway端出的是Aleph 2.0，主打基于原视频语境做修改。说白了，它不再把每次生成都当成一张白纸，而是认得你手上这段素材里有什么，能在理解原片的前提下做局部改动——而不是动一下就推倒重来。谷歌这边是Gemini Omni，走的是另一条路：对话式的连续编辑。你可以像跟人聊天一样，一句句往下提要求，让模型在上一版的基础上接着改，而不是每提一个新需求就从头再摇一次。

比如，我们在Gemini上要求它生成一段视频：一只白色陶瓷杯放在木桌上，镜头缓慢推进，杯子旁边有一本笔记本和一支黑色钢笔，自然日光，真实手机拍摄感，背景是普通工作室的广告质感。第一轮生成的画面已经相当令人满意。但看起来并不像一段真正的广告片。

于是我们直接让它基于这段素材，把画面变得更像咖啡品牌广告片——比如给杯中咖啡增加细微热气，在杯壁加入柔和高光等。

不难看出，杯子、钢笔、笔记本，甚至背后的场景都没变。变的是什么呢？咖啡出现的时间、运镜的手法、热气萦绕的效果。这正是AI视频从生成走向编辑的中间状态：过去是写一句prompt等模型出片，现在变成了先生成一条基础素材，再告诉模型哪里还不够好。创作者开始像导演一样给出修改方向，只是模型还没法像剪辑软件那样精确服从。它不再只是抽卡，但也还没长成真正的后期工具。

Gemini这种对话式的改法只是其中一条路。国内的可灵和Seedance 2.0，则在把“能改”这件事往更系统的方向推，只是各自挑的切口不太一样。

可灵O1的打法，是把一整套活儿收进一个引擎。生成、修改、参考、风格重绘、镜头延展——这些过去要么做不到、要么得在好几个工具之间来回倒腾的事，它想让你在一个地方就从头做到尾。这个思路聪明在，它没把自己当成一个单点功能很强的生成器，而是想做成一张创作台。对创作者来说，最磨人的从来不是某一步有多难，而是一支片子得在七八个工具之间搬来搬去、导入导出反复横跳。可灵想啃的正是这块衔接上的内耗。

Seedance 2.0挑的切口则是多模态。它把文字、图片、视频、音频都变成能喂进去的参考，用来增强参考生成、视频延展和音画同步。过去我们谈视频模型，下意识只盯着画面好不好看。可视频从来不只是会动的画面——它是画面、动作、声音、节奏几样东西咬合在一起的结果。Seedance把声音和动作也拉进可控范围，等于在提醒一件事：视频模型不能只会画画，它还得听得懂节奏，知道这一刀该剪在哪一拍上。

更直白地说，从整个视频模型的发展方向来看，抽卡时代已经彻底结束了。接下来是“可编辑时代”——哪家模型能够把整个流程打通，给用户最直观的优化提示词、二次编辑修改方案，谁就能继续占领高地。

AI视频不再碰运气，人类要干的活也变了

绕了一大圈，回到开头那个问题。当AI生视频已经不是抽卡，人在整个工作流里的角色，到底会不会变？答案是肯定的。

过去，一个优秀的视频创作者，靠的是剪辑、调色、转场、配乐这些手上功夫，一帧帧抠出自己的风格。这些能力不会作废，但当模型能听懂“保留这个运镜，只把质感往广告片靠”的时候，真正拉开差距的，开始变成另一套东西：会不会描述镜头、能不能控制节奏、判不判断得出哪一处该留、哪一处该推倒重做。说白了，是“导演模型”的能力。

AI视频不会立刻取代剪辑，也不会让创作者沦为只会写prompt的提示词工人。这两种极端说法都太省事了。更准确的变化是：视频生产的重心正在从“素材加工”挪向“意图调度”。过去你是亲手把素材一刀刀拼成成片，往后你更多是在告诉模型，我要什么、不要什么、这一版哪里还差口气。

而这套调度能力，恰恰是有门槛的。谁能把脑子里那个模糊的创意，拆成模型听得懂的镜头语言？谁能在模型吐出一版结果时，一眼判断出它到底可不可用、还差在哪？谁就更像未来那个“模型导演”。导演自己未必扛摄影机、未必剪每一刀，但他清楚整部片子要什么，知道每个岔路口该往哪边走。AI视频成熟之后，创作者要做的也是这件事。

工具换了，门槛自然也不一样了。可创作最核心的东西其实没变——依然是你脑子里那个清晰的成片，以及你愿不愿意一遍遍把模型调到位。抽卡的时代要过去了，赌徒会越来越少，真正稀缺的，是那个知道自己想要什么、并且有本事让模型把它交出来的人。

AI不会取代打工人，但会推着他们向前走

每次有个新工具把某项手艺活自动化掉，总有人喊饭碗要没了。可回头看，工具升级真正干掉的从来不是这群人，而是他们工作里最机械的那部分。

最经典的例子是电子表格。VisiCalc和后来的Excel出现之前，会计和财务一天里大把时间耗在拿计算器一格格算、一笔笔记账上。表格软件把这些重复计算全包了，结果不是会计失业，而是他们从“算数的人”变成了“做模型、看趋势、给决策当参谋的人”。最枯燥的执行被收走，腾出来的精力反而让这份工作更值钱了。

非线性剪辑软件普及之前，剪辑是真要拿刀片去切胶片、对着磁带一帧帧倒的，所以才有“剪视频”这种话术。然而Premiere、Final Cut这类软件出来后，物理意义上的“剪”消失了，可剪辑师并没有消失——他们从体力活里抽身，把注意力放到了节奏、叙事和情绪这些更高一层的判断上。工具替掉的是手上的苦力，留下的是脑子里的取舍。

AI编程助手出来之后，程序员里最先慌的是“以后是不是不用我写代码了”。可真实的变化是，他们花在一行行敲样板代码上的时间被压缩了，更多精力转去审模型写得对不对、把架构和边界想清楚、判断哪段能信哪段得返工。会写代码依然重要，但更稀缺的能力，变成了知道该让模型写什么。如今流行的Vibe Coding，某种意义上确实降低了“入门”的门槛，但真正要从0开发到交付，Vibe Coding出来的作品往往很难过关。

回到AI视频本身，它的下一阶段，比的不再是谁画面更真，而是谁更稳定、更可控、更可编辑。创作者也不会只剩写prompt这一件事，反而更像一个模型导演——知道该保留什么、改什么、用什么参考去约束模型、怎么让它连续改到可用为止。剪辑这门手艺不会消失，但创作者最值钱的能力，正在从“把软件用得多熟”，换成“把模型调度得多准”。

工具一直在往上走，打工人要做的，是努力让自己始终站在AI工具无法取代的位置上。抽卡的时代要过去了，赌徒会越来越少，而真正稀缺的，永远是那个知道自己想要什么、并且有本事让模型把它交出来的人。

来源：https://36kr.com/p/3839968025705096

Gemini

延伸阅读

补充最近整理过的热点入口。