今年年初,OpenAI突然扔出了一颗深水冲击波——文生视频大模型Sora。它不仅能生成一分钟的连贯高清视频,还展现出了对物理世界的初步理解,仿真能力相当强。一时间,国内AI行业又一次被甩开的焦虑开始在网络上蔓延。

可谁曾想到,仅仅半年过去,当Sora几乎“查无此人”时,国内的文生视频模型已经开始了捉对厮杀。就在快手的可灵AI宣布全面开放内测之后,字节跳动剪映团队研发的“即梦AI”也正式上架,并且同步上线了付费会员体系。
为什么OpenAI的Sora还停留在PPT阶段,反而是“中国版Sora”率先跑通了商业化?说快手、字节跳动的AI研发能力碾压OpenAI,显然不现实——毕竟豆包、快意还比不了GPT-4o。真正的原因或许在于:Sora只是OpenAI当时狙击谷歌Gemini 1.5的一个工具,而对于快手和抖音这两大短视频平台来说,文生视频模型的意义完全不同。

为什么快手和字节跳动的文生视频大模型落地如此迅速?这一切还得从Sora带给业界的启示说起。在Sora之前,最好的文生视频产品Runway、Pika,都只能生成不到十秒的视频,与其说是视频,不如说是一段GIF。直到Sora实现了连贯的一分钟视频,并在多角度多镜头切换中保持一致性,还能遵循现实世界的物理规律。
这背后的关键在于Sora采用的Diffusion Transformer架构。OpenAI创造性地把训练大模型的Transformer架构融入Diffusion扩散模型,为图像视频等多模态数据找到了适合Transformer的训练方式。解决了从零到一的问题之后,如何将文生视频模型商业化就成了工程问题——于是便有了即梦AI和可灵AI的青出于蓝而胜于蓝。

对于OpenAI来说,使命是实现AGI,Sora不过是秀肌肉的工具。但快手和字节跳动做文生视频,目标非常明确:为核心业务短视频服务。这也是Sora没了下文,而可灵AI、即梦AI后来居上的重要原因。对于短视频平台而言,文生视频工具意义重大。事实上,可灵AI和即梦AI的正面对决,就像五年前那场视频编辑工具之争。
2019年夏季,抖音的剪映和快手的快影同时迎来爆发式增长,再加上一年后B站的必剪,三大以UGC起家的视频平台不约而同地布局视频编辑产品。这场工具之争背后,是从2019年起随着流量红利消失,视频网站开始从UGC向PUGC转型。抖音、快手、B站纷纷搞起了对创作者的培训。

问题在于,给创作者办培训班固然有效,但平台的人力面对海量创作者群体,无疑是捉襟见肘。互联网厂商宝贵的人工资源显然不是这样用的——用技术手段解决问题才是他们的法宝。抖音和快手开始思考:如何通过技术提升用户制作短视频的效率和质量,从而让更多优质内容涌现?
现实也确实如各家所想。剪映等视频编辑工具通过提供模板、滤镜、主题等模块化功能,成功降低了视频创作的门槛,让更多人有了输出内容的能力。参与创作的人多了,出现优质内容的概率自然更高。

只可惜,即便剪映、快影已经比Adobe Premiere Pro、Vegas Pro等专业软件更加傻瓜化,每个功能都配有视频讲解,但依然存在一定的上手难度,距离真正的零门槛还有相当距离。随着微信视频号加入赛道,分蛋糕的厂商又多了一家,抖音和快手吸引用户停留的压力变得更大。
但AI大模型的出现,给了抖音和快手实现“人人皆是创作者”的机会。文生视频大模型的卖点在于:通过文字直接生成视频,用户不需要任何剪辑知识和技巧,直接就能把文字脚本变成视频。那么这一特质最适合什么样的创作者?答案显而易见——那些还留在微信公众号、知乎以及各大新媒体平台的图文创作者。

没错,图文创作者向视频创作者转型,是几年前就已出现的现象。但直到今天,微信公众号、知乎乃至小红书上依然有大量图文创作者在坚守阵地。短视频平台为了留住这批人,不惜开辟图文专区,但短视频和图文终究是两码事。当年的剪映横空出世,已经让有志于视频创作的用户加入了生态,所以这次AI工具面向的并不是他们。
有了可灵AI、即梦AI,图文创作者可以直接用文字生成想要的视频内容,或者为文字配上符合情境的视频。对于没有接触过视频制作的内容创作者来说,这些工具的效果远超以往的文生视频产品。举个例子,知乎曾在2020年搞过一个图文快速生成视频的工具,但由于效果差强人意,用户根本不买账。

以往的文生视频工具,都是借助NLP技术进行断句和配音,再利用OCR技术通过标签智能配图,从而把平面的图文转化为半立体化的视频。但这种视频的效果和原生视频天差地别,只能解决“有没有”的问题,远达不到商业化水平。
经过过去数月的测试,可灵AI已经证明:它们生成的视频和人类借助编辑工具创作的视频,没有质的差距。既然可灵AI、即梦AI已经具备商业化水平,而抖音、快手又需要更多内容创作者来丰富生态,所以这场AI文生视频工具之战,就像五年前的视频编辑工具争夺战一样,正式拉开了帷幕。

