先说一个公认的判断:AI应用,既是当下国内AI产业的短板,也是追赶乃至实现超车的真正机会所在。

更有意思的是,抛开那场尚处于初级阶段的“百模大战”,单从AI应用落地这个角度来看,抖音和快手这两家天然占据赛道优势的短视频平台,各自旗下的爆款AI产品,恰恰提供了两种截然不同的路径。这背后,其实是两种产品哲学的对撞。
01 豆包,文生图文基底上的AI Agent
聊AIGC相关的App,豆包是绕不过去的一个名字。
严格来讲,豆包并不完全“归属”于抖音,它属于整个字节跳动。坊间有个说法挺有意思:这个接地气的名字,最早是定位为抖音内部的AI工具包,或者说是把抖音里所有的AI应用都打包了,所以叫豆包。
从2023年8月上线至今,豆包的产品定位和能力一直在快速迭代,最终跳出了抖音的框架,成为一个独立的App。乍一看,它的交互形态和ChatGPT、文心一言这些ChatBot没什么两样。但区别在于,豆包的定位更像一个综合性的AI Agent(AI智能体)平台。
在通用场景下,你可以直接和“豆包”这个默认智能体聊天;遇到特定问题,也能找到其他垂直领域的智能体来帮忙解决,这些智能体既有官方开发的,也有第三方创建的。
经过不断迭代,豆包的功能已经相当庞杂。现在不仅有App,还有PC端,应用场景也扩展到了虚拟社交聊天、AI搜索、文档对话、文生图、内容创作等多个领域。而且,AI能力也开始渗透进字节旗下的各个产品。
拿抖音来说,一边是抖音App里上线了AI搜索功能,另一边是用户和豆包聊吃喝玩乐这类话题时,豆包除了生成文字回复,还会附上一条抖音短视频,用视频内容来增强回复的准确性和时效性。
今年上半年那些热门的AI应用方向,字节基本都有布局:虚拟社交有猫箱,智能体开发平台有扣子,文生视频有即梦。但豆包的战略地位始终不可动摇——先是在增长上持续投入,公布商业化路径,后来干脆把大模型名从“云雀”改成“豆包”,这些动作足以说明一切。
集成、聚合、综合……豆包代表的产品路径,说到底,依然遵循着“超级App”或者说“超级入口”的思路。在市场相对空白的阶段,先靠应用端抢占用户,在小步快跑中不断迭代,最终聚合为一个超级应用,拿下AI时代的优先船票。与此同时,不同场景和产品的贯穿,也让字节生态内的用户数据持续积累,反过来成为AI能力增长的养料。
02 可灵,视频世界的AI入口
关注AI领域的人,大概都还记得今年2月Sora发布时引发的震动。那是堪比ChatGPT式的信号弹——丝滑的文生视频体验,意味着人机交互和内容创意之间的某道隔阂正在被消融,道路已然通畅。
很多人会以为,中国版的“Sora”大概率会诞生在BAT或者“大模型五虎”手里。这种判断不难理解——技术底子好,产品落地的链条总是更短。但出乎意料的是,真正在用户层面引发爆发的文生视频产品,竟然是快手推出的可灵。
和至今仍在内测的Sora不同,今年6月公布的可灵直接对公众开放。最吸引人的地方在于,它支持生成长达2分钟的30帧视频,最高分辨率1080p,而且可以自由定制画面比例。这样的输出能力,已经超过了Sora和同期其他竞品(包括字节一个月前上线的文生视频应用“即梦”)。
发布后没多久,可灵又上线了图生视频功能。视频生成效果也确实符合官方宣称的那些优势:大幅度的合理运动、物理世界特性模拟、概念组合能力和想象力。这很快成了许多“内容创作者”的吸睛利器——把老照片、手绘图片变成视频的“独家秘笈”,甚至被做成了课程售卖。
快手这条AI产品路径,很值得琢磨。在可灵之前,快手先后推出了通用大语言模型“快意”和文生图大模型“可图”,但都没引起太大波澜。反倒是这个更贴合自身内容生态的可灵,一下子火了。
可灵爆火之后,移动端唯一能用的渠道还是快手旗下的创作工具“快影”App。但快手专门搭建了Web端,并且公告称之前的可图平台将在8月关闭,功能全部并入“可灵AI”。从Web端的入口介绍来看,快手对可灵的官方定位是“新一代AI创意生产力平台”,已经突破了文生视频的局限,专注于AI内容/创意生成,同时还留出了AI视频剪辑等功能的发展空间。
这似乎是另一个方向:围绕自己的核心业务场景,用AI能力来扬长避短。而快手的内容生态本身,与AI能力的训练、AI产品的落地、用户的反馈,形成了一个完整的闭环。通过第三方平台和工具的形式,从创作到体验到生态,最终提升了主站App的整体体验。
03 Agent和工具集,被动与主动
不难发现,尽管当下的交互形态还停留在一问一答、一入一出的阶段,但豆包和可灵之间,已经出现了被动与主动的差异。
豆包尝试的AI Agent,作为通往通用人工智能(AGI)的必经之路,其发展方向无疑是一个能独立思考、调用工具、逐步完成目标的独立助手。终极目标是:用户只需要提一个需求,它就能自动拆解步骤并提供解决方案。在这个过程中,用户是被动的,享受着AI的主动响应。
可灵AI作为垂直领域的平台,集成了对应的分类能力。用户仍然需要输入文字、图片和素材,并进行调试。产品用被动式的交互,保留了用户的部分主动性。
这两种路径无关优劣,这本身就是一段非常有意思的阶段性发展。人机交互关系究竟应该是什么形态?人们需要的到底是一个万能的智能体助手,还是一个更垂直有效的工具?这已经成了一个关乎伦理的新命题。
但可以确定的是,至少在接下来一段时间里,我们不用担心AI产品会变得无趣了。
