12月1日最新消息,可灵AI今晚通过官方公众号宣布,推出全球首个统一多模态视频模型——可灵视频O1,并正式启动全面上线。
根据官方介绍,可灵O1模型构建了全新的生成式底座,从而实现了“功能割裂”的突破,并引入MVL(多模态视觉语言)交互架构,能够在单一输入框内无缝融合处理多种任务。该模型结合Chain-of-thought技术,使其具备强大的常识推理与事件推演能力。
官方进一步表示,依托统一模型的深层语义理解力,“每一张照片、每一段视频、每一段文字,在可灵O1眼中皆可视为指令”。同步上线的还有全新创作界面,只需简单对话即可轻松调用各类素材,精准生成每一处画面细节。
该模型支持多视角主体构建,声称无论镜头如何流转,主体特征都能保持稳定一致,确保画面精准且连贯。同时,还支持自由组合多个主体对象。
