可灵AI近日通过官方渠道正式发布,其自主研发的全球首款统一多模态视频生成模型——可灵视频O1现已面向全体用户开放使用。这项突破性技术通过整合文本、图像、视频等多模态交互能力,重新定义了视频创作的边界。
技术团队介绍,可灵O1模型的核心创新在于构建了新一代生成式架构底座。该架构突破了传统功能模块割裂的局限,通过引入多模态视觉语言交互框架,实现了在单一操作界面下对文本、图像、视频等多元信息的无缝融合。结合思维链技术,模型展现出对复杂场景的深度理解能力,能够基于常识进行事件推演和逻辑推导。
最新演示显示,新上线的创作平台采用对话式交互设计,用户只需通过自然语言描述需求,即可调用系统内置的百万级素材库。从人物表情到光影效果,每个细节均可通过多轮对话实现精准调控。特别值得关注的是,模型对主体特征的捕捉能力达到行业领先水平——即使在镜头快速切换或视角剧烈变化时,仍能保持主体形态、色彩、纹理的高度一致性。
在多主体交互场景中,该模型展现出独特的创作优势。用户可自由组合多个独立元素,系统会自动分析各主体间的空间关系与动作逻辑,生成符合物理规律的动态画面。这项技术突破为复杂叙事视频的自动化生成提供了可能,在影视制作、广告营销等领域具有广泛应用前景。
```