首页 游戏 软件 资讯 排行榜 专题
首页
AI
可灵AI五天五连发:解读年终爆发性升级策略

可灵AI五天五连发:解读年终爆发性升级策略

热心网友
80
转载
2025-12-11

允中 发自 凹非寺
量子位 | 公众号 QbitAI

12月伊始,可灵AI接连放出大招。

全球首个统一的多模态视频及图片创作工具“可灵O1”、具备“音画同出”能力的可灵2.6模型可灵数字人2.0功能……

5天内5次“上新”,直接让生成式AI领域的竞争“卷”出新高度。

可灵O1,从图片到视频,带来更强的“可控性”

可灵2.0发布的时候,就创新性地提出过一个全新交互理念——Multimodal Visual Language(MVL),让用户能够结合图像参考、视频片段等多模态信息,将脑海中包含身份、外观、风格、场景、动作、表情、运镜在内的多维度复杂创意,直接高效地传达给AI。

基于MVL理念,在最新的一次迭代中,可灵O1将所有生成和编辑任务融合于一个全能引擎之中,为用户搭建全新的多模态创作流,实现从灵感到成品的一站式闭环。

就像a16z投资合伙人Justine Moore在产品发布后第一时间点评的那样:

我们终于迎来了视频界的Nano Banana。



以可灵视频O1模型为例,它打破了传统单一视频生成任务的模型边界,将参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务,融合于同一个全能引擎之中,使得用户无需在多个模型及工具间跳转,即可一站式完成从生成到修改的全部创作流程。

无论是创作者们“头疼”已久的主体一致性难题,还是视频画面的可控性问题,都在这次模型迭代里找到了相对完美的解决方案。

在图片生成这件事上,可灵AI也创新性地完成了迭代。

最新上线的图像O1模型,可以实现从基础图像生成到高阶细节编辑全链路无缝衔接,对用户来说,既可通过纯文本生成图像,也可上传最多10张参考图进行融合再创作。

“音画同出”能力也有了!可灵2.6模型完成里程碑式迭代

众所周知,可灵拥有一大批忠实的“发烧友”。他们既是产品的深度使用者,也能从功能层面提出自己的见解。

O1发布之后,就有不少网友排队“许愿”产品功能,排名靠前的,几乎都在关心可灵什么时候会推出伴随视频画面的语音及音效直出功能。

答案很快就揭晓了。

12月3日夜晚,可灵AI接着“放大招”,正式推出2.6模型

这次更新中,可灵AI上线里程碑式的“音画同出”能力,彻底改变了传统AI视频生成模型“先无声画面、后人工配音”的工作流程。

它能够在单次生成中,输出包含自然语言、动作音效以及环境氛围音的完整视频,重构了AI视频创作工作流,极大提升创作效率。

可灵AI海外超级创作者、AI电影导演Simon Meyer制作的这支宣传片,生动诠释了这次可灵2.6的能力创新之处。

对于创作者来说,输入文本或是输入图片结合提示词文本,均可直接生成带有语音、音效及环境音的视频。

语音部分,可灵目前支持生成中文以及英文,生成视频长度最长支持10秒(据说,更多样的语言体系以及固定声线等功能正在研发中)。

通过对物理世界声音与动态画面的深度语义对齐,可灵2.6模型在音画协同、音频质量和语义理解上表现亮眼。

对“音画同出”能力感兴趣的朋友,可以赶快试试,说不定你会和Simon Meyer一样产生强烈共鸣。



密集更新背后,可灵AI在下一盘怎样的大棋?

除了全新推出的可灵O1及2.6模型这两大重磅更新,可灵还在上周相继推出了数字人2.0、可灵O1主体库&对比模板等功能,从AI内容生成的实际流程出发,带来更加便捷的操作体验。

5天内5次“上新”,功能层面的精进背后,是可灵对于生成式AI技术的极致追求。

比如12月1日推出的视频O1模型,就打破了视频模型在生成、编辑与理解上的功能割裂,构建了全新的生成式底座。

融合多模态理解的Multimodal Transformer和多模态长上下文(Multimodal Long Context),实现了多任务的深度融合与统一。

根据可灵AI团队的内部测评,在“图片参考”任务上,可灵AI对Google Veo 3.1的整体效果胜负比为247%;在“指令变换”任务上,与Runway Aleph对比的整体效果胜负比达到230%



尤为难得的是,作为国产视频生成大模型领域的代表,从2024年6月正式推出以来,可灵AI的每一次迭代几乎都能让业界迎来一次“集体兴奋”。

从早期人们津津乐道的吃面条的案例,到特斯拉创始人马斯克的点赞,再到可灵AI这一波“批量上新”操作,视觉生成技术逐步走向成熟的过程里,可灵AI无疑是那个常常唤起共鸣的关键角色。


△X网友Min Choi发布的文章,对比了不同技术能力之下“威尔·史密

在持续引发讨论的同时,能否推进技术的广泛应用落地,也是生成式AI平台不得不面对的问题。

数据显示,可灵AI目前覆盖的企业用户数超过2万家,涵盖影视制作、广告、创意设计、自媒体、游戏、电商等等诸多领域。

多元的行业客户构成,意味着可灵AI必须持续打破技术应用的上限。

就像这次升级的可灵2.6模型,可以支持包括说话、对话、旁白、唱歌、Rap、环境音效、混合音效等多种声音的单独或混合生成,能够广泛地应用于各行各业的实际创作场景中,极大提升创作效率;

再比如数字人2.0功能的迭代,对于创作者而言,只需要上传角色图,添加配音内容并描述角色表现,就可以得到表现力生动的“自定义数字人”,更令人兴奋的是,视频内容最长可达5分钟

快手高级副总裁、可灵AI事业部负责人兼社区科学线负责人盖坤曾在不同场合表示:

我们的初心,是让每个人都能用AI讲出好的故事,我们也真切地希望这一天更快到来。

在可灵AI年末的这一系列更新中,我们感受到,这一天更近了。

来源:https://www.163.com/dy/article/KGE2JSAH0511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Sora落幕,Seedance与可灵视频生成如何选?
科技数码
Sora落幕,Seedance与可灵视频生成如何选?

文丨AI价值官,作者 | 星 野,编 辑丨美 圻3月25日凌晨,Sora最新账号在X平台发出一条简短的告别声明。这个曾经让好莱坞颤抖、让奥特曼高呼“视频的GPT-3 5时刻”的产品,就这样在上线仅半

热心网友
03.26
快手电商可靠吗?电厂实战测评告诉你真相
科技数码
快手电商可靠吗?电厂实战测评告诉你真相

图源:电厂拍摄记者 何畅2025年,快手创始人兼CEO程一笑曾经这样表达过对可灵AI的期待——力争可灵AI早日成为营收规模全球第一的视频生成AI应用。这是快手为自己找到的新故事,而故事讲述的过程中充

热心网友
03.26
快手CEO解析:AI视频生成促行业加速,行业收入或翻倍
科技数码
快手CEO解析:AI视频生成促行业加速,行业收入或翻倍

在视频生成现象级产品Sora“关停”当天,快手喊出可灵收入即将翻倍的口号。3月25日,快手科技(01024 HK)发布2025年第四季度及全年业绩,财报显示,2025年第四季度,快手总收入同比增长1

热心网友
03.26
程一笑:可灵今年收入有望翻倍,快手持续加码AI
科技数码
程一笑:可灵今年收入有望翻倍,快手持续加码AI

雷递网 乐天 3月26日快手今日发布2025年第四季度及全年业绩,在晚间的业绩电话会上,快手科技创始人兼首席执行官程一笑就可灵AI的竞争态势、公司2026年AI投入方向,以及电商和线上营销业务的新增

热心网友
03.26
恐怖黎明3.0全量开放:动作操控与专业动捕技术全面升级
科技数码
恐怖黎明3.0全量开放:动作操控与专业动捕技术全面升级

3月5日消息,可灵3 0系列模型全球全量开放。此次升级标志着AI技术在影视核心生产环节的进一步渗透,可灵3 0系列涵盖了从图片生成、视频生成、编辑到后期制作的全流程,推动AI技术从创作工具向创作协作

热心网友
03.05

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

银河麒麟系统SSH公钥登录配置与安全远程连接指南
系统平台
银河麒麟系统SSH公钥登录配置与安全远程连接指南

在麒麟操作系统上配置SSH公钥登录,不仅能免去每次输入密码的繁琐,更能显著增强远程连接的安全性。整个过程并不复杂,核心步骤围绕密钥生成、公钥部署和服务端配置展开。本文将详细介绍几种主流方法,涵盖从自动化部署到手动配置,助你轻松完成麒麟系统SSH密钥登录设置。 一、使用ssh-keygen与ssh-c

热心网友
05.15
银河麒麟系统登录循环故障解决方法与桌面修复指南
系统平台
银河麒麟系统登录循环故障解决方法与桌面修复指南

登录循环闪退应先删 Xauthority和 ICEauthority文件、修复 tmp权限为1777、重置ukui mate dconf配置、清理磁盘空间、重装lightdm并重新配置。 在银河麒麟操作系统中输入密码后,屏幕一闪又回到登录界面,这种“登录循环”问题确实令人困扰。这通常并非硬件故障,而

热心网友
05.15
GUSD稳定币详解:项目背景、核心用途与投资风险全解析
web3.0
GUSD稳定币详解:项目背景、核心用途与投资风险全解析

GUSD是一种与美元1:1锚定的合规稳定币,由Gemini交易所发行并受纽约州金融服务部监管。其核心价值在于为加密世界提供透明、受监管的美元等价物,主要应用于交易、支付和价值存储。投资者需关注其中心化托管风险、监管政策变化及智能合约潜在漏洞,理解其作为传统金融与加密市场桥梁的定位与局限。

热心网友
05.15
Win11如何设置默认音频输出设备与调整音量
系统平台
Win11如何设置默认音频输出设备与调整音量

在Windows 11系统中,确保系统音频稳定输出到指定设备(如已连接的耳机或已配对的蓝牙音箱),核心在于正确配置默认音频输出设备。您可以通过任务栏快速设置、系统设置应用、控制面板声音对话框、音量混合器下拉菜单或Win+Ctrl+V快捷键这五种主流方案,实现即时切换或永久性配置,彻底解决声音输出错乱

热心网友
05.15
宏胜集团高管变动与业务外包调整深度解析
AI
宏胜集团高管变动与业务外包调整深度解析

宏胜集团近期发生重要人事与业务调整。总裁办主任叶雅琼、销售总经理吴汀燕、法务部部长周卓盈及生产管理科科长吴潘潘等多位高管已离职,该消息已获接近集团人士证实。与此同时,集团启动了部分非生产业务的外包运作,显示出其正在优化内部结构与运营模式。这一系列变动可能意味着公司正处于战略调整期,旨在聚焦核心业务并

热心网友
05.15