首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
中信建投:AI多模态与行业世界模型如何重塑业务逻辑

中信建投:AI多模态与行业世界模型如何重塑业务逻辑

热心网友
29
转载
2026-01-26

智通财经APP获悉,中信建投发布研报称,作为全球多模态技术相对领先的厂商,谷歌、快手等头部模型重点解决了角色一致性与物理逻辑难题,快手可灵月活破千万并实现订阅收入增长,标志着多模态工具从娱乐走向生产力。应用侧,AI漫剧接棒短剧成为新增长极,字节跳动等平台通过高额激励推动内容精品化,AI加速IP影视化进程,有望催生新的市场机遇,重塑广告与游戏资产生产逻辑。展望未来,原生多模态与世界模型技术共同演进,有望重塑营销、影视、游戏等下游产业格局。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

中信建投主要观点如下:

作为全球多模态技术相对领先的厂商,谷歌Veo、Gemini、Nanobanana等系列模型在超长上下文理解与原生音视频融合领域确立了深厚壁垒,国内快手可灵、MiniMax海螺、阿里通义万相及智谱等头部玩家亦通过架构和技术革新,重点解决了视频生成中长期存在的角色一致性失控、物理逻辑崩坏以及分镜不可控等工业化生产难题,加速促进多模态技术商业化变革:

海螺AI:MiniMax(00100)10月28日更新的Hailuo2.3系列模型重点聚焦物理稳定性与全模态协作,解决了大动态运镜下的物理崩坏问题,大规模运动指令下对光影方向、明暗过渡及物理碰撞逻辑的模拟已接近实拍质感,尤其在复杂肢体动作如精细抓取与手指交叉方面展现了极高的稳定性。海螺Media Agent则进一步将视频、语音及语言模型封装为统一的智能体,支持在无限画布中通过自然语言协作。用户仅需输入简单的商业创意,Agent即可自主完成脚本生成、视频渲染与音效配置。

可灵AI:快手(01024)可灵12月1日发布的o1是行业内首个将多种创作任务整合进统一引擎的视频大模型。该模型基于多模态视觉语言理念,将参考图生视频、内容增删、风格重绘等功能融合,解决了过去创作中功能割裂的问题。根据快手内部测试数据,可灵o1在图片参考任务中的胜负比达到247%,在指令变换任务中的胜负比达到230%,在理解复杂创作意图方面表现突出。可灵视频2.6模型则进一步强化了音频同步与动作控制能力,支持在生成视频的同时直出自然语言对话与音效,并具备针对手势、表情及肢体动作的精细化驱动。据实测,可灵2.6支持长达30秒的复杂武打动作控制,且在生成过程中可维持音色的一致性,使得视频生成可控性进一步增强。

阿里通义万相:阿里于2025年12月26日正式发布通义万相2.6系列模型,通过多模态联合建模技术,实现了国内首个商业化角色扮演功能。具体而言,万相2.6通过提取参考视频中的主体情绪、姿态及声学特征,在生成阶段作为约束条件,确保了角色在不同镜头间的一致性,解决了影视创作中IP形象易闪烁的痛点。在叙事控制方面,万相2.6引入了专业的分镜控制公式,能够理解高层语义逻辑,将文本自动拆解为远景环境、中景动作与近景特写等专业镜头组合。目前,万相2.6支持单次生成15秒的高清视频,为国内当前公开测试的最高指标,其对镜头节奏与画面氛围的高一致性建模,为专业导演提供了可量产的数字生产工具。

智谱:2026年1月14日,智谱(02513)AI联合华为发布的GLM-Image,成为首个在国产全栈算力底座上完成全流程训练的SOTA图像生成模型,验证了国产昇腾芯片与昇思框架在大模型训练中的可靠性。技术方面,GLM-Image模型采用自回归理解结合扩散解码的混合架构,兼顾了宏观逻辑理解与微观细节刻画,在处理知识密集型场景时表现优异,特别是在复杂的海报排版、带有数据信息的图表生成方面,解决了汉字渲染乱码的行业难题。此外,GLM-Image模型原生支持1024x1024至2048x2048的任意比例输出,且能理解具有推理性质的创作指令,API调用模式下生成一张图片仅需0.1元,极具性价比优势。

产业端,模型能力的突破已带动社区传播与商业化落地。快手可灵2.6“动作控制”功能驱动了以宠物跳舞为代表的现象级视频在全球范围内的爆火,不仅带动了C端用户的涌入,更直接转化为了订阅收入。根据晚点独家调研数据,可灵AI的月活跃用户数在2026年1月已突破1200万;截至2026年1月20日,可灵App端付费用户规模环比增长达350%,1月的日均收入较12月日均高出约 30%(2025 年 12 月可灵单月收入超过 2000 万美元)。从收入构成看,2025年可灵全年收入预计达1.4亿美元,其中专业生产者贡献了近70%的份额,这与快手一直以来瞄准P端(自媒体视频创作者、广告从业人员等)用户的战略相一致——即多模态AI工具已脱离娱乐属性,成为影视、广告等行业从业者的生产力标配,初步形成商业闭环。

AI漫剧则成为了继短剧之后视频生成应用的又一场景,字节跳动等头部平台正通过激进的激励政策推动AI内容精品化。以抖音短剧版权中心为例,其2025年12月16日推出了“漫剧创作激励计划”,对使用豆包大模型制作漫剧的机构提供15%的技术成本补贴;而后,抖音进一步加码漫剧创作激励,给予S+漫剧保底激励5000元/分,单部剧保底50万-75万,超头部作品最高分成达30000元/分;同时平台开放了番茄小说超过6万部优质IP库,并全额补贴改编费用。数据显示,2025 年 9 月红果短剧月活用户约 2.36 亿,超过了B 站和优酷,接近芒果TV;而从市场规模来看,短剧今年有望突破千亿,漫剧有望突破200亿,展现出巨大的潜力。从短剧的视频素材生成到完整漫剧生成,AI技术正催生全新的产业生态,逐步产生商业化价值。

展望未来,多模态技术一方面向视频、音频、图像、文本统一的原生多模态发展,另一方面则向具备物理常识与逻辑推理的世界模型演进。前者强调AI能在一套框架下对各种模态进行统一处理;后者则意味着AI能够像人类大脑一样根据当前画面预测下一帧会发生什么。

而在应用场景的延伸上,原生多模态和世界模型都将重塑多个行业的业务逻辑。例如在搜索与营销领域,最近正发生SEO到GEO的变化,未来可能进一步发展为生成式视觉检索,不仅可以搜图,还可以直接获得AI实时生成的定制化视频作为回答;而在文娱板块,短剧、漫剧已呈现快速放量的趋势,小说IP+AI视频的组合能够加速IP影视化过程;游戏产业同样深受生成式AI影响,目前头部公司纷纷将AI应用于美术资产的辅助生产,未来在世界模型的加持下,实时游戏引擎也将成为可能,带来类“头号玩家”的元宇宙开放世界游戏体验。

风险提示:

AI产业商业化落地不及预期;市场竞争风险;地缘政治风险。

来源:https://www.163.com/dy/article/KK6EJVGH05198UNI.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

复旦大学AI突破:视频画面几何直觉永久记忆技术解析
科技数码
复旦大学AI突破:视频画面几何直觉永久记忆技术解析

这项由复旦大学未来信息技术学院和上海创新研究院联合开展的研究发表于2026年3月的计算机视觉顶级会议论文集,论文编号为arXiv:2603 19571v1。对这一前沿技术感兴趣的读者可以通过该编号查

热心网友
03.31
京东直播新动作:刚需复杂指令与自由态数字人如何升级
AI
京东直播新动作:刚需复杂指令与自由态数字人如何升级

编辑|泽南刚刚落幕的 2026 科技界「春晚」GTC 大会上,一个全行业的共识已经形成:AI 正在进入智能体(Agent)时代。然而,当各大厂商都在疯狂入局智能体时,一个尴尬的现实却摆在面前:这些聪

热心网友
03.31
阿里Qwen3.5-Omni发布:多模态能力顶级,视频交互成新突破
科技数码
阿里Qwen3.5-Omni发布:多模态能力顶级,视频交互成新突破

全球全模态大模型竞赛迎来新变数。3月30日,阿里巴巴正式推出千问系列新一代全模态大模型Qwen3 5-Omni。这款模型在音视频理解、跨模态推理、实时交互等215项第三方评测中拿下SOTA(Stat

热心网友
03.31
阿里云Qwen3.5-Omni全模态大模型发布
科技数码
阿里云Qwen3.5-Omni全模态大模型发布

3月30日,阿里云正式发布Qwen3 5-Omni全模态大模型,这是Qwen系列最新一代产品,支持文本、图片、音频及音视频理解。该模型采用Hybrid-Attention MoE架构,Thinker

热心网友
03.31
阿里Qwen3.5-Omni发布:200余项SOTA,多模态能力领先Gemini
科技数码
阿里Qwen3.5-Omni发布:200余项SOTA,多模态能力领先Gemini

快科技3月30日消息,阿里今日正式发布千问新一代全模态大模型Qwen3 5-Omni。据悉,Qwen3 5-Omni采用混合注意力MoE架构,可实现图片、视频、语音、文字等全模态内容的输入与输出。在

热心网友
03.31

最新APP

你说我猜
你说我猜
休闲益智 03-31
史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29

热门推荐

崩坏星穹铁道3.4新增四星光锥怎么玩-崩坏星穹铁道3.4新增四星光锥玩法解析
游戏资讯
崩坏星穹铁道3.4新增四星光锥怎么玩-崩坏星穹铁道3.4新增四星光锥玩法解析

角色与光锥适配深度解析 为队伍挑选合适的光锥,往往能起到画龙点睛的作用。今天,我们就来深入聊聊几款功能各异的光锥,看看它们如何与特定命途的角色产生化学反应。 酣战如始 1 属性与适配角色:作为同谐命途的光锥,其核心属性集中在速度与能量恢复上。这无疑是那些专注于辅助队友、提供团队增益角色的优质选择。

热心网友
03.31
什么是加密货币对冲?如何操作?有什么优势?
web3.0
什么是加密货币对冲?如何操作?有什么优势?

什么是对冲? 加密货币市场的价格变化,向来以快速剧烈著称。上午还在上涨的资产,下午就可能面临回调。在这种高波动的环境下,交易者们自然会寻求一种方法来保护自己的资金免受冲击。这种方法就是对冲——一种旨在降低风险、提升投资组合稳定性的核心策略。简单来说,对冲的核心逻辑在于:当你持有的主要加密货币资产价值

热心网友
03.31
荣耀平板 PC 化升级计划公布,将带来 PC 交互、PC 级应用支持等特性
科技数码
荣耀平板 PC 化升级计划公布,将带来 PC 交互、PC 级应用支持等特性

荣耀平板PC化升级计划公布,将带来PC交互、PC级应用支持等特性 三月十号,荣耀的一场重磅发布会,揭开了其平板产品线战略升级的序幕。在荣耀Magic V6旗舰新品发布会后,荣耀终端股份有限公司全场景产品线的负责人,@荣耀潇哥,进一步分享了一项备受关注的“平板PC化升级计划”。 在分享中,@荣耀潇哥清

热心网友
03.31
5 分钟充好,9 分钟充饱,比亚迪闪充补上新能源转型最后一块拼图
业界动态
5 分钟充好,9 分钟充饱,比亚迪闪充补上新能源转型最后一块拼图

5 分钟充好,9 分钟充饱,比亚迪闪充补上新能源转型最后一块拼图 “没有人比我们比亚迪更懂电池。”这句在发布会上掷地有声的口号,背后是实打实的技术突破。前不久的比亚迪“闪充中国改变世界”发布会上,王传福总裁正式揭晓了第二代刀片电池与配套的闪充技术,一组数据瞬间引爆了行业: 从10%到70%电量,只需

热心网友
03.31
OPPO K15 Pro核心配置公布:明日发布,抢先了解亮点
网络安全
OPPO K15 Pro核心配置公布:明日发布,抢先了解亮点

IT之家 3 月 31 日消息,OPPO K15 Pro 系列手机已官宣将于明日 14:30 正式发布。IT之家注意到,OPPO K15 Pro 手机已现身正式,并公布了核心配置信息,IT之家附如下

热心网友
03.31