首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
中信建投:AI多模态与行业世界模型如何重塑业务逻辑

中信建投:AI多模态与行业世界模型如何重塑业务逻辑

热心网友
19
转载
2026-01-26

智通财经APP获悉,中信建投发布研报称,作为全球多模态技术相对领先的厂商,谷歌、快手等头部模型重点解决了角色一致性与物理逻辑难题,快手可灵月活破千万并实现订阅收入增长,标志着多模态工具从娱乐走向生产力。应用侧,AI漫剧接棒短剧成为新增长极,字节跳动等平台通过高额激励推动内容精品化,AI加速IP影视化进程,有望催生新的市场机遇,重塑广告与游戏资产生产逻辑。展望未来,原生多模态与世界模型技术共同演进,有望重塑营销、影视、游戏等下游产业格局。

中信建投主要观点如下:

作为全球多模态技术相对领先的厂商,谷歌Veo、Gemini、Nanobanana等系列模型在超长上下文理解与原生音视频融合领域确立了深厚壁垒,国内快手可灵、MiniMax海螺、阿里通义万相及智谱等头部玩家亦通过架构和技术革新,重点解决了视频生成中长期存在的角色一致性失控、物理逻辑崩坏以及分镜不可控等工业化生产难题,加速促进多模态技术商业化变革:

海螺AI:MiniMax(00100)10月28日更新的Hailuo2.3系列模型重点聚焦物理稳定性与全模态协作,解决了大动态运镜下的物理崩坏问题,大规模运动指令下对光影方向、明暗过渡及物理碰撞逻辑的模拟已接近实拍质感,尤其在复杂肢体动作如精细抓取与手指交叉方面展现了极高的稳定性。海螺Media Agent则进一步将视频、语音及语言模型封装为统一的智能体,支持在无限画布中通过自然语言协作。用户仅需输入简单的商业创意,Agent即可自主完成脚本生成、视频渲染与音效配置。

可灵AI:快手(01024)可灵12月1日发布的o1是行业内首个将多种创作任务整合进统一引擎的视频大模型。该模型基于多模态视觉语言理念,将参考图生视频、内容增删、风格重绘等功能融合,解决了过去创作中功能割裂的问题。根据快手内部测试数据,可灵o1在图片参考任务中的胜负比达到247%,在指令变换任务中的胜负比达到230%,在理解复杂创作意图方面表现突出。可灵视频2.6模型则进一步强化了音频同步与动作控制能力,支持在生成视频的同时直出自然语言对话与音效,并具备针对手势、表情及肢体动作的精细化驱动。据实测,可灵2.6支持长达30秒的复杂武打动作控制,且在生成过程中可维持音色的一致性,使得视频生成可控性进一步增强。

阿里通义万相:阿里于2025年12月26日正式发布通义万相2.6系列模型,通过多模态联合建模技术,实现了国内首个商业化角色扮演功能。具体而言,万相2.6通过提取参考视频中的主体情绪、姿态及声学特征,在生成阶段作为约束条件,确保了角色在不同镜头间的一致性,解决了影视创作中IP形象易闪烁的痛点。在叙事控制方面,万相2.6引入了专业的分镜控制公式,能够理解高层语义逻辑,将文本自动拆解为远景环境、中景动作与近景特写等专业镜头组合。目前,万相2.6支持单次生成15秒的高清视频,为国内当前公开测试的最高指标,其对镜头节奏与画面氛围的高一致性建模,为专业导演提供了可量产的数字生产工具。

智谱:2026年1月14日,智谱(02513)AI联合华为发布的GLM-Image,成为首个在国产全栈算力底座上完成全流程训练的SOTA图像生成模型,验证了国产昇腾芯片与昇思框架在大模型训练中的可靠性。技术方面,GLM-Image模型采用自回归理解结合扩散解码的混合架构,兼顾了宏观逻辑理解与微观细节刻画,在处理知识密集型场景时表现优异,特别是在复杂的海报排版、带有数据信息的图表生成方面,解决了汉字渲染乱码的行业难题。此外,GLM-Image模型原生支持1024x1024至2048x2048的任意比例输出,且能理解具有推理性质的创作指令,API调用模式下生成一张图片仅需0.1元,极具性价比优势。

产业端,模型能力的突破已带动社区传播与商业化落地。快手可灵2.6“动作控制”功能驱动了以宠物跳舞为代表的现象级视频在全球范围内的爆火,不仅带动了C端用户的涌入,更直接转化为了订阅收入。根据晚点独家调研数据,可灵AI的月活跃用户数在2026年1月已突破1200万;截至2026年1月20日,可灵App端付费用户规模环比增长达350%,1月的日均收入较12月日均高出约 30%(2025 年 12 月可灵单月收入超过 2000 万美元)。从收入构成看,2025年可灵全年收入预计达1.4亿美元,其中专业生产者贡献了近70%的份额,这与快手一直以来瞄准P端(自媒体视频创作者、广告从业人员等)用户的战略相一致——即多模态AI工具已脱离娱乐属性,成为影视、广告等行业从业者的生产力标配,初步形成商业闭环。

AI漫剧则成为了继短剧之后视频生成应用的又一场景,字节跳动等头部平台正通过激进的激励政策推动AI内容精品化。以抖音短剧版权中心为例,其2025年12月16日推出了“漫剧创作激励计划”,对使用豆包大模型制作漫剧的机构提供15%的技术成本补贴;而后,抖音进一步加码漫剧创作激励,给予S+漫剧保底激励5000元/分,单部剧保底50万-75万,超头部作品最高分成达30000元/分;同时平台开放了番茄小说超过6万部优质IP库,并全额补贴改编费用。数据显示,2025 年 9 月红果短剧月活用户约 2.36 亿,超过了B 站和优酷,接近芒果TV;而从市场规模来看,短剧今年有望突破千亿,漫剧有望突破200亿,展现出巨大的潜力。从短剧的视频素材生成到完整漫剧生成,AI技术正催生全新的产业生态,逐步产生商业化价值。

展望未来,多模态技术一方面向视频、音频、图像、文本统一的原生多模态发展,另一方面则向具备物理常识与逻辑推理的世界模型演进。前者强调AI能在一套框架下对各种模态进行统一处理;后者则意味着AI能够像人类大脑一样根据当前画面预测下一帧会发生什么。

而在应用场景的延伸上,原生多模态和世界模型都将重塑多个行业的业务逻辑。例如在搜索与营销领域,最近正发生SEO到GEO的变化,未来可能进一步发展为生成式视觉检索,不仅可以搜图,还可以直接获得AI实时生成的定制化视频作为回答;而在文娱板块,短剧、漫剧已呈现快速放量的趋势,小说IP+AI视频的组合能够加速IP影视化过程;游戏产业同样深受生成式AI影响,目前头部公司纷纷将AI应用于美术资产的辅助生产,未来在世界模型的加持下,实时游戏引擎也将成为可能,带来类“头号玩家”的元宇宙开放世界游戏体验。

风险提示:

AI产业商业化落地不及预期;市场竞争风险;地缘政治风险。

来源:https://www.163.com/dy/article/KK6EJVGH05198UNI.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

机器人舞姿爆红背后:具身智能行业“卡脖子”难题,终于有了新解法
AI
机器人舞姿爆红背后:具身智能行业“卡脖子”难题,终于有了新解法

头图由智象未来AI大模型生成智东西作者 王涵编辑 漠影在演唱会、各大晚会的舞台上,机器人伴舞团以整齐划一、精准卡点的舞姿惊艳全场。这种整齐划一不仅是硬件的胜利,更是“训练有素”的结果。具身智

热心网友
04.07
最小仅2B!谷歌最强开源模型登场,免费商用,手机就能跑
AI
最小仅2B!谷歌最强开源模型登场,免费商用,手机就能跑

智东西编译 陈佳编辑 程茜智东西4月3日消息,今日谷歌DeepMind开源发布Gemma 4系列模型,根据最新博客,这是谷歌迄今为止最智能的开放模型,专为高级推理和智能体工作流而设计,实现了单位参数

热心网友
04.07
日均 120 万亿 Token,火山引擎两年前的赌注开始兑现
AI
日均 120 万亿 Token,火山引擎两年前的赌注开始兑现

带着 Seedance 2 0 和 ArkClaw 两件新武器,火山引擎开始席卷 MaaS 市场。作者|郑玄两年前,火山引擎说要 All in Token 的时候,很多人觉得这是一句正确但空洞的口号

热心网友
04.07
AI看图能力真伪探秘:它是否真是编出来的?
科技数码
AI看图能力真伪探秘:它是否真是编出来的?

一个学生忽视了一行代码,结果发现了一件很不对劲的事:在一个多模态医学AI项目中,这行代码原本负责让模型读取图像数据。但因为这次疏忽,模型实际上完全没有看到任何图片。按理说系统应该报错,或者至少拒绝回

热心网友
04.01
中信证券:关注大模型迭代带来的模型原厂、应用与基础设施机遇
科技数码
中信证券:关注大模型迭代带来的模型原厂、应用与基础设施机遇

智通财经APP获悉,中信证券发布研报称,2026年以来,国产大模型厂商聚焦Agent及代码能力升级,竞相发布新模型。即将发布的DeepSeek下一代新模型有望延续高性价比开源模型路线,在能力上实现更

热心网友
04.01

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

免费在线OCR工具TextIn使用指南与功能详解
AI
免费在线OCR工具TextIn使用指南与功能详解

在文档数字化与智能处理领域,一款高效精准的在线工具能极大提升工作效率。今天重点评测的TextIn Tools,正是这样一个集OCR识别、格式转换于一体的全能型免费平台。它由上海合合信息科技开发,该公司在人工智能文字识别领域拥有超过17年的技术积累,实力深厚。我们熟悉的“扫描全能王”、“名片全能王”等

热心网友
05.19
AI在线PPT美化工具 智能优化演示文稿设计
AI
AI在线PPT美化工具 智能优化演示文稿设计

还在为制作PPT而烦恼吗?排版耗时、素材难寻、风格杂乱……这些常见困扰,或许一个智能工具就能高效化解。 WPS智能PPT,是一款基于先进人工智能技术的在线演示文稿辅助平台。其核心优势在于:用户仅需输入文本内容,内置的AI引擎便能自动进行视觉设计与美化,快速生成多种风格的精美版式供您挑选。这极大地简化

热心网友
05.19
超办AI平台:集成主流大模型的一站式解决方案
AI
超办AI平台:集成主流大模型的一站式解决方案

在追求高效办公的今天,各类AI工具不断涌现,但能够真正实现“一站式”智能集成的平台却屈指可数。本文将深入介绍的“超办AI”,正是这样一个致力于将多种AI能力深度融合,直接赋能日常工作效率的集成化平台。 超办AI是什么?一站式AI办公平台详解 简而言之,超办AI是一个智能办公解决方案平台。其核心理念非

热心网友
05.19
论文关键词如何激发学术灵感与创新思路
AI
论文关键词如何激发学术灵感与创新思路

学术灵感:AI驱动的中文论文写作辅助工具全解析 在科研写作过程中,从选题构思到初稿完成,研究者往往需要投入大量时间与精力。是否存在一种高效工具,能够在研究起点——即灵感激发与论文框架构建阶段——提供实质性帮助?本文将深入探讨的“学术灵感”平台,正是这样一款专注于中文论文写作场景的AI智能助手,旨在提

热心网友
05.19
造物云AI在线3D营销设计平台:一站式创意解决方案
AI
造物云AI在线3D营销设计平台:一站式创意解决方案

在视觉营销主导的数字化时代,一个名为“造物云”的在线3D营销设计平台正在重塑内容生产的规则。它本质上是一个基于浏览器的云端设计工具,其核心价值在于,让用户无需依赖复杂的专业软件或高昂的硬件,就能独立创作出具有商业摄影品质的3D渲染图片和动态视频。这为品牌营销、电商展示和社交媒体内容创作开辟了高效的新

热心网友
05.19