首页 游戏 软件 资讯 排行榜 专题
首页
AI
蔡浩宇新视频模型如何为游戏行业注入创新动力

蔡浩宇新视频模型如何为游戏行业注入创新动力

热心网友
50
转载
2026-05-18


LPM 1.0 的亮相,或许只是掀开了冰山一角。蔡浩宇真正在构建的,很可能是下一个时代的游戏引擎基石。

4月9日,一篇来自Anuttacon团队的论文悄然出现在arXiv上。论文展示了一个名为LPM 1.0的视频模型。请注意它的全称:Large Performance Model。关键词是“Performance”(表演),而非我们更熟悉的“Language”(语言)。

这个拥有170亿参数的扩散Transformer模型,能让一个AI角色在视频中说话、倾听、做出细腻的微表情,并且保持身份一致性持续“表演”下去,理论上时长不受限制。简而言之,它是一个专门为了让虚拟角色“活过来”而设计的视觉引擎。

许多人的第一反应,是将其与Sora、Seedance等视频生成模型进行比较。但如果仅仅把它看作一个视频模型,视野就窄了。

对Anuttacon团队稍有了解的人会知道,这并非一个纯粹的初创团队,其背后的领军人物,正是米哈游的创始人蔡浩宇。

LPM 1.0模型真正值得玩味之处,或许不在于它本身实现了什么,而在于它隐约揭示出蔡浩宇正在搭建的一个更宏大的技术栈——一个有可能替代传统游戏引擎的全新架构。

不过,在探讨那个更大的图景之前,我们有必要先厘清一个基本问题:为什么这个模型被命名为“表演模型”,而不是“视频生成模型”?这个命名本身,就隐含着一个关键的技术判断。

为什么叫“表演”,不叫“生成”?

现有的主流视频生成模型,其本质是一个“给定输入,输出完整片段”的过程。你提供一段文字描述,它生成一段5秒或10秒的视频。这个过程更像传统的电影制作——先有完整的剧本,再一次性渲染出所有画面。

但LPM 1.0的逻辑截然不同。它的核心设计场景是实时对话:想象一个角色坐在你对面,当你开始说话时,它在你话音未落之际就已经开始产生反应。不是等待你的语句结束,也不是等待系统处理完语义再输出一段动画,而是在你的语音输入仍在进行时,角色就已经在同步地倾听、点头、皱眉或微笑了。

这才是“表演”一词的真正内涵。表演的本质在于反应,而反应的核心在于实时性。

一个好的演员在演对手戏时,绝不会等到对方念完所有台词才开始“表演”。他在聆听的过程中,眼神的流转、呼吸的节奏、嘴角的细微牵动,早已在传递信息。LPM 1.0瞄准的正是这种能力——它不是一个“读完剧本再演”的系统,而是一个“在对话流中即时反应”的系统。

论文中将这种能力称为“全双工对话”。模型同时支持“说”和“听”两种模式:当角色说话时,它会根据合成语音生成对应的口型、表情和动作;当角色聆听时,它会根据用户的语音实时生成倾听反应,包括点头、眨眼和表情变化。两种模式能够自然流畅地切换,如同真人交谈。

这一选择背后,代表的技术思路与通用视频生成模型分道扬镳。Sora、Seedance等模型追求的是画面质量的极致与场景的多样性——能生成多逼真、多丰富的视觉内容。而LPM追求的是交互过程中的真实感——角色能否在持续的信息流中,给出即时的、连贯的、符合当下语境的反应。

说得更直白些,前者是在制作“电影”,而后者是在创造“活人”。

这也解释了为何LPM 1.0如此看重实时推理能力。论文中提出的“表演三难困境”将实时性与表现力置于同等重要的位置,原因正在于此:即便表情渲染得再精致,如果反应延迟了两秒,那种“活着”的沉浸感便会瞬间瓦解。

一个被忽略的关键信号

外界对LPM 1.0的讨论,大多聚焦于视频生成的技术细节。但从公开信息拼凑出的图景来看,一个被多数人忽略的事实是:蔡浩宇在Anuttacon主导的核心方向,很可能并非视频生成,而是大语言模型。

线索其实不少。Anuttacon的招聘页面长期挂着预训练、后训练、智能体等与大语言模型密切相关的岗位。团队核心成员吴箫剑曾参与Meta的Llama 3.1研究,在Anuttacon担任大模型研究负责人。今年4月,蔡浩宇还与刘伟、罗宇皓共同向上海交通大学捐赠,设立了名为“AI未来基石”的基金。

更直接的信号来自米哈游联合创始人刘伟。他在上海交通大学的一次公开活动中,罕见地阐述了蔡浩宇创立Anuttacon的逻辑:米哈游作为一家拥有六七千人的大型公司,存在一定的组织惰性,不利于从零开始进行碘伏性的AI创新。因此,几年前决定由蔡浩宇亲自下场,以小型精锐团队的模式推进AI研发。刘伟还透露了一个关键信息:他们的目标是从基础预训练开始,开发一种“有情感的大语言模型”,不仅追求智能水平,更要能理解人类的情感诉求。

将这一信息与LPM 1.0放在一起审视,逻辑链条便清晰起来。LPM 1.0论文中写得明白:这个视频模型可以与ChatGPT、豆包等音频对话模型即插即用地组合使用,它自身不负责决策,只专注于视觉呈现。

换言之,LPM是一个“表演层”,但它需要一个“大脑”来指挥角色该说什么、该如何反应。这个大脑,正是大语言模型。没有强大的基座语言模型支撑,LPM就只是一个精美的空壳。

“语言模型+表演模型”=下一代游戏引擎?

理解了这一架构,便能窥见蔡浩宇真正在谋划的事情。

传统游戏引擎如Unity和Unreal,解决的核心问题是:如何高效地渲染3D世界、模拟物理系统、处理玩家输入。游戏中的角色行为完全由开发者预设——对话是编写好的分支树,动作是制作好的动画片段,表情是通过骨骼权重绑定的结果。

蔡浩宇试图用AI替换掉这整套流程。在他构想的架构中,语言模型负责角色的“思考”——理解玩家的意图、决定如何回应、并维持角色人格的一致性;表演模型则负责角色的“表达”——将语言模型的决策实时转化为可见的视频画面,包括口型、表情、肢体动作和情绪变化。

这并非在现有引擎上简单地添加一个AI插件,而是试图用AI从底层重建角色生成的整个链路。

LPM 1.0论文中提出了“表演三难困境”——高表现力、实时推理和长时身份稳定性,三者难以兼得。团队的解决方案是,先训练一个170亿参数的Base LPM来深入学习表演空间,再将其知识蒸馏到低延迟的Online LPM中,用于实时交互。在推理阶段,还设计了Generator + Refiner的双层渲染管线,第一层快速输出轮廓,第二层精修细节,两层以流水线方式交替工作。

这些技术细节固然重要,但更重要的是它们所指向的终极目标:让一个AI角色能够像真人一样,在任意长的时间内持续、稳定且富有表现力地“存活”下去。


Anuttacon去年发布的AI游戏《星之低语》,可以视为这一思路的早期验证。玩家通过语音和文字与AI角色Stella进行实时对话,没有预设的对话分支选项,角色的反应完全由AI生成。而LPM 1.0要解决的,是让这种交互超越文字和语音,让玩家真正“看到”一个在对面与你交谈、倾听并做出实时反应的角色。

论文中提到的未来规划同样意味深长。作者提出了三个演进方向:在时间维度上,实现更长对话的记忆与人格持续性;在社会维度上,处理多人互动与轮流发言的复杂场景;在物理维度上,将角色的行为锚定到具体的场景和物体上。

论文最后还有一句颇具野心的表述:未来,这种分阶段的流水线,可能会走向统一的“行动者模型”——一个能统一决定角色怎么说、怎么演、如何持续存在的系统。这,不正是一个跨世代“引擎”应该做的事情吗?

蔡浩宇在为什么样的未来造引擎?

拉长时间线来看,蔡浩宇的路径其实相当清晰。2022年,米哈游投资脑机接口公司,并与瑞金医院共建脑病实验室。同年,投资了如今被称为“大模型六小龙”之一的MiniMax。2023年,蔡浩宇卸任米哈游董事长职务。2024年,他创立Anuttacon,团队至今不足40人,却汇聚了前微软亚洲研究院首席研究员童欣、参与过Llama 3研究的吴箫剑、前B站副总裁王宇阳、来自小鹏智算中心的基础设施负责人Erik Li等顶尖人才。

蔡浩宇的大学专业本就是人工智能方向。某种意义上,他绕了一个大圈——从AI到二次元游戏,再从游戏回到AI——最终回到了起点。只不过这一次,他要用AI重新定义那个让他成就辉煌的行业。

刘伟在今年的发言很坦诚,蔡浩宇创办Anuttacon并非“分家”,而是米哈游面对大公司组织惰性所做出的主动战略选择。刘伟留守管理数千人规模的米哈游本体,而蔡浩宇则带领小团队去进行最前沿的技术攻坚。可以说,米哈游相当于拆分出一位创始人,专门面向新世界去打造引擎。

当然,这一切都只是开始。LPM 1.0目前仍是一篇学术论文,团队已明确表示不会开源模型权重,也未提供API或在线演示。从研究到成熟产品,还有很长的路要走。在语言模型方面,Anuttacon的基座模型也尚未有任何公开的基准测试成绩可供参考。

但方向已经相当明确。蔡浩宇押注的是这样一个未来:游戏角色将不再是开发者通过脚本和动画预设的“提线木偶”,而是由语言模型驱动思考、由表演模型实时渲染的“数字生命”。而支撑这一切运转的底层系统,正是他试图构建的那个“新引擎”。

2010年,还在上海交大读研的蔡浩宇与刘伟、罗宇皓一起,用Adobe Flash开发了一款名为Misato的2.5D游戏引擎。16年后,蔡浩宇又在造引擎了。只不过这一次,引擎所驱动的将不再是像素与多边形,而是语言、表演与情感——这些,正是未来AI形象最需要的底层基础。

*头图来源:Anuttacon

来源:https://www.163.com/dy/article/KR71DBET05119FMA.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

蔡浩宇新视频模型如何为游戏行业注入创新动力
AI
蔡浩宇新视频模型如何为游戏行业注入创新动力

LPM 1 0 的亮相,或许只是掀开了冰山一角。蔡浩宇真正在构建的,很可能是下一个时代的游戏引擎基石。 4月9日,一篇来自Anuttacon团队的论文悄然出现在arXiv上。论文展示了一个名为LPM 1 0的视频模型。请注意它的全称:Large Performance Model。关键词是“Perf

热心网友
05.18
米哈游创始人向交大捐赠,捐资助力“AI未来基石”基金
科技数码
米哈游创始人向交大捐赠,捐资助力“AI未来基石”基金

4月4日消息,据上海交大最新公众号透露,4月4日,上海交通大学徐汇校区总办公厅,米哈游联合创始人、总裁、董事长、上海交通大学2005级信息工程专业本科、2009级通信与信息系统专业硕士校友刘伟,代表

热心网友
04.07
蔡浩宇公司AI聊天软件AnuNeko上线:战斗力超乎想象
科技数码
蔡浩宇公司AI聊天软件AnuNeko上线:战斗力超乎想象

12月3日消息,近日米哈游联合创始人蔡浩宇创立的 AI 公司 Anuttacon,悄悄上线了一款 AI 聊天大模型—【AnuNeko】。和其他大模型不同,蔡浩宇的 AnuNeko 看起来似乎有点那么

热心网友
12.03
Roblox携手米哈游推出云养猫AI手游《Project A Purrfect Day》
科技数码
Roblox携手米哈游推出云养猫AI手游《Project A Purrfect Day》

12月2日消息,据 36 氪报道,米哈游联合创始人蔡浩宇在美国创立的 AI 公司 Anuttacon 近日上线了一款全新 AI 聊天大模型「AnuNeko」。该产品以黑猫为默认形象,强调个性化与互动

热心网友
12.02
《瓦萨普拉》实机首曝:蔡浩宇能否再造闪电式奇迹?
科技数码
《瓦萨普拉》实机首曝:蔡浩宇能否再造闪电式奇迹?

作者丨胡家铭编辑丨董子博B站60万播放量,涨粉10万+,这是米哈游旗下“次世代旗舰新作”《Varsapura》的第一条视频,发布三小时不到的数据。据观察,Varsapura的最新账号平均5分钟播放量

热心网友
11.28

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

微信群接龙数据自动整理工具OpenClaw一键生成表格
AI
微信群接龙数据自动整理工具OpenClaw一键生成表格

微信群里的接龙,方便是真方便,但整理起来,那叫一个头疼。手动复制粘贴,不仅耗时费力,还容易出错、遗漏,最后导出的表格格式五花八门,看着就心累。 有没有一种方法,能让这个过程自动化,让数据自己“跑”进表格里?答案是肯定的。借助一些工具,我们可以实现群内接龙数据的自动识别、解析和归档。下面,就来拆解一下

热心网友
05.18
VINE币怎么买?VINE价格预测2025到2030年及未来前景分析
web3.0
VINE币怎么买?VINE价格预测2025到2030年及未来前景分析

VineCoin(VINE币):重塑创作者经济的区块链新星 在数字资产的浪潮中,VineCoin(VINE币)正作为一个新兴项目崭露头角。它并非又一种简单的代币,其野心在于利用区块链技术,从根本上重塑内容创作与社交互动的经济规则。可以说,它致力于成为一个去中心化生态系统的核心引擎,目标是为全球的内容

热心网友
05.18
ToClaw文件整理术一键清理桌面杂乱文件实用教程
AI
ToClaw文件整理术一键清理桌面杂乱文件实用教程

ToClaw文件整理术:一键清理桌面杂乱文件的秘籍 | AI智能文件管理教程 利用AI智能助手整理电脑桌面文件,愿景虽好,但在实际应用中,你是否也遇到过分类不准确、指令执行失败,甚至文件被误移的困扰?请放心,这些问题往往源于几个关键的设置步骤尚未完善。掌握以下这套经过验证的ToClaw文件整理优化方

热心网友
05.18
全链网罢工计划不变 区块链去中心化争议持续
web3.0
全链网罢工计划不变 区块链去中心化争议持续

三星电子工会确认原定罢工计划未取消,但将遵守法院禁令,确保罢工不影响正常生产流程。劳资博弈进入微妙阶段,工会需在法律框架内施压,公司生产秩序暂获法律庇护,后续发展取决于双方谈判。

热心网友
05.18
千问AI如何助力社群运营实现自动回复与管理
AI
千问AI如何助力社群运营实现自动回复与管理

千问AI赋能社群自动化运营:一、关键词触发智能回复;二、定时任务精准推送;三、敏感词实时过滤预警;四、成员标签化智能分组。 社群运营工作繁杂,常常需要处理大量重复性任务,如解答常见问题、发布定时通知、监控群内动态等,这让运营者倍感压力。如何实现高效、智能的社群管理,解放人力?利用千问AI的强大功能,

热心网友
05.18