蔡浩宇新视频模型如何为游戏行业注入创新动力

首页

热心网友

转载

2026-05-18

LPM 1.0 的亮相，或许只是掀开了冰山一角。蔡浩宇真正在构建的，很可能是下一个时代的游戏引擎基石。

4月9日，一篇来自Anuttacon团队的论文悄然出现在arXiv上。论文展示了一个名为LPM 1.0的视频模型。请注意它的全称：Large Performance Model。关键词是“Performance”（表演），而非我们更熟悉的“Language”（语言）。

这个拥有170亿参数的扩散Transformer模型，能让一个AI角色在视频中说话、倾听、做出细腻的微表情，并且保持身份一致性持续“表演”下去，理论上时长不受限制。简而言之，它是一个专门为了让虚拟角色“活过来”而设计的视觉引擎。

许多人的第一反应，是将其与Sora、Seedance等视频生成模型进行比较。但如果仅仅把它看作一个视频模型，视野就窄了。

对Anuttacon团队稍有了解的人会知道，这并非一个纯粹的初创团队，其背后的领军人物，正是米哈游的创始人蔡浩宇。

LPM 1.0模型真正值得玩味之处，或许不在于它本身实现了什么，而在于它隐约揭示出蔡浩宇正在搭建的一个更宏大的技术栈——一个有可能替代传统游戏引擎的全新架构。

不过，在探讨那个更大的图景之前，我们有必要先厘清一个基本问题：为什么这个模型被命名为“表演模型”，而不是“视频生成模型”？这个命名本身，就隐含着一个关键的技术判断。

为什么叫“表演”，不叫“生成”？

现有的主流视频生成模型，其本质是一个“给定输入，输出完整片段”的过程。你提供一段文字描述，它生成一段5秒或10秒的视频。这个过程更像传统的电影制作——先有完整的剧本，再一次性渲染出所有画面。

但LPM 1.0的逻辑截然不同。它的核心设计场景是实时对话：想象一个角色坐在你对面，当你开始说话时，它在你话音未落之际就已经开始产生反应。不是等待你的语句结束，也不是等待系统处理完语义再输出一段动画，而是在你的语音输入仍在进行时，角色就已经在同步地倾听、点头、皱眉或微笑了。

这才是“表演”一词的真正内涵。表演的本质在于反应，而反应的核心在于实时性。

一个好的演员在演对手戏时，绝不会等到对方念完所有台词才开始“表演”。他在聆听的过程中，眼神的流转、呼吸的节奏、嘴角的细微牵动，早已在传递信息。LPM 1.0瞄准的正是这种能力——它不是一个“读完剧本再演”的系统，而是一个“在对话流中即时反应”的系统。

论文中将这种能力称为“全双工对话”。模型同时支持“说”和“听”两种模式：当角色说话时，它会根据合成语音生成对应的口型、表情和动作；当角色聆听时，它会根据用户的语音实时生成倾听反应，包括点头、眨眼和表情变化。两种模式能够自然流畅地切换，如同真人交谈。

这一选择背后，代表的技术思路与通用视频生成模型分道扬镳。Sora、Seedance等模型追求的是画面质量的极致与场景的多样性——能生成多逼真、多丰富的视觉内容。而LPM追求的是交互过程中的真实感——角色能否在持续的信息流中，给出即时的、连贯的、符合当下语境的反应。

说得更直白些，前者是在制作“电影”，而后者是在创造“活人”。

这也解释了为何LPM 1.0如此看重实时推理能力。论文中提出的“表演三难困境”将实时性与表现力置于同等重要的位置，原因正在于此：即便表情渲染得再精致，如果反应延迟了两秒，那种“活着”的沉浸感便会瞬间瓦解。

一个被忽略的关键信号

外界对LPM 1.0的讨论，大多聚焦于视频生成的技术细节。但从公开信息拼凑出的图景来看，一个被多数人忽略的事实是：蔡浩宇在Anuttacon主导的核心方向，很可能并非视频生成，而是大语言模型。

线索其实不少。Anuttacon的招聘页面长期挂着预训练、后训练、智能体等与大语言模型密切相关的岗位。团队核心成员吴箫剑曾参与Meta的Llama 3.1研究，在Anuttacon担任大模型研究负责人。今年4月，蔡浩宇还与刘伟、罗宇皓共同向上海交通大学捐赠，设立了名为“AI未来基石”的基金。

更直接的信号来自米哈游联合创始人刘伟。他在上海交通大学的一次公开活动中，罕见地阐述了蔡浩宇创立Anuttacon的逻辑：米哈游作为一家拥有六七千人的大型公司，存在一定的组织惰性，不利于从零开始进行碘伏性的AI创新。因此，几年前决定由蔡浩宇亲自下场，以小型精锐团队的模式推进AI研发。刘伟还透露了一个关键信息：他们的目标是从基础预训练开始，开发一种“有情感的大语言模型”，不仅追求智能水平，更要能理解人类的情感诉求。

将这一信息与LPM 1.0放在一起审视，逻辑链条便清晰起来。LPM 1.0论文中写得明白：这个视频模型可以与ChatGPT、豆包等音频对话模型即插即用地组合使用，它自身不负责决策，只专注于视觉呈现。

换言之，LPM是一个“表演层”，但它需要一个“大脑”来指挥角色该说什么、该如何反应。这个大脑，正是大语言模型。没有强大的基座语言模型支撑，LPM就只是一个精美的空壳。

“语言模型+表演模型”=下一代游戏引擎？

理解了这一架构，便能窥见蔡浩宇真正在谋划的事情。

传统游戏引擎如Unity和Unreal，解决的核心问题是：如何高效地渲染3D世界、模拟物理系统、处理玩家输入。游戏中的角色行为完全由开发者预设——对话是编写好的分支树，动作是制作好的动画片段，表情是通过骨骼权重绑定的结果。

蔡浩宇试图用AI替换掉这整套流程。在他构想的架构中，语言模型负责角色的“思考”——理解玩家的意图、决定如何回应、并维持角色人格的一致性；表演模型则负责角色的“表达”——将语言模型的决策实时转化为可见的视频画面，包括口型、表情、肢体动作和情绪变化。

这并非在现有引擎上简单地添加一个AI插件，而是试图用AI从底层重建角色生成的整个链路。

LPM 1.0论文中提出了“表演三难困境”——高表现力、实时推理和长时身份稳定性，三者难以兼得。团队的解决方案是，先训练一个170亿参数的Base LPM来深入学习表演空间，再将其知识蒸馏到低延迟的Online LPM中，用于实时交互。在推理阶段，还设计了Generator + Refiner的双层渲染管线，第一层快速输出轮廓，第二层精修细节，两层以流水线方式交替工作。

这些技术细节固然重要，但更重要的是它们所指向的终极目标：让一个AI角色能够像真人一样，在任意长的时间内持续、稳定且富有表现力地“存活”下去。

Anuttacon去年发布的AI游戏《星之低语》，可以视为这一思路的早期验证。玩家通过语音和文字与AI角色Stella进行实时对话，没有预设的对话分支选项，角色的反应完全由AI生成。而LPM 1.0要解决的，是让这种交互超越文字和语音，让玩家真正“看到”一个在对面与你交谈、倾听并做出实时反应的角色。

论文中提到的未来规划同样意味深长。作者提出了三个演进方向：在时间维度上，实现更长对话的记忆与人格持续性；在社会维度上，处理多人互动与轮流发言的复杂场景；在物理维度上，将角色的行为锚定到具体的场景和物体上。

论文最后还有一句颇具野心的表述：未来，这种分阶段的流水线，可能会走向统一的“行动者模型”——一个能统一决定角色怎么说、怎么演、如何持续存在的系统。这，不正是一个跨世代“引擎”应该做的事情吗？

蔡浩宇在为什么样的未来造引擎？

拉长时间线来看，蔡浩宇的路径其实相当清晰。2022年，米哈游投资脑机接口公司，并与瑞金医院共建脑病实验室。同年，投资了如今被称为“大模型六小龙”之一的MiniMax。2023年，蔡浩宇卸任米哈游董事长职务。2024年，他创立Anuttacon，团队至今不足40人，却汇聚了前微软亚洲研究院首席研究员童欣、参与过Llama 3研究的吴箫剑、前B站副总裁王宇阳、来自小鹏智算中心的基础设施负责人Erik Li等顶尖人才。

蔡浩宇的大学专业本就是人工智能方向。某种意义上，他绕了一个大圈——从AI到二次元游戏，再从游戏回到AI——最终回到了起点。只不过这一次，他要用AI重新定义那个让他成就辉煌的行业。

刘伟在今年的发言很坦诚，蔡浩宇创办Anuttacon并非“分家”，而是米哈游面对大公司组织惰性所做出的主动战略选择。刘伟留守管理数千人规模的米哈游本体，而蔡浩宇则带领小团队去进行最前沿的技术攻坚。可以说，米哈游相当于拆分出一位创始人，专门面向新世界去打造引擎。

当然，这一切都只是开始。LPM 1.0目前仍是一篇学术论文，团队已明确表示不会开源模型权重，也未提供API或在线演示。从研究到成熟产品，还有很长的路要走。在语言模型方面，Anuttacon的基座模型也尚未有任何公开的基准测试成绩可供参考。

但方向已经相当明确。蔡浩宇押注的是这样一个未来：游戏角色将不再是开发者通过脚本和动画预设的“提线木偶”，而是由语言模型驱动思考、由表演模型实时渲染的“数字生命”。而支撑这一切运转的底层系统，正是他试图构建的那个“新引擎”。

2010年，还在上海交大读研的蔡浩宇与刘伟、罗宇皓一起，用Adobe Flash开发了一款名为Misato的2.5D游戏引擎。16年后，蔡浩宇又在造引擎了。只不过这一次，引擎所驱动的将不再是像素与多边形，而是语言、表演与情感——这些，正是未来AI形象最需要的底层基础。

*头图来源：Anuttacon

来源:https://www.163.com/dy/article/KR71DBET05119FMA.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：谷歌智能体深度研究升级：赋能企业工作流高效协同下一篇：出门问问发布AI协作平台CodeBanana 助力组织智能化升级