米哈游蔡浩宇AI公司发布LPM 1.0模型 170亿参数生成高一致性视频角色
4月10日,一则来自游戏与AI交叉领域的消息引起了业界关注:米哈游创始人蔡浩宇在退休后,于新加坡创立了专注于AI交互式内容与AGI产品研发的新公司Anuttacon。其首款AI游戏《星之低语》已于去年发售,而如今,这家公司的研究团队在视频生成领域迈出了更实质性的一步。
当地时间4月9日,Anuttacon团队在预印本平台arXiv上发布了一篇论文,正式公开了其新一代视频角色表演生成模型——LPM 1.0(Large Performance Model),并同步上线了项目主页。

这篇论文的作者名单包含了24位研究人员,通讯作者为曾爱玲。根据其个人主页信息,她目前正任职于Anuttacon,此前曾在腾讯混元团队及AI Lab从事计算机视觉与生成模型的研究工作。

技术架构:基于扩散Transformer的170亿参数模型
论文显示,LPM 1.0采用了规模为170亿参数的扩散Transformer(Diffusion Transformer,简称DiT)架构。这里需要解释一下,扩散模型是近年来在图像和视频生成领域大放异彩的一类技术,其核心思想是通过模拟一个从数据逐步“加噪”再到“去噪”的过程,让模型学会从随机噪声中恢复出高质量的目标内容。
而Transformer架构的引入,则是一个关键进化。它将视频中的空间、时间以及各种控制条件信息,统一转化为“token”序列进行处理。这种设计让模型具备了更强的全局建模能力,能够更好地协调视频帧与帧之间的关系,从而提升生成的清晰度、时序一致性以及语义丰富度。可以说,从传统的U-Net架构转向DiT,是当前视频生成模型发展的一个明确趋势。LPM 1.0正是基于这一趋势构建,并将其目标聚焦于一个更细分的场景:角色表演生成。

破解“表演三难”:让角色真正活起来
为什么专门针对“表演”进行建模?论文开篇就点明了核心:表演是角色将内在意图、情感和个性,通过视觉、声音和时序行为外化出来的过程,它是让虚拟角色拥有生命力的关键。从海量视频数据中直接学习这种表演,被认为是替代传统复杂3D动画流程的一条潜在捷径。
然而,理想很丰满,现实却存在一个“表演三难”问题:现有的视频生成模型,很难同时实现高表现力、实时推理速度和长时间生成的稳定性。往往顾此失彼,难以满足实际交互应用的需求。
为了攻克这一难题,LPM 1.0被设计为专注于“单人全双工音频-视觉对话表演”。研究团队为此构建了一个高质量的多模态、以人为中心的数据集。这个数据集的构建过程颇为严格,包含了数据过滤、说话与倾听状态的音频-视频配对、对表演本身的理解,以及身份感知的多参考信息提取。

如何工作:实时、可控且身份一致
那么,这个模型具体能做什么?它被设计为支持多种粒度的控制方式。你可以通过文本描述、参考视频或一张静态图片作为条件输入,来驱动生成具有连贯动作和丰富表情的角色视频。
在推理阶段,给定一张带有特定身份信息的角色参考图后,LPM 1.0能够实现以下功能:根据用户输入的音频,生成角色倾听时的视频;根据合成或预设的音频,生成角色说话时的视频。整个过程支持通过文本提示进行动作微调,并且所有生成都以“实时”速度运行。更重要的是,它能在无限长度的生成中保持角色身份的稳定性。
这使得LPM 1.0有望成为对话智能体、直播虚拟角色和游戏NPC的底层视觉引擎。为了系统评估其在交互式场景下的性能,研究团队还提出了一个名为LPM-Bench的基准测试,据称这是首个针对交互式角色表演的评估基准。结果显示,LPM 1.0在所有评估维度上都取得了最优结果,同时保持了实时推理能力。

应用前景与当前限制
从项目演示来看,LPM 1.0的视频对话模式可以与ChatGPT、豆包等纯音频对话模型(A2A模型)进行即插即用的组合,从而构建出“能听会说、且有生动形象”的AI智能体。其潜在应用场景相当广泛,涵盖了对话式AI助手、交互式游戏NPC、虚拟主播、个性化教育辅导、游戏陪伴以及娱乐内容互动等多个领域。

不过,值得注意的是,目前该模型仅授权用于非商业的学术研究。研究团队在论文和项目主页中明确表示,暂无计划对外发布模型权重、源代码、在线演示、API或任何相关产品或服务。这意味着,至少在现阶段,LPM 1.0不会开源,也不会对外提供使用。
项目主页地址:https://large-performance-model.github.io/
相关攻略
4月10日,一则来自游戏与AI交叉领域的消息引起了业界关注:米哈游创始人蔡浩宇在退休后,于新加坡创立了专注于AI交互式内容与AGI产品研发的新公司Anuttacon。其首款AI游戏《星之低语》已于去年发售,而如今,这家公司的研究团队在视频生成领域迈出了更实质性的一步。 当地时间4月9日,Anutta
LPM 1 0 的亮相,或许只是掀开了冰山一角。蔡浩宇真正在构建的,很可能是下一个时代的游戏引擎基石。 4月9日,一篇来自Anuttacon团队的论文悄然出现在arXiv上。论文展示了一个名为LPM 1 0的视频模型。请注意它的全称:Large Performance Model。关键词是“Perf
4月4日消息,据上海交大最新公众号透露,4月4日,上海交通大学徐汇校区总办公厅,米哈游联合创始人、总裁、董事长、上海交通大学2005级信息工程专业本科、2009级通信与信息系统专业硕士校友刘伟,代表
12月3日消息,近日米哈游联合创始人蔡浩宇创立的 AI 公司 Anuttacon,悄悄上线了一款 AI 聊天大模型—【AnuNeko】。和其他大模型不同,蔡浩宇的 AnuNeko 看起来似乎有点那么
12月2日消息,据 36 氪报道,米哈游联合创始人蔡浩宇在美国创立的 AI 公司 Anuttacon 近日上线了一款全新 AI 聊天大模型「AnuNeko」。该产品以黑猫为默认形象,强调个性化与互动
热门专题
热门推荐
人工智能的浪潮正席卷每个角落,智能办公工具无疑是其中备受瞩目的弄潮儿。以自然语言处理和机器学习为内核的AI文档助手,承诺用高效与精准重塑我们的文字工作。但一个值得玩味的问题随之浮现:它究竟是一场碘伏传统的革命性创新,还是更像一位得力的职业伙伴? AI文档助手的革命性创新 不得不说,AI文档助手的出现
2026年5月13日至14日,备受瞩目的Create 2026百度AI开发者大会将在北京隆重举行。本届大会以“万物一体”为核心主题,并实现了一项重要升级:首次将“Create百度AI开发者大会”与“云智大会”全面合并。此次整合旨在为参会者提供一站式、全景式的洞察体验,无论是关注AI基础设施的企业决策
雷蛇与《鸣潮》联名的达妮娅主题外设系列将于2026年5月20日推出,涵盖无线鼠标、机械键盘、电竞椅和超大鼠标垫四款产品。系列兼顾轻量化设计、高性能硬件与角色主题元素,致力于为玩家打造兼具操作性能与沉浸氛围的全方位游戏体验。
《极限竞速:地平线6》登陆Xbox与PC平台,首次将舞台设定于日本。本作画质显著提升,以丰富细节呈现东京霓虹、樱花林与山间晨雾。玩法上重构开局身份,玩家需从普通访客逐步成长为传奇车手,并引入庄园系统与探索乐趣。游戏对硬件性能要求较高,但借助DLSS4等技术可实现画质与流畅度的平衡。
人工智能正改变传统表格制作方式,通过自然语言指令自动生成表格与图表,显著提升工作效率。人机协作虽带来便利,确保数据准确性仍是关键。未来更智能的预测功能值得期待,但使用者仍需掌握数据分析基本功,以充分释放数据价值。





