
2025年12月17日,腾讯混元正式推出了其新一代世界模型1.5版本。这项模型能够根据文字描述或图片输入,快速生成可供交互的虚拟世界。用户可以直接使用键盘、鼠标或手柄,实时操控虚拟相机的移动与视角切换,获得如同游戏般沉浸的探索体验。
此次发布的版本首次完整开源了覆盖全链路的实时世界模型框架,涵盖了从数据构建、模型训练到流式推理部署的各个环节。在技术层面,模型引入了多项创新模块,包括重构记忆力机制、长上下文蒸馏方法,以及基于3D结构的自回归扩散模型与强化学习融合算法。
在功能表现上,混元世界模型1.5具备三大核心能力。首先是实时交互生成,依托原创的Context Forcing蒸馏策略与流式推理优化,能在720P分辨率下以每秒24帧的速度持续输出画面。其次是实现了长时序的三维几何一致性,借助重构记忆机制,支持分钟级连续内容中稳定空间结构的生成,适用于高精度3D模拟场景的构建。第三是提供多样化的互动方式,兼容多种视觉风格与现实或虚构场景,支持第一人称与第三人称视角切换,并具备实时文本触发事件响应及视频内容延续生成等功能。
该模型的核心架构为WorldPlay自回归扩散模型,采用Next-Frames-Prediction视觉自回归训练范式,有效解决了在保证实时响应的同时维持长时序3D一致性的技术挑战,实现了交互式虚拟世界构建的新突破。
