美团开源LongCat模型:高效长视频生成技术架构解析
美团正式迈出通向"世界模型"的关键第一步,并计划借助这一创新更有效地衔接"原子世界"与"比特世界"。 
▲美团发布并开源LongCat-Video视频生成模型,正式启动"世界模型"探索之路(资料图)
10月27日,美团LongCat团队正式发布并开源了LongCat-Video视频生成模型。该模型通过统一架构,在文生视频、图生视频等基础任务上达到开源领域SOTA(最先进水平)标准,并基于原生视频续写任务进行预训练,实现了分钟级长视频的连贯生成。该技术有效保障了跨帧时序一致性与物理运动合理性,在长视频生成领域展现出显著优势。
近年来,"世界模型"(World Model)因其能让人工智能真正理解、预测乃至重构现实世界,被业界视为通往下一代智能的核心引擎。作为能够建模物理规律、时空演化与场景逻辑的智能系统,"世界模型"赋予人工智能"看见"世界运行本质的能力。而视频生成模型有望成为构建世界模型的关键路径——通过视频生成任务压缩几何、语义、物理等多形式知识,人工智能得以在数字空间中模拟、推演乃至预演真实世界的运行。正因如此,美团LongCat团队认为,此次发布的视频生成模型,正是探索"世界模型"迈出的实质性第一步。未来,凭借精准重构真实世界运行状态的能力,LongCat模型还将融入公司近年来持续投入的自动驾驶、具身智能等深度交互业务场景中,成为公司更好连接"比特世界"和"原子世界"的技术基础。

▲LongCat-Video视频生成模型推理速度提升至10.1倍(资料图)
具体来看,此次开源模型的技术报告显示,作为基于Diffusion Transformer(DiT)架构的多功能统一视频生成基座,LongCat-Video创新性通过"条件帧数量"实现任务区分,原生支持三大核心任务:文生视频无需条件帧、图生视频输入1帧参考图、视频续写依托多帧前序内容,且无需额外模型适配,形成"文生/图生/视频续写"完整任务闭环。
此外,依托视频续写任务预训练,新模型可稳定输出5分钟级别的长视频,且无质量损失,达到行业顶尖水平。同时,从根源规避色彩漂移、画质降解、动作断裂等行业痛点,保障跨帧时序一致性与物理运动合理性,适配数字人、具身智能、世界模型等需要长时序动态模拟的场景需求。模型还结合块稀疏注意力(BSA)与条件token缓存机制,大幅降低长视频推理冗余——即使处理93帧及以上长序列,仍能兼顾效率与生成质量稳定,突破长视频生成"时长与质量不可兼得"的瓶颈。
针对高分辨率、高帧率视频生成的计算瓶颈,LongCat-Video通过"二阶段粗到精生成(C2F)+块稀疏注意力(BSA)+模型蒸馏"三重优化,视频推理速度提升至10.1倍,实现效率与质量的最优平衡。


▲LongCat-Video视频生成模型在文生、图生视频基础任务上达到开源SOTA(资料图)
技术报告还称,LongCat-Video的模型评估围绕内部基准测试和公开基准测试展开,覆盖Text-to-Video(文本生成视频)、Image-to-Video(图像生成视频)两大核心任务,从多维度(文本对齐、图像对齐、视觉质量、运动质量、整体质量)验证模型性能:1360亿参数的视频生成基座模型,在文生视频、图生视频两大核心任务中,综合性能均达到当前开源领域SOTA级别;通过文本-视频对齐、视觉质量、运动质量、整体质量四大维度评估,其性能在文本对齐度、运动连贯性等关键指标上展现显著优势;在VBench等公开基准测试中,LongCat-Video在参评模型中整体表现优异。
相关攻略
谷歌将海量街景数据接入其Genie世界模型,可生成基于真实地点的交互式模拟环境。该功能能模拟不同天气和视角,已用于Waymo自动驾驶的极端场景训练,并逐步向用户开放体验。目前模拟效果接近游戏画面,尚未实现照片级真实感和完整的物理规律理解,准确性仍有提升空间。
ASC26超算竞赛总决赛在无锡学院落幕,北京大学与清华大学分获冠亚军。赛事吸引全球300多支高校队伍,决赛需在功耗限制下搭建超算集群,完成基准测试与世界模型推理等前沿赛题。赛题紧密对接科研与产业热点,旨在培养跨学科复合型人才。
灵光App正式上线“体验世界模型”功能,首次将前沿技术引入手机。用户上传图片后,几秒内即可生成专属三维世界,并通过虚拟摇杆以第一人称视角沉浸式探索,实现从静态图像到动态交互空间的转化。
2025年3月10日,腾讯混元3D团队正式开源了业界首个专为世界模型设计的强化学习后训练框架——WorldCompass。该框架可视为此前发布的混元世界模型1 5的官方强化学习增强模块,其核心使命在于显著提升世界模型的指令遵循精度与长序列交互体验,推动智能体与虚拟环境的互动迈向新高度。 简而言之,W
世界模型Agora-1驱动多人FPS游戏,场景与角色均由AI实时生成,无需传统引擎。玩家可与AI竞技,但存在延迟与体验粗糙问题。该模型通过分离“仿真”与“渲染”实现状态同步,动态生成内容。开发公司Odyssey专注通用世界模型并获融资,演示虽不完善,却引发对虚拟与现实界限的思考。
热门专题
热门推荐
公安部就电子数据取证规则公开征求意见,拟将网络安全等行政案件纳入适用范围,并规范取证流程与核心概念。新规特别明确了获取密码、调取通讯内容等特殊程序,需经严格审批并保障当事人权利。配套法律文书也同步优化,以构建更规范且注重权利保障的取证体系。
理想L9和LIvis的定价策略刚掀起波澜,小鹏GX的最终价格就给出了更猛烈的回应——从近40万元的预售价直降至27万元起。用小鹏产品矩阵负责人吴安飞的话说,这叫“9系的产品,8系的价格”。 这12万元的下调,效果堪称立竿见影。发布会次日,小鹏集团港股股价一度大涨超8%。更关键的是市场订单:上市12小
5月21日,环塔拉力赛新疆且末赛段大营迎来了一位备受瞩目的访客——知名零售企业胖东来的创始人于东来。他专程前往长城汽车车队营地,与参赛车手及后勤团队进行了深度交流。据悉,于东来此次自驾越野之旅已历时一月,随行车队中包含多款国产越野车型。经过实地驾驶与多维度对比,他对以长城汽车为代表的国产越野车品质给
比特币官方入口在哪里?一个核心门户的权威指南 说起比特币,很多人第一反应是去找它的“官网”或“官方App”。但这里有个关键点需要先理清:比特币本质上是一种去中心化的全球数字货币,它不属于任何一家公司或机构,而是由一个庞大的、遍布全球的社区共同维护。因此,它并没有传统意义上由某个企业运营的“官方网站”
Ring-2 5-1T是什么 在当今大模型技术激烈竞争的赛道上,追求更长的上下文处理能力和更强大的深度推理性能已成为核心焦点。近日,蚂蚁集团旗下的inclusionAI团队重磅开源了Ring-2 5-1T模型,这是一个参数规模高达万亿级别的混合线性思考大语言模型。该模型基于先进的Ling 2 5架构





