美团开源LongCat模型:高效长视频生成技术架构解析
美团正式迈出通向"世界模型"的关键第一步,并计划借助这一创新更有效地衔接"原子世界"与"比特世界"。 
▲美团发布并开源LongCat-Video视频生成模型,正式启动"世界模型"探索之路(资料图)
10月27日,美团LongCat团队正式发布并开源了LongCat-Video视频生成模型。该模型通过统一架构,在文生视频、图生视频等基础任务上达到开源领域SOTA(最先进水平)标准,并基于原生视频续写任务进行预训练,实现了分钟级长视频的连贯生成。该技术有效保障了跨帧时序一致性与物理运动合理性,在长视频生成领域展现出显著优势。
近年来,"世界模型"(World Model)因其能让人工智能真正理解、预测乃至重构现实世界,被业界视为通往下一代智能的核心引擎。作为能够建模物理规律、时空演化与场景逻辑的智能系统,"世界模型"赋予人工智能"看见"世界运行本质的能力。而视频生成模型有望成为构建世界模型的关键路径——通过视频生成任务压缩几何、语义、物理等多形式知识,人工智能得以在数字空间中模拟、推演乃至预演真实世界的运行。正因如此,美团LongCat团队认为,此次发布的视频生成模型,正是探索"世界模型"迈出的实质性第一步。未来,凭借精准重构真实世界运行状态的能力,LongCat模型还将融入公司近年来持续投入的自动驾驶、具身智能等深度交互业务场景中,成为公司更好连接"比特世界"和"原子世界"的技术基础。

▲LongCat-Video视频生成模型推理速度提升至10.1倍(资料图)
具体来看,此次开源模型的技术报告显示,作为基于Diffusion Transformer(DiT)架构的多功能统一视频生成基座,LongCat-Video创新性通过"条件帧数量"实现任务区分,原生支持三大核心任务:文生视频无需条件帧、图生视频输入1帧参考图、视频续写依托多帧前序内容,且无需额外模型适配,形成"文生/图生/视频续写"完整任务闭环。
此外,依托视频续写任务预训练,新模型可稳定输出5分钟级别的长视频,且无质量损失,达到行业顶尖水平。同时,从根源规避色彩漂移、画质降解、动作断裂等行业痛点,保障跨帧时序一致性与物理运动合理性,适配数字人、具身智能、世界模型等需要长时序动态模拟的场景需求。模型还结合块稀疏注意力(BSA)与条件token缓存机制,大幅降低长视频推理冗余——即使处理93帧及以上长序列,仍能兼顾效率与生成质量稳定,突破长视频生成"时长与质量不可兼得"的瓶颈。
针对高分辨率、高帧率视频生成的计算瓶颈,LongCat-Video通过"二阶段粗到精生成(C2F)+块稀疏注意力(BSA)+模型蒸馏"三重优化,视频推理速度提升至10.1倍,实现效率与质量的最优平衡。


▲LongCat-Video视频生成模型在文生、图生视频基础任务上达到开源SOTA(资料图)
技术报告还称,LongCat-Video的模型评估围绕内部基准测试和公开基准测试展开,覆盖Text-to-Video(文本生成视频)、Image-to-Video(图像生成视频)两大核心任务,从多维度(文本对齐、图像对齐、视觉质量、运动质量、整体质量)验证模型性能:1360亿参数的视频生成基座模型,在文生视频、图生视频两大核心任务中,综合性能均达到当前开源领域SOTA级别;通过文本-视频对齐、视觉质量、运动质量、整体质量四大维度评估,其性能在文本对齐度、运动连贯性等关键指标上展现显著优势;在VBench等公开基准测试中,LongCat-Video在参评模型中整体表现优异。
相关攻略
美团迈出通向“世界模型”的第一步,并计划用它更好地连接“原子世界”与“比特世界”。 ▲美团发布并开源LongCat-Video视频生成模型,迈出通向“世界模型”的第一步(资料图)10月
北京时间 10 月 12 日,据《金融时报》,埃隆・马斯克旗下 xAI 公司正加紧构建其“世界模型”,与 Meta 和谷歌等对手一同角逐下一代 AI 系统。这些系统能够实现对物理环境的自主导航与设计
10月13日消息,据IT之家援引伦敦《金融时报》报道,埃隆・马斯克旗下 xAI 公司正加紧构建其“世界模型”,与 Meta 和谷歌等对手一同角逐下一代 AI 系统。这些系统能够实现对物理环境的自主导
疯狂挖人的 Meta,终于在今天发布了最新 AI 研发成果!代码世界模型 CWM 是本次发布的模型,创新性地将世界模型引入了代码生成任务中。这是否会成为编程模型新范式?疯狂挖人的 Meta,终于把他
9 月 15 日消息,宇树科技今晚宣布开源 UnifoLM-WMA-0,其为宇树科技跨多类机器人本体的开源世界模型-动作架构,专为通用机器人学习而设计,其核心成分在于一个可以理解机器人与环境交互物
热门专题
热门推荐
数字资产管理平台的火热浪潮 最近这两三年,身边朋友聊起数字资产配置,总绕不开几家主流交易平台。说实话,这类平台的迭代速度确实快,去
无期迷途全辅助角色有哪些,很多小伙伴想知道当前无期迷途游戏里中有哪些辅助,强度如何,单人拐力强度等等,下面就为大家分享下面关于游戏中的全辅助角色榜一览。《无期迷途》全辅助角色数据榜
汽车座椅电机作为实现座椅电动调节的核心组件,承担着驱动水平移动、高度调节及靠背角度变化等关键功能。其运行环境复杂多变,对配套润滑脂的性能提出严苛要求。如何针对不同结构选择适配的润滑方案,成为工程师面
PlayStation香港服宣布,一年一度的双11购物节将于10月31日正式开启,部分商品折扣低至2 6折。此次活动涵盖PS5主机系列、周边配件及多款热门游戏,为广大玩家带来实质性优惠。本次促销重点
在《口袋斗罗大陆》中,魂灵系统通过图鉴收集与四大玩法(重置、升星、进化、共鸣)为全队提供核心战力加成。下面是《口袋斗罗大陆》魂灵培养机制及强势魂灵推荐,助您高效提升阵容实力。《口袋





