首页 游戏 软件 资讯 排行榜 专题
首页
科技
美团开源LongCat模型:高效长视频生成技术架构解析

美团开源LongCat模型:高效长视频生成技术架构解析

热心网友
43
转载
2025-10-27

美团正式迈出通向"世界模型"的关键第一步,并计划借助这一创新更有效地衔接"原子世界"与"比特世界"。 美团开源LongCat-Video支持高效长视频生成,迈出

▲美团发布并开源LongCat-Video视频生成模型,正式启动"世界模型"探索之路(资料图)

10月27日,美团LongCat团队正式发布并开源了LongCat-Video视频生成模型。该模型通过统一架构,在文生视频、图生视频等基础任务上达到开源领域SOTA(最先进水平)标准,并基于原生视频续写任务进行预训练,实现了分钟级长视频的连贯生成。该技术有效保障了跨帧时序一致性与物理运动合理性,在长视频生成领域展现出显著优势。

近年来,"世界模型"(World Model)因其能让人工智能真正理解、预测乃至重构现实世界,被业界视为通往下一代智能的核心引擎。作为能够建模物理规律、时空演化与场景逻辑的智能系统,"世界模型"赋予人工智能"看见"世界运行本质的能力。而视频生成模型有望成为构建世界模型的关键路径——通过视频生成任务压缩几何、语义、物理等多形式知识,人工智能得以在数字空间中模拟、推演乃至预演真实世界的运行。正因如此,美团LongCat团队认为,此次发布的视频生成模型,正是探索"世界模型"迈出的实质性第一步。未来,凭借精准重构真实世界运行状态的能力,LongCat模型还将融入公司近年来持续投入的自动驾驶、具身智能等深度交互业务场景中,成为公司更好连接"比特世界"和"原子世界"的技术基础。

美团开源LongCat-Video支持高效长视频生成,迈出

▲LongCat-Video视频生成模型推理速度提升至10.1倍(资料图)

具体来看,此次开源模型的技术报告显示,作为基于Diffusion Transformer(DiT)架构的多功能统一视频生成基座,LongCat-Video创新性通过"条件帧数量"实现任务区分,原生支持三大核心任务:文生视频无需条件帧、图生视频输入1帧参考图、视频续写依托多帧前序内容,且无需额外模型适配,形成"文生/图生/视频续写"完整任务闭环。

此外,依托视频续写任务预训练,新模型可稳定输出5分钟级别的长视频,且无质量损失,达到行业顶尖水平。同时,从根源规避色彩漂移、画质降解、动作断裂等行业痛点,保障跨帧时序一致性与物理运动合理性,适配数字人、具身智能、世界模型等需要长时序动态模拟的场景需求。模型还结合块稀疏注意力(BSA)与条件token缓存机制,大幅降低长视频推理冗余——即使处理93帧及以上长序列,仍能兼顾效率与生成质量稳定,突破长视频生成"时长与质量不可兼得"的瓶颈。

针对高分辨率、高帧率视频生成的计算瓶颈,LongCat-Video通过"二阶段粗到精生成(C2F)+块稀疏注意力(BSA)+模型蒸馏"三重优化,视频推理速度提升至10.1倍,实现效率与质量的最优平衡。

美团开源LongCat-Video支持高效长视频生成,迈出

美团开源LongCat-Video支持高效长视频生成,迈出

▲LongCat-Video视频生成模型在文生、图生视频基础任务上达到开源SOTA(资料图)

技术报告还称,LongCat-Video的模型评估围绕内部基准测试和公开基准测试展开,覆盖Text-to-Video(文本生成视频)、Image-to-Video(图像生成视频)两大核心任务,从多维度(文本对齐、图像对齐、视觉质量、运动质量、整体质量)验证模型性能:1360亿参数的视频生成基座模型,在文生视频、图生视频两大核心任务中,综合性能均达到当前开源领域SOTA级别;通过文本-视频对齐、视觉质量、运动质量、整体质量四大维度评估,其性能在文本对齐度、运动连贯性等关键指标上展现显著优势;在VBench等公开基准测试中,LongCat-Video在参评模型中整体表现优异。


来源:https://www.leiphone.com/category/industrynews/jViMyv3KqM1CAklD.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

美团开源LongCat模型:高效长视频生成技术架构解析
科技
美团开源LongCat模型:高效长视频生成技术架构解析

美团迈出通向“世界模型”的第一步,并计划用它更好地连接“原子世界”与“比特世界”。 ▲美团发布并开源LongCat-Video视频生成模型,迈出通向“世界模型”的第一步(资料图)10月

热心网友
10.27
      马斯克xAI开发世界模型,可应用于游戏与机器人领域
AI
马斯克xAI开发世界模型,可应用于游戏与机器人领域

北京时间 10 月 12 日,据《金融时报》,埃隆・马斯克旗下 xAI 公司正加紧构建其“世界模型”,与 Meta 和谷歌等对手一同角逐下一代 AI 系统。这些系统能够实现对物理环境的自主导航与设计

热心网友
10.13
马斯克xAI研发世界模型,将适配游戏与机器人应用
科技
马斯克xAI研发世界模型,将适配游戏与机器人应用

10月13日消息,据IT之家援引伦敦《金融时报》报道,埃隆・马斯克旗下 xAI 公司正加紧构建其“世界模型”,与 Meta 和谷歌等对手一同角逐下一代 AI 系统。这些系统能够实现对物理环境的自主导

热心网友
10.13
LeCun团队发布开源代码世界模型,首款能编程的LLM
AI
LeCun团队发布开源代码世界模型,首款能编程的LLM

疯狂挖人的 Meta,终于在今天发布了最新 AI 研发成果!代码世界模型 CWM 是本次发布的模型,创新性地将世界模型引入了代码生成任务中。这是否会成为编程模型新范式?疯狂挖人的 Meta,终于把他

热心网友
09.26
宇树开源 UnifoLM-WMA-0 世界模型架构:可理解机器人与环境交互物理规律
AI
宇树开源 UnifoLM-WMA-0 世界模型架构:可理解机器人与环境交互物理规律

9 月 15 日消息,宇树科技今晚宣布开源 UnifoLM-WMA-0,其为宇树科技跨多类机器人本体的开源世界模型-动作架构,专为通用机器人学习而设计,其核心成分在于一个可以理解机器人与环境交互物

热心网友
09.16

最新APP

灵魂调色师正
灵魂调色师正
休闲益智 10-28
飘渺寻仙曲九游
飘渺寻仙曲九游
角色扮演 10-28
汤姆猫炫跑
汤姆猫炫跑
休闲益智 10-28
我爱躲猫猫
我爱躲猫猫
休闲益智 10-28
鸡你太美正
鸡你太美正
休闲益智 10-28

热门推荐

2025年中国大陆用户火必App下载、安装、注册、入金(充U)教程
web3.0
2025年中国大陆用户火必App下载、安装、注册、入金(充U)教程

数字资产管理平台的火热浪潮 最近这两三年,身边朋友聊起数字资产配置,总绕不开几家主流交易平台。说实话,这类平台的迭代速度确实快,去

热心网友
10.28
全辅助角色解析:无期迷途全辅助强度榜与数据一览
手游攻略
全辅助角色解析:无期迷途全辅助强度榜与数据一览

无期迷途全辅助角色有哪些,很多小伙伴想知道当前无期迷途游戏里中有哪些辅助,强度如何,单人拐力强度等等,下面就为大家分享下面关于游戏中的全辅助角色榜一览。《无期迷途》全辅助角色数据榜

热心网友
10.28
汽车座椅电机润滑脂选择指南:结构与需求适配方案详解
科技
汽车座椅电机润滑脂选择指南:结构与需求适配方案详解

汽车座椅电机作为实现座椅电动调节的核心组件,承担着驱动水平移动、高度调节及靠背角度变化等关键功能。其运行环境复杂多变,对配套润滑脂的性能提出严苛要求。如何针对不同结构选择适配的润滑方案,成为工程师面

热心网友
10.28
港服PlayStation双11提前开抢:主机游戏最低2.6折起
科技
港服PlayStation双11提前开抢:主机游戏最低2.6折起

PlayStation香港服宣布,一年一度的双11购物节将于10月31日正式开启,部分商品折扣低至2 6折。此次活动涵盖PS5主机系列、周边配件及多款热门游戏,为广大玩家带来实质性优惠。本次促销重点

热心网友
10.28
口袋斗罗大陆灵魂有什么用?灵魂培养机制与极品灵魂推荐
手游攻略
口袋斗罗大陆灵魂有什么用?灵魂培养机制与极品灵魂推荐

在《口袋斗罗大陆》中,魂灵系统通过图鉴收集与四大玩法(重置、升星、进化、共鸣)为全队提供核心战力加成。下面是《口袋斗罗大陆》魂灵培养机制及强势魂灵推荐,助您高效提升阵容实力。《口袋

热心网友
10.28