首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
美团开源LongCat模型:高效长视频生成技术架构解析

美团开源LongCat模型:高效长视频生成技术架构解析

热心网友
51
转载
2025-10-27

美团正式迈出通向"世界模型"的关键第一步,并计划借助这一创新更有效地衔接"原子世界"与"比特世界"。 美团开源LongCat-Video支持高效长视频生成,迈出

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

▲美团发布并开源LongCat-Video视频生成模型,正式启动"世界模型"探索之路(资料图)

10月27日,美团LongCat团队正式发布并开源了LongCat-Video视频生成模型。该模型通过统一架构,在文生视频、图生视频等基础任务上达到开源领域SOTA(最先进水平)标准,并基于原生视频续写任务进行预训练,实现了分钟级长视频的连贯生成。该技术有效保障了跨帧时序一致性与物理运动合理性,在长视频生成领域展现出显著优势。

近年来,"世界模型"(World Model)因其能让人工智能真正理解、预测乃至重构现实世界,被业界视为通往下一代智能的核心引擎。作为能够建模物理规律、时空演化与场景逻辑的智能系统,"世界模型"赋予人工智能"看见"世界运行本质的能力。而视频生成模型有望成为构建世界模型的关键路径——通过视频生成任务压缩几何、语义、物理等多形式知识,人工智能得以在数字空间中模拟、推演乃至预演真实世界的运行。正因如此,美团LongCat团队认为,此次发布的视频生成模型,正是探索"世界模型"迈出的实质性第一步。未来,凭借精准重构真实世界运行状态的能力,LongCat模型还将融入公司近年来持续投入的自动驾驶、具身智能等深度交互业务场景中,成为公司更好连接"比特世界"和"原子世界"的技术基础。

美团开源LongCat-Video支持高效长视频生成,迈出

▲LongCat-Video视频生成模型推理速度提升至10.1倍(资料图)

具体来看,此次开源模型的技术报告显示,作为基于Diffusion Transformer(DiT)架构的多功能统一视频生成基座,LongCat-Video创新性通过"条件帧数量"实现任务区分,原生支持三大核心任务:文生视频无需条件帧、图生视频输入1帧参考图、视频续写依托多帧前序内容,且无需额外模型适配,形成"文生/图生/视频续写"完整任务闭环。

此外,依托视频续写任务预训练,新模型可稳定输出5分钟级别的长视频,且无质量损失,达到行业顶尖水平。同时,从根源规避色彩漂移、画质降解、动作断裂等行业痛点,保障跨帧时序一致性与物理运动合理性,适配数字人、具身智能、世界模型等需要长时序动态模拟的场景需求。模型还结合块稀疏注意力(BSA)与条件token缓存机制,大幅降低长视频推理冗余——即使处理93帧及以上长序列,仍能兼顾效率与生成质量稳定,突破长视频生成"时长与质量不可兼得"的瓶颈。

针对高分辨率、高帧率视频生成的计算瓶颈,LongCat-Video通过"二阶段粗到精生成(C2F)+块稀疏注意力(BSA)+模型蒸馏"三重优化,视频推理速度提升至10.1倍,实现效率与质量的最优平衡。

美团开源LongCat-Video支持高效长视频生成,迈出

美团开源LongCat-Video支持高效长视频生成,迈出

▲LongCat-Video视频生成模型在文生、图生视频基础任务上达到开源SOTA(资料图)

技术报告还称,LongCat-Video的模型评估围绕内部基准测试和公开基准测试展开,覆盖Text-to-Video(文本生成视频)、Image-to-Video(图像生成视频)两大核心任务,从多维度(文本对齐、图像对齐、视觉质量、运动质量、整体质量)验证模型性能:1360亿参数的视频生成基座模型,在文生视频、图生视频两大核心任务中,综合性能均达到当前开源领域SOTA级别;通过文本-视频对齐、视觉质量、运动质量、整体质量四大维度评估,其性能在文本对齐度、运动连贯性等关键指标上展现显著优势;在VBench等公开基准测试中,LongCat-Video在参评模型中整体表现优异。


来源:https://www.leiphone.com/category/industrynews/jViMyv3KqM1CAklD.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

全球首款带物理直觉的AI模型在沪发布,理解真实世界规律
科技数码
全球首款带物理直觉的AI模型在沪发布,理解真实世界规律

让AI告别“重视觉效果、轻物理逻辑”的行业短板,近期五一视界(51WORLD)发布全球首款物理直觉世界模型51World Model,实现AI遵循物理规律推演、与真实场景全要素交互的核心突破,彻底破

热心网友
04.01
国产模型准确率超谷歌登顶全球,3D精度获近满分
AI
国产模型准确率超谷歌登顶全球,3D精度获近满分

允中 发自 凹非寺量子位 | 公众号 QbitAI还得是咱国产世界模型牛!极佳视界最新力作GigaWorld-1,直接击穿谷歌英伟达,WorldArena登顶全球第一。而且还是唯一一个综合得分突破6

热心网友
03.30
夏中谱加入无界动力,出任联合创始人兼联席CTO
科技数码
夏中谱加入无界动力,出任联合创始人兼联席CTO

3月30日消息,雷峰网最新获悉,无界动力官宣夏中谱正式加入公司,担任联合创始人兼联席CTO,全面负责基于世界模型的原生具身智能多模态大模型研发,以及数据闭环、云端仿真等核心技术基础设施的持续建设与升

热心网友
03.30
南洋理工与港中深打造首个机器人4D仿真模型
科技数码
南洋理工与港中深打造首个机器人4D仿真模型

这项由新加坡南洋理工大学S-Lab实验室联合香港中文大学(深圳)高等工程学院开展的突破性研究于2026年3月发表在计算机科学顶级期刊上,论文编号为arXiv:2603 16669。有兴趣深入了解的读

热心网友
03.26
VLA与世界模型:互补共存,赋能通用人工智能
科技数码
VLA与世界模型:互补共存,赋能通用人工智能

一段时间以来,围绕VLA(Vision-Language-Action,视觉-语言-行动)模型、WMA(World-Model–Action,“世界模型+动作策略”)模型两条路线的讨论,是具身智能领

热心网友
03.26

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《洛克王国》世界圣羽翼王打法攻略-圣羽翼王技能与实战详解
游戏攻略
《洛克王国》世界圣羽翼王打法攻略-圣羽翼王技能与实战详解

速览攻略:世界圣羽翼王核心打法与全面解析 本攻略将为你完整呈现《洛克王国》世界圣羽翼王的通关秘籍,深度剖析两种高效实战打法:追求极致速度的“燃薪虫四回合速通”与稳定输出的“酷拉无限连击流”。文章将进一步解析这位翼系精灵王的技能机制、属性克制关系及其在PVE与PVP中的实战定位,帮助你彻底掌握应对其隐

热心网友
04.06
《异种航员2》工程系统详解-工作坊与资源管理指南
游戏攻略
《异种航员2》工程系统详解-工作坊与资源管理指南

速览:工程系统核心机制解析 在《异种航员2》中,工程系统是整个抵抗力量赖以运转的“战略后勤中枢”。无论是研发新武器、生产重型装甲还是制造先进飞行器,所有实体装备的产出都依赖于此。简言之,该系统的核心运作围绕着两大关键:工程师人力的高效配置与全球稀缺资源的精细化调度。工程师的数量直接决定了每个项目的建

热心网友
04.06
《洛克王国世界》治愈兔位置详解-任务与战斗关键精灵
游戏攻略
《洛克王国世界》治愈兔位置详解-任务与战斗关键精灵

核心速览 在《洛克王国世界》中,治愈兔是一位兼具功能性任务角色与实战辅助能力的精灵。它的价值不仅在剧情推进中体现,更在于对战里出色的治疗与防护表现。本文将为你全面解析治愈兔的精准获取位置、种族属性特点以及实战技能搭配,助你顺利捕捉并最大化其在队伍中的作用。所有关键信息将通过清晰的图文内容详细展示,确

热心网友
04.06
《红色沙漠》传说之狼打法-传说之狼击杀流程详解
游戏攻略
《红色沙漠》传说之狼打法-传说之狼击杀流程详解

速览 在《红色沙漠》中,挑战传说之狼这一强大的任务BOSS,需要玩家进行充分的准备并遵循完整的任务流程。整个过程环环相扣,你必须首先参与塞莱斯特家族的势力任务,通过完成任务将家族声望提升至指定等级,才能解锁【传说之狼】的专属讨伐任务,最终直面这个传说中的强大生物。 红色沙漠传说之狼怎么打 归根结底,

热心网友
04.06
《宝可梦Pokopia》舒适度提升攻略-环境等级与栖息地优化指南
游戏攻略
《宝可梦Pokopia》舒适度提升攻略-环境等级与栖息地优化指南

【宝可梦Pokopia】舒适度全解析:快速提升环境等级的核心秘诀 你是否正在探索《宝可梦Pokopia》世界,并希望有效提升宝可梦栖息地的舒适度?舒适度不仅是衡量宝可梦快乐程度的晴雨表,更是解锁游戏核心内容、加速发展的关键驱动指标。本攻略将系统性地为你揭示提升舒适度的核心途径,涵盖从装饰栖息地、建造

热心网友
04.06