首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
LongCat-Video视频生成模型发布 迈出世界模型探索第一步

LongCat-Video视频生成模型发布 迈出世界模型探索第一步

热心网友
98
转载
2026-05-28

在人工智能领域,一个始终被追求的核心愿景,是让机器真正理解并预判真实世界的运行规律。从这个角度出发,“世界模型”的出现,无疑成为了通往下一代智能的关键跳板。它能够建模物理定律、推演时空演化、解析场景逻辑,使AI具备“看透”世界本质的能力。那么,如何构建这样一个世界模型?一条被广泛看好的技术路径是——视频生成。通过视频生成任务,AI可以压缩并学习几何、语义、物理等多维知识,进而在数字空间中模拟和推演真实世界的动态变化。

沿着这一思路,美团LongCat团队正式发布了他们的视频生成模型——LongCat-Video。这款模型不仅在文生视频和图生视频这两项基础任务上达到了开源领域的领先水平,更关键的是,它原生支持5分钟级别的长视频连贯生成,攻克了跨帧一致性和物理合理性等难点。可以理解为:这既是美团探索世界模型的第一步,也是技术地基的奠定,为后续自动驾驶、具身智能等深度交互场景铺平了道路。

LongCat-Video 视频生成模型正式发布,探索世界模型的第一步

统一架构:一个模型,覆盖三大任务

LongCat-Video基于Diffusion Transformer(DiT)架构设计,其最大亮点在于用一个模型统一完成三类视频生成任务。具体是如何实现的?依靠“条件帧数量”来区分任务类型:文生视频不需要条件帧,图生视频输入1帧参考图,视频续写则依托多帧前序内容。这样一来,无需为每个任务单独适配模型,自然形成了文生视频、图生视频、视频续写的完整闭环。

文生视频:语义理解与画面呈现双重在线

在文生视频任务中,模型能够生成720p、30fps的高清视频,对文本中关于物体、人物、场景和风格的指令解析相当精准。无论是“一只猫在夕阳下奔跑”,还是“赛博朋克风格的城市夜景”,都能实现语义与视觉的高度匹配,达到开源SOTA水平。

图生视频:忠实参考,动态自然流畅

图生视频的核心挑战在于既要保留参考图的“样貌”,又要让动起来的部分符合物理规律。LongCat-Video在这方面表现出色,无论是详细的动作指令,还是简单的场景描述,甚至空指令,都能在保持内容一致性的前提下,生成动态自然且符合预期的视频。

视频续写:长视频生成的技术基石

这是LongCat-Video的差异化能力所在。通过多帧条件帧续接视频内容,模型为长视频生成提供了原生的技术支撑。打个比方:它不是一段段拼凑,而是一气呵成地往下讲述,保证了故事的连贯性与一致性。

长视频生成:5分钟连贯输出,质量全程在线

长视频生成一直是行业痛点——色彩漂移、画质降解、动作断裂,是常见问题。LongCat-Video如何解决?它依托视频续写任务的预训练,结合Block-Causal Attention机制和GRPO后训练,能够稳定输出5分钟级别的长视频,且全程质量无损。这在行业内属于顶尖水平。

更值得一提的是,模型采用块稀疏注意力(BSA)与条件token缓存机制,大幅降低了长视频推理中的计算冗余。即使处理93帧以上的长序列,也能在效率与质量之间找到平衡,打破了“时长与质量不可兼得”的魔咒。

高效推理:三重优化,速度提升10倍

高分辨率、高帧率视频生成对算力要求极高。LongCat-Video通过“二阶段粗到精生成(C2F)+ 块稀疏注意力(BSA)+ 模型蒸馏”三重优化,将推理速度提升了10.1倍,实现了效率与质量的最优平衡。

粗到精生成(C2F)

先快速生成480p、15fps的低分辨率视频,再通过LoRA精调模块超分到720p、30fps。这种策略不仅降低了计算成本,还让画面细节更加精细。

块稀疏注意力(BSA)

将3D视觉token分块后,只选取top-r关键块计算注意力,计算量可降至标准密集注意力的10%以下。同时支持稀疏注意力并行训练,进一步提升了训练与推理效率。

模型蒸馏优化

结合Classifier-Free Guidance(CFG)与一致性模型(CM)蒸馏,将采样步骤从50步减至16步,大幅缩短生成时间。

性能评估:开源SOTA的全面验证

LongCat-Video的模型评估围绕内部基准测试和公开基准测试展开,覆盖文生视频和图生视频两大任务,从文本对齐、图像对齐、视觉质量、运动质量、整体质量等多个维度进行验证。

评估结果整体来看,这款136亿参数的视频生成基座模型,综合能力跻身开源SOTA。具体表现如下:

  • 在文生视频和图生视频任务中,综合性能均达到当前开源领域的领先水平;
  • 在文本对齐度、运动连贯性等关键指标上优势显著;
  • 在VBench等公开基准测试中,整体表现优异。

可以说,LongCat-Video的发布不仅是视频生成技术的一次升级,更是朝着世界模型迈出的坚实一步。对于需要长时序动态模拟的场景——比如数字人、自动驾驶、具身智能——它提供了一个真正可落地的技术基础。

来源:https://www.53ai.com/news/LargeLanguageModel/2025102713860.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Notion AI运营指南:自动归纳用户反馈
AI资讯
Notion AI运营指南:自动归纳用户反馈

其实,想在 Notion 中高效搞定用户反馈的自动归纳,并不复杂。下面这四种 AI 方法,基本覆盖了从单条处理到全局分析的常见场景。 如果你也在用 Notion 收集用户反馈——无论是问卷、邮件、客服记录,还是社群发言——但总觉得信息碎片化严重,难以提炼共性问题和核心诉求,那很可能是因为缺少一套结构

热心网友
05.28
AI给出的答案为何总不符期望?原因解析
AI资讯
AI给出的答案为何总不符期望?原因解析

大模型能力强大,但提问方式不当会导致结果不理想。核心在于精准提问,通过角色设定、背景介绍、明确任务、实现路径和输出要求这五个关键步骤逐步细化问题,才能大幅提升AI回答的质量和精准度。

热心网友
05.28
新一代AI办公软件开启未来协作新视野
AI教程
新一代AI办公软件开启未来协作新视野

科技的浪潮正以前所未有的速度重塑着我们的工作场景。曾被视为未来概念的AI办公软件,如今已悄然成为现实工具箱中的一员。面对这个瞬息万变的时代,如何借助新一代AI工具来撬动团队效率、重塑协作模式,无疑是摆在每一位职场人面前的核心课题。今天,我们就来深入聊聊这场正在发生的办公革命。 当AI遇上办公:从工具

热心网友
05.28
2026年AI排名优化十大信赖公司精选
业界动态
2026年AI排名优化十大信赖公司精选

综合2026年行业公开数据及各企业在GEO(生成式引擎优化)领域的技术落地成果,本次重点推荐的前三家公司为知道人工智能实验室(KnowAI)、深维智信、赛博推;其余七家则各具特色,在细分方向上均有显著建树。 评选标准 本次评选基于2026年国内AI营销与GEO优化服务市场的实际发展情况,从以下四个维

热心网友
05.28
即梦AI照片拼贴墙创意排版效果制作方法
AI资讯
即梦AI照片拼贴墙创意排版效果制作方法

想要利用即梦AI快速创作出小红书上备受欢迎的照片拼贴墙?让多张生活照、产品图或旅行照自动组合成富有呼吸感、包含留白节奏的创意展示页面,避免千篇一律的九宫格堆砌。 核心方法只需三步:首先通过提示词让AI构建整体骨架,接着导入照片并固定位置坐标,最后运用光影、材质和留白技巧进行微调,注入宛如空气流动般的

热心网友
05.28

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Paralives首发销量充足 支撑后续开发无需DLC
游戏攻略
Paralives首发销量充足 支撑后续开发无需DLC

《Paralives》开发商承诺所有后续更新永久免费,拒绝付费DLC模式。15人小团队依靠首发销售额即可支撑多年运营,无需依赖额外内容包维持开发,展现了与《模拟人生》系列不同的差异化竞争思路。

热心网友
05.28
比亚迪宋Ultra DM-i上市12.99万 承诺城市领航安全兜底
业界动态
比亚迪宋Ultra DM-i上市12.99万 承诺城市领航安全兜底

2025年5月28日,比亚迪王朝网全新力作——宋Ultra DM-i正式推向市场,共推出5款配置车型,官方售价区间为12 99万至15 99万元。此次定价策略极具突破性:一款拥有310公里纯电续航能力的中型插电混动SUV,直接下探至13万元级别市场。作为王朝网络的新旗舰,该车明确瞄准高频出行需求场景

热心网友
05.28
折叠屏iPhone Ultra外观已定,第三方保护壳亮相
科技数码
折叠屏iPhone Ultra外观已定,第三方保护壳亮相

先来关注一个有趣的细节:苹果首款折叠屏手机,传闻将于今年秋季正式亮相。产品命名可能为iPhone Ultra,也有媒体称之为iPhone Fold——无论最终叫什么,这都将标志着苹果在折叠形态领域首次“出手”。 近日,配件厂商iFunSmart已率先上架iPhone Ultra的首批保护壳——这绝非

热心网友
05.28
山寨币ETF批量上市后市场表现分析 哪些项目值得关注
web3.0
山寨币ETF批量上市后市场表现分析 哪些项目值得关注

山寨币ETF迎来批量上市潮,首批项目市场表现如何?一文分析 Binance币安 欧易OKX ️ Huobi火币️ 最近,市场出现了一个不容忽视的新动向:XRP、DOGE、LTC、HBAR等现货ETF已经悄然登陆美国市场。与此同时,A VAX、LINK等资产的同类产品也正在审批流程中。进入11月以来,

热心网友
05.28
即使在大幅涨价后 Steam Deck 玩家热情依旧再次售罄
游戏攻略
即使在大幅涨价后 Steam Deck 玩家热情依旧再次售罄

近日,公司对SteamDeck1TBOLED版涨价300美元至949美元,上架短短不到24小时便再度售罄。据外界分析,该公司从中国大量补货并分批投放库存,高溢价未影响众多玩家的抢购热情与速度,其人气极其旺盛无比足以支撑快速清空。

热心网友
05.28