美团LongCat-2.0万亿参数大模型预览版发布

首页

AI资讯

热心网友

转载

2026-05-20

最近大模型圈有个消息挺值得关注：美团放出了LongCat-2.0-Preview的内测。这可不是一次普通的版本更新，它身上带着几个相当醒目的标签——万亿参数、MoE架构，以及最关键的，完全跑在国产算力上的训推闭环。咱们今天就把它掰开揉碎了看看。

简单来说，LongCat-2.0-Preview是美团大模型家族的最新预览版。它的总参数量达到了1.6万亿，但别被这个数字吓到，它采用了混合专家（MoE）架构，每次推理实际激活的参数大概在480亿左右。这就像拥有一座巨大的图书馆，但每次只根据你的问题，从最相关的几个书架上取书，效率自然高得多。

它最引人注目的能力，是支持高达100万token的超长上下文。这意味着什么？整本书、大型代码库、甚至长篇累牍的行业报告，都可以一次性“喂”给它。当然，光有容量还不够，还得能“消化”。为此，团队在注意力机制上做了稀疏化处理，确保在处理如此长的文本时，响应速度依然可控。

不过，真正让它与众不同的，或许是技术路线上的选择。根据公开信息，模型的训练和推理全程基于5到6万张国产加速卡完成，英伟达算力的占比是零。这在业内算是首次，验证了国产芯片集群从训练到推理完整支撑万亿级大模型的可行性。目前模型已经开放内测申请，成功参与的用户每天能获得1000万token的免费额度，这个手笔不算小。

它能做什么？不止是“更长”

参数和架构是骨架，功能才是血肉。LongCat-2.0-Preview的能力可以归结为几个核心方向：

超长文本的深度处理：这是它的招牌。无论是消化一整本小说来分析人物关系，还是通读一个开源项目的所有代码来理解架构，它都能胜任。
复杂的代码与逻辑推理：MoE架构允许它动态调度最擅长的“专家”网络来处理编程、数学这类需要精准逻辑的任务，表现更加稳定。
连贯的多轮对话与精准检索：借助稀疏注意力，它能在漫长的对话历史中快速定位关键信息，避免在无关内容上消耗算力，让对话更连贯、更“记事儿”。
理解图文混合的复杂内容：结合美团在本地生活领域的深厚积累，模型对包含图表、格式文本的业务文档有不错的解析能力。

技术底牌：如何驾驭万亿参数？

要实现上述能力，背后是一系列精巧的技术设计。简单看看它的几项核心技术：

MoE（混合专家）架构：这是控制成本的关键。1.6T的总参数中，每次前向计算只激活约48B，通过一个“门控”系统动态选择最相关的专家模块。
N-gram Embedding：这是个有趣的创新。它将部分原本在深层网络处理的参数，“前移”到了词嵌入层，直接对词组进行建模。高频的语言模式可以在这里直接匹配命中，减少了一层层的计算开销。
稀疏注意力与跨层索引：为了应对百万级上下文带来的平方级计算复杂度，模型引入了轻量的稀疏注意力机制，并结合跨层的语义路径索引，只关注最相关的信息片段。
为国产芯片定制的算子：要完全脱离英伟达生态，自研核心算子是必经之路。团队针对国产芯片，自研了FlashAttention反向梯度、Scatter类算子及GEMM模块，将性能损失控制在5%左右，确保了万卡集群长期训练的稳定性和可复现性。
极致的显存与通信优化：通过名为V-ZB的算法，将训练峰值显存压缩到60GB以下。同时，重构了专家并行、张量并行与流水线并行的策略，以适应国产芯片的带宽和显存限制。

如何上手体验？

如果你对这款模型感兴趣，目前的体验路径大致如下：

申请内测资格：访问LongCat开放平台官网，找到内测申请入口，填写必要信息提交。
等待审核：提交后，团队会对申请进行审核，通过后会通过邮件或信息通知。
登录获取额度：使用审核通过的账号登录平台，系统会自动发放每日1000万token的免费调用额度。
选择使用方式：你可以直接在Web聊天界面体验，也可以根据文档获取API Key，将其集成到自己的应用或工作流中。
开始长文本任务：在对话框或通过API输入你的长文档、代码或复杂指令，模型会基于其百万级上下文窗口和专家网络给出结果。

关键信息一览

模型名称：LongCat-2.0-Preview
发布方：美团 / LongCat 团队
模型架构：MoE，总参数1.6T，激活参数48B
上下文窗口：1M（百万级）token
算力底座：5–6万张国产加速卡，训推全流程国产化
使用阶段：受邀内测，需申请资格
免费额度：每日1000万Token
硬件要求：用户端无需配置硬件，通过云端API或Web界面调用

它的核心优势在哪里？

在竞争激烈的大模型赛道，LongCat-2.0-Preview试图建立自己的差异化优势：

全流程自主可控的象征意义：从训练到推理完全基于国产芯片，这不仅仅是技术验证，更是在当前环境下的一条重要技术路径探索，证明了国产算力具备支撑顶级大模型任务的能力。
超长文本处理的实际领先：1M上下文配合高效的稀疏注意力机制，在长文档分析、视频脚本理解、代码库管理等场景下，能提供更连贯、更深入的分析能力。
更具性价比的推理成本：MoE架构本身已大幅降低激活参数，N-gram Embedding等技术进一步压低了计算量，使得处理相同任务的成本远低于参数规模相近的稠密模型。
工程稳定性的深厚功底：在万卡级别的国产集群上实现长周期稳定训练，故障定位和复现能力追平国际水平，这背后是极强的工程化能力。
开源基因带来的生态想象：LongCat团队此前已开源多个项目，其2.0版本很大概率会延续开放路线，这对于开发者生态的构建至关重要。

与同类模型的横向对比

要看清一个模型的位置，最好的办法是把它放在赛场里。我们选取了同样以“长上下文”和“高性价比”著称的DeepSeek-V4作为参照，来看看它们的异同。

对比维度	LongCat-2.0-Preview	DeepSeek-V4
发布方	美团	DeepSeek
总参数量	约 1.6T	万亿级
激活参数	约 48B	未公开具体数值
上下文窗口	1M	1M
训练算力	5–6 万张国产卡，全流程	英伟达 GPU 训练，国产平台推理首发
架构特色	N-gram Embedding + 稀疏注意力	MLA + MoE
国产自主程度	训推全流程国产化，英伟达含量为 0	训练依赖英伟达，推理可跑国产芯片
开源策略	大概率延续开源	已开源
使用成本	内测阶段每日 1000 万免费 Token	V4 Flash 0.02 元/百万 Tokens，V4 Pro 0.025 元/百万 Tokens
生态定位	验证国产算力上限，深耕本地生活场景	极致性价比，服务广泛开发者