美团LongCat团队突破AI智能瓶颈：升级词汇库超越传统模型无需专家

首页

热心网友

转载

2026-05-12

想象一下，要让一个团队变得更聪明，你会怎么做？常规思路或许是招募更多专家。但美团LongCat团队在2026年1月发表的一项研究（arXiv:2601.21204v1），却指出了一个更巧妙的路径：与其不断扩充“专家”数量，不如先升级整个团队的“沟通词汇库”。这项发现，为大型语言模型（LLM）的演进打开了一扇新窗。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

美团LongCat团队重大突破：让AI

如今主流的大模型，普遍采用混合专家（MoE）架构。你可以把它理解为一个庞大的智囊团，面对问题时，系统会动态邀请几位最对口的专家来协同解决。这个方法固然有效，但随着模型规模膨胀，问题也随之而来：专家数量不断增加，性能提升却越来越有限，边际效益递减明显。更棘手的是，专家间的“沟通协调”成本会指数级增长，大量计算资源被消耗在内部调度上，反而拖慢了整体效率。

美团的研究者没有在增加专家的道路上继续内卷，而是将目光投向了一个常被忽视的维度：嵌入缩放（Embedding Scaling）。通俗地讲，他们选择去增强模型的“词汇理解能力”。这好比优化一个翻译团队，重点不是聘请更多翻译，而是让现有的每位翻译都掌握更丰富的词汇、更地道的短语搭配，从而整体提升对复杂文本的理解力。

具体的技术核心，是一种名为“N-gram嵌入”的方法。传统模型在理解单词“bank”时，可能只孤立地看待它，导致无法区分“河岸”和“银&行”。而N-gram嵌入则会同时考虑该词与其前后词汇的组合（例如“river bank”或“bank account”），让模型能更精准地捕捉上下文语义的微妙差异。

为了验证这一思路，团队进行了大规模实验，训练了从2.8亿到13亿激活参数不等的多个模型。结果令人振奋：在特定条件下，通过扩展嵌入参数来增加总参数量，其性能收益竟然超过了单纯堆叠更多专家。

一、发现最佳时机：何时使用词汇库扩展策略最有效

当然，嵌入扩展并非“放之四海而皆准”的万能钥匙。研究发现，它的效果存在一个“最佳启用时机”。这有点像烹饪火候，时机对了，才能激发出最佳风味。

通过大量实验，团队绘制了不同扩展策略的性能曲线。规律很明显：在专家数量较少的初期，增加专家是提升模型能力的捷径。然而，当专家数量超过某个临界点后，继续增加的收益就变得微乎其微，甚至可能因内部协调混乱而适得其反。

这个关键的转折点，与模型的“稀疏度”密切相关。研究人员用“总参数与激活参数的比值”来衡量它。当比值较低（模型较“密集”）时，增加专家的边际效益很高。可一旦比值超过某个阈值（模型变得高度稀疏），继续增派专家就不如投资于增强模型的词汇理解了。

这一发现为模型设计提供了清晰的路线图：N-gram嵌入策略，最好在专家数量越过其“收益甜蜜点”之后引入。对于已经拥有庞大专家库的模型而言，优化“词汇库”很可能是更明智的资源投向。

二、精心设计的集成策略：如何巧妙地平衡各种因素

找到了时机，下一步就是如何精巧地实施。这个过程如同调配精密仪器，需要平衡多方因素。

首先是参数预算的分配。研究发现，并非分配给N-gram嵌入的参数越多越好。当这部分参数超过总预算的50%时，性能反而会下降。因此，团队建议将N-gram嵌入的参数占比控制在50%以内，以取得最佳平衡。

其次是技术实现上的挑战，比如哈希冲突。N-gram嵌入依赖哈希函数来映射词组合，但不同词组可能被映射到同一位置，造成信息混淆。团队发现，当N-gram词汇表大小接近基础词汇表大小的整数倍时，冲突会显著加剧。因此，他们建议让N-gram词汇表大小明显偏离这些整数倍，以有效规避问题。

在超参数调优上，团队测试了不同的N-gram阶数（N值）和子表数量（K值）。结果显示，当N≥3且K≥2时，模型性能趋于稳定，对不同配置表现出良好的鲁棒性。实践中，将N设置在3到5之间，被认为是捕获足够上下文信息而又不过度稀疏的甜点区。

还有一个容易被忽略但至关重要的细节：信号放大。在早期实验中，N-gram嵌入模块的输出信号，很容易在模型前向传播过程中被后续注意力模块的强大输出所“淹没”。为解决此问题，团队探索了两种策略：一是为嵌入输出引入一个缩放因子（通常为√D，D为隐藏层维度）；二是在嵌入输出与残差分支合并前应用层归一化。这两种方法都能有效确保嵌入信息被后续层充分利用，带来了训练和验证损失上约0.02的稳定提升。

三、模型宽度与深度的影响：不同架构下的最佳策略

模型的整体架构，也深刻影响着嵌入扩展策略的效用。这方面的探索，对实际工程选型极具指导价值。

在模型宽度（即激活参数规模）方面，趋势非常鼓舞人心：模型越宽，N-gram嵌入带来的相对优势就越明显。对于仅有2.8亿激活参数的小模型，N-gram嵌入的优势窗口较窄。但当模型宽度增至7.9亿，其优势范围便大幅拓宽。到了13亿参数的宽模型，即便在很高的参数比值下，N-gram嵌入依然能保持显著领先。这好比一个大型图书馆，比小型书库更能从一套精密的索引系统中获益；更宽的模型拥有更大的表征空间，能更高效地存储和利用N-gram嵌入提供的丰富语言信息。

然而，模型深度的影响却呈现相反趋势。测试10层、20层和40层模型发现，随着层数增加，N-gram嵌入的相对优势会逐渐减弱。这是因为在预归一化架构中，来自嵌入层的信息需要通过残差连接层层传递，其影响力会随着网络加深而自然衰减。

这一发现恰好契合了当前主流模型的发展趋势：模型的深度通常稳定在数十层（例如40个shortcut层，约合80个传统层），而宽度则在不断扩展。这意味着，N-gram嵌入策略的优势，将在未来的模型演进中得到进一步放大。

四、推理效率的突破：从理论优势到实际加速

任何模型改进，若不能转化为实际的推理加速，其价值都将大打折扣。美团团队成功地将N-gram嵌入的理论优势，落地为可测量的系统性能提升。

N-gram嵌入实现了一个巧妙的“参数再分配”：它将参数从MoE层转移到了嵌入空间。在总参数量不变的前提下，这减少了MoE层需要激活的参数。对于那些受内存I/O限制的大规模文本生成场景，这种改变带来了直接好处。

更妙的是，增大嵌入层几乎不会增加推理延迟，因为嵌入查找的计算成本只与输入的token数量成正比，而与嵌入参数总量无关。这就像查字典，无论字典多厚，查一个词的时间都差不多。

为了将参数稀疏性带来的理论效率转化为实际速度，团队意识到需要结合大批量处理来最大化硬件利用率。这与“推测解码”技术形成了绝佳的协同效应——多步推测能有效扩大“有效批量大小”，从而榨干硬件潜能。

当然，挑战也随之而来。相比标准嵌入，N-gram嵌入在I/O、计算和通信上都引入了额外开销。现代推理框架复杂的调度机制，也使得提前确定完整的token序列变得困难，这给N-gram查找的优化增加了复杂度。

为此，团队开发了专用的“N-gram缓存”机制，其设计灵感来源于成功的KV缓存实践。他们实现了定制的CUDA内核来在设备上高效管理N-gram ID，并与各种推理优化技术实现低开销同步，显著提升了计算效率。在推测解码场景中，他们还为草稿模型使用传统嵌入层，并缓存N-gram结果，以消除验证阶段的冗余计算，进一步优化了端到端性能。

五、LongCat-Flash-Lite：理论转化为实践的成功案例

基于上述所有研究发现，美团团队从头训练了LongCat-Flash-Lite模型，它成为了新策略的最佳实践范例。

该模型采用与LongCat-Flash相同的基础架构，共14个shortcut层，总参数量达685亿。其中，高达314亿的参数（约占总量的46%）被分配给了N-gram嵌入，这正好落在研究发现的“最佳配比”区间内。模型会根据上下文动态激活29亿至45亿参数，这得益于其“零专家”的设计——每个shortcut层的MoE模块包含256个FFN专家和128个零专家，每个token会选择12个专家进行处理。

为了公平验证嵌入扩展策略，团队还训练了一个对照模型LongCat-Flash-Lite-Vanilla。它拥有完全相同的总参数量，但将所有N-gram嵌入参数都转换成了额外的专家。两者采用完全相同的训练数据和策略。

结果一目了然：在整个训练过程中，LongCat-Flash-Lite的训练损失始终低于对照模型。在涵盖通用知识（MMLU、C-Eval等）、推理（BBH、GSM8K等）和编程（HumanEval+、BigCodeBench等）的广泛基准测试中，LongCat-Flash-Lite在绝大多数任务上都显著超越了对照模型。这强有力地证实了核心假设：当模型稀疏度达到一定水平后，战略性地将参数分配给N-gram嵌入，始终优于单纯增加专家数量。

六、聊天模型的卓越表现：在实际应用中的突出能力

LongCat-Flash-Lite的聊天版本在多项贴近实际应用的评测中，展现了令人印象深刻的实力，尤其在智能体工具调用和编程任务上表现突出。

在智能体工具使用方面，它在τ2-Bench的所有子场景（电信、零售、航空）均取得最高分，并在VitaBench测试中以7.00分领先，显示出处理复杂、多步骤现实任务工作流的强大能力。

编程能力是其另一大亮点。在评估真实软件工程问题的SWE-Bench上，它以54.4的准确率大幅领先基线模型。在终端命令执行测试TerminalBench中，它更是以33.75分遥遥领先。更值得注意的是，在多语言编程测试SWE-Bench和多语言版、以及代码仓库生成测试PRDBench中，它都取得了领先或极具竞争力的成绩，甚至能自主编写单元测试来验证代码，产出更高质量的成果。

在通用知识（如MMLU、CMMLU）和数学推理（如MATH500、AIME竞赛题）任务上，LongCat-Flash-Lite同样提供了均衡且顶尖的性能，证明了其能力的全面性。

七、系统级优化：让理论优势变为实际速度提升

极致的稀疏激活带来了理论优势，但要转化为用户可感知的推理速度，离不开一系列精密的系统级优化。美团团队为此做了大量底层工作。

由于模型激活极度稀疏，要充分利用GPU内存带宽，就需要较大的有效批量大小。团队采用“Eagle3”技术部署模型，并配合“3步推测解码”策略。同时，应用宽专家并行和单批次重叠等技术来加速推理。

然而，模型的轻量化特性使得瓶颈转移到了内核启动开销上。为此，团队实施了一系列内核级优化：将通信操作（如AllReduce）与后续计算内核（如RMSNorm）深度融合，减少执行开销；将路由器逻辑处理统一到单一内核中；优化注意力机制中的KV合并操作，将其延迟降低了50%。此外，还利用程序化依赖启动技术，让有依赖关系的内核能提前触发、重叠执行，进一步压榨硬件性能。

在一台8xH800-80G的配置上，针对4K输入、1K输出的场景进行测试，这些综合优化使得LongCat-Flash-Lite实现了卓越的推理吞吐性能，真正将论文中的理论优势，兑现成了实实在在的加速体验。

说到底，这项研究揭示了一个超越直觉的洞见：在追求更强大AI的道路上，一味地增加“专家”数量并非唯一解，有时甚至不是最优解。转而投资于增强模型对语言本身更深层次、更细腻的理解——即升级它的“词汇库”，可能会开辟一条更高效、更可持续的路径。

这不仅是一次技术路线的创新，更可能对未来AI模型的发展范式产生深远影响。LongCat-Flash-Lite的成功，已经为行业提供了一个经过充分验证的可行方案。它预示着，未来的AI助手或许能在变得更聪明的同时，也变得更轻快、更经济。

Q&A

Q1：N-gram嵌入技术是什么？

A：N-gram嵌入是一种让AI模型更好理解词汇组合的技术。传统模型理解一个词时只看这个词本身，而N-gram嵌入会同时考虑这个词和它前后的词组合，就像阅读时注意词组和短语含义一样，让模型能更好地理解语言的上下文关系。

Q2：为什么嵌入扩展比增加专家更有效？

A：当专家数量增加到一定程度后，它们之间的沟通成本会急剧上升，效果提升却越来越小。而嵌入扩展是通过增强模型的词汇理解能力来提升性能，不会增加专家间的协调开销，在高稀疏度模型中能获得更好的性能提升。

Q3：LongCat-Flash-Lite模型有什么特别之处？

A：LongCat-Flash-Lite是美团团队基于嵌入扩展策略训练的68.5B参数模型，其中31.4B参数用于N-gram嵌入。该模型在编程和智能体工具使用任务上表现特别出色，同时运行效率更高，证明了嵌入扩展策略的实际价值。

来源:https://www.techwalker.com/2026/0202/3178283.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：Meta AI预训练革新：打造更安全精准智能的人工智能学习模型下一篇：加州大学洛杉矶分校发布WorldBench物理AI测试系统