Kimi悄然替代大模型沿用十年的笨办法

时间：2026-06-01 09:41

Kimi 团队最近发了一篇论文，悄无声息地改掉了 Transformer 里一个用了快十年的基础组件——残差连接。这东西几乎所有大模型都在用，但他们说有问题，而且已经修好了。残差连接：一个「民主」但荒谬的设计先解释一下残差连接到底是什么。 Transformer 每一层都在做计算，残差连接的作用

Kimi 团队最近发了一篇论文，悄无声息地改掉了 Transformer 里一个用了快十年的基础组件——残差连接。这东西几乎所有大模型都在用，但他们说有问题，而且已经修好了。

残差连接：一个「民主」但荒谬的设计

先解释一下残差连接到底是什么。

Transformer 每一层都在做计算，残差连接的作用就是把每一层的输出加回到下一层的输入里，保证梯度能顺畅向后流，防止深层网络训练崩溃。这个设计源自 2015 年的 ResNet，后来几乎被所有大模型原封不动地搬过来用。

问题出在哪？所有层的输出权重相同。第 1 层的结果和第 47 层的结果，对最终计算的贡献完全一样。

打个比方：这就像在一个委员会里开会，无论是十年前的老顾问还是刚进来的新成员，每人一票，永远平等。委员会越大，每个人的影响力越被稀释。一个 200 层的模型里，第 20 层的输出只有 1/200 的影响力。

这么一来，工程上就会出现两个头疼的问题：

PreNorm 稀释：随着深度增加，每一层的贡献被越来越多的层稀释，早期层的信息传到最后几乎被淹没。
隐藏状态无限制增长：所有层输出的累积和随着深度增长，幅度越来越大，导致训练不稳定。

这两个问题不是没人注意到，而是过去大家默默接受了——毕竟效果还凑合，改动风险太大。

Kimi 团队说，这是个可以解决的问题，而且解法很优雅。

AttnRes：用注意力机制处理「自身历史」

他们的方案叫 Attention Residuals（AttnRes）。思路其实不复杂，一句话就能说清楚：

在序列方向，Transformer 用注意力机制让每个 token 选择性地关注其他 token。AttnRes 在深度方向做了完全同样的事——让每一层选择性地关注自己的处理历史。

具体到数学上，标准残差是把所有层输出相加（权重都是 1）：

$h_{l} = \sum_{i = 0}^{l - 1} h_{i}$

AttnRes 把权重变成了动态的 softmax 注意力：

$h_{l} = \sum_{i = 0}^{l - 1} α_{i \to l} \cdot h_{i}$

每一层用一个学习得到的「伪查询向量」来决定 α 的大小——即当前层应该从哪些历史层汲取多少信息。这是输入相关的，不同的输入会产生不同的聚合权重。

效果很直接：输出幅度被限制住了，梯度分布更均匀，早期层的信息不再被淹没。

大模型用了十年的「笨办法」，被 Kimi 悄悄换掉了

工程难题：内存怎么办？

如果每一层都要关注所有前层的输出，内存需求是 O(Ld)——L 是层数，d 是隐藏维度。对于一个 48B 的模型，这会直接炸掉任何正常的显存预算。

这也是为什么「让层关注历史层」这个想法之前有人提过，但没人真正大规模落地的原因。

Kimi 的解法是 Block AttnRes：

把模型的所有层分成 N 个块（约 8 个）。每个块内部还是用标准残差累积，跨块时才用注意力机制——但注意力只作用于块级别的「摘要表示」，而不是每一层的输出。

内存从 O(Ld) 降到了 O(Nd)。8 个块对应的内存开销和全层注意力相比几乎可以忽略，但实验显示它能恢复大部分全 AttnRes 的性能增益。

大模型用了十年的「笨办法」，被 Kimi 悄悄换掉了

这是典型的「想法很美，工程让它落地」的故事。Full AttnRes 是理论最优，Block AttnRes 是实际可用——后者才是真正的贡献。

代码层面，Block AttnRes 的实现非常干净：

def block_attn_res(blocks, partial_block, proj, norm):
    V = torch.stack(blocks + [partial_block])   # [N+1, B, T, D]
    K = norm(V)
    logits = torch.einsum('d, n b t d -> n b t', proj.weight.squeeze(), K)
    h = torch.einsum('n b t, n b t d -> b t d', logits.softmax(0), V)
    return h

整体结构不变，两个 einsum 解决问题，推理延迟增加不到 2%。

大模型用了十年的「笨办法」，被 Kimi 悄悄换掉了