默克公司新方法让AI解读细胞效率提升25%

时间：2026-05-08 21:37

默克公司研究团队改进了单细胞生物学AI模型的注意力机制。传统softmax注意力在处理基因表达数据时存在不匹配，而采用sigmoid注意力机制后，模型识别细胞类型的能力提升了25%，训练速度加快近10%，并避免了训练崩溃。团队还开源了专为生物数据设计的高效计算内核，以支持这一改进的实际应用。

最近，一项来自默克公司剑桥研究团队的工作，为单细胞生物学AI模型的训练带来了一个看似微小、实则影响深远的改进。这项研究以预印本形式发布于2026年4月29日，论文编号为arXiv:2604.27124。

研究要解决的核心问题，直指这类模型的一个基础设计：当AI“阅读”一个细胞的基因表达谱时，它如何决定哪些基因之间的关系更重要？这个决策机制，即“注意力机制”，是整个模型能否准确理解细胞身份的关键。团队发现，长期以来被默认使用的注意力方式，在处理生物数据时存在根本性的不匹配。他们转而采用另一种机制，结果不仅让模型识别细胞类型的能力提升了25%，训练速度加快了近10%，还彻底避免了训练过程中令人头疼的崩溃问题。

这不仅仅是技术指标的提升。单细胞RNA测序数据，作为现代生物医学研究的基石，其价值正通过AI模型被不断挖掘——从自动识别细胞、预测药物反应，到探索疾病机制和推动个性化医疗。为了让这项改进真正落地，研究团队还开源了一个专为生物数据设计的高效计算内核。

一、当AI学会“阅读”细胞：背景与挑战

要理解这项工作的价值，得先看看这类模型通常是怎么工作的。

可以把细胞想象成一个极其复杂的微型工厂，基因就是各个车间的开关。单细胞RNA测序技术，能为我们拍下海量细胞在某一时刻的“工作快照”，记录下每个细胞里哪些基因正在活跃、活跃程度如何。

AI基础模型的任务，就是把一个细胞的基因表达情况当成一段“文字”来解读——每个基因是一个“词”，整个细胞的基因组合成一句“句子”。通过在海量数据中学习，模型试图理解基因间的协同关系，从而学会区分不同类型的细胞。其底层核心，与ChatGPT等大语言模型一样，都依赖于“自注意力机制”。

但问题在于，生物数据和文本数据有个本质区别：细胞的“句子长度”千差万别。不同细胞表达的基因数量，可能从几百个到一万七千多个不等。这就好比有的句子只有三个字，有的却长达一万七千字。研究团队分析了包含1.3亿细胞的CellxGene数据集，发现如果设定一个2048个基因的阅读窗口，那么43%的细胞信息会被直接截断。要想覆盖96.6%的细胞，窗口至少需要扩大到8192个基因。

此外，生物序列的处理必须“一人一档”，无法像文本那样把短句拼接成长文来凑数。这导致在批量处理时，计算资源被大量的“空白填充”严重浪费。

如何高效处理这些长短不一的长序列，并避免计算浪费，正是这项研究瞄准的核心靶点。

二、注意力机制的“竞争性”困境：为什么传统方式在生物数据上表现不佳

那么，传统的注意力机制到底出了什么问题？

目前主流使用的是“softmax注意力”。不妨用一个课堂场景来理解：假设一位老师的注意力总量是100%，他要分配给100个学生（代表100个基因）。如果老师把60%的注意力给了第一排的学生，那么剩下的40%就必须分给其他99人。这是一个典型的“零和游戏”——关注度此消彼长。在数学上，softmax会将所有注意力分数归一化，总和必须为1。

这套逻辑在语言处理中通常可行，但在基因调控的世界里，却有些水土不服。现实中，一个基因往往同时受到多个转录因子（可以理解为基因的“调控开关”）的协同作用，这些关系是并行且独立的，而非互相竞争。用竞争性的注意力来模拟这种并行协作，就像试图用一座独木桥来承载一条八车道高速公路的流量，结构上就不匹配。

更棘手的是，当序列长度达到几千甚至上万个基因时，softmax注意力容易出现“注意力熵坍缩”——模型的注意力会极端地集中在少数几个基因上，其他基因几乎被完全忽略。这种极端集中会导致训练过程中的调整信号（梯度）急剧膨胀，最终引发模型训练彻底崩溃。在以往的单细胞模型研究中，这类失败案例屡见不鲜，造成了巨大的算力浪费。

研究团队提出的解决方案是“sigmoid注意力”。它的运作逻辑完全不同：每个基因之间的关联分数独立计算，无需与其他基因竞争。回到课堂的比喻，这相当于老师可以同时、全力地关注每一个学生，对每个学生的关注度都可以独立达到100%。数学上，sigmoid函数将每对基因的关联度独立映射到0到1之间，不做跨基因的归一化。

这种独立性带来了两大优势：其一，更能真实模拟基因的并行调控网络；其二，梯度传播更加稳定。因为sigmoid函数的导数（可理解为信号放大倍数）永远不会超过0.25，而softmax的放大倍数会随着注意力分数增大呈指数级膨胀。研究团队的数学推导证实，sigmoid注意力的雅可比矩阵是对角结构的（各电路独立运行），而softmax的是密集耦合的（所有电路共用总线，一损俱损）。

三、让理论落地：专为生物数据设计的高效计算内核

理论虽好，但若计算效率低下，一切仍是空谈。这就引出了该研究的第二个核心贡献：一个名为TritonSigmoid的高效GPU计算内核。

为什么需要专门开发新内核？因为现有的高效工具存在局限。当前流行的FlashAttention专为softmax优化，无法直接用于sigmoid。虽有FlashSigmoid这样的尝试，但它既不支持序列长度不一的填充处理（这在生物数据中几乎不可避免），也不兼容最新的GPU架构。用常规方法实现sigmoid注意力虽然支持填充，但速度慢得难以实用。

为此，团队使用Triton语言从头打造了TritonSigmoid，其创新点主要包括：

稀疏块计算：对于完全由填充构成的空白数据块，内核直接跳过计算，好比阅卷时看到白卷就直接判零分，而非逐字检查。这使得在25%填充率的情况下，计算效率损失仅为9.3%。

融合运算：将整个注意力计算流程融合为一个连续操作，避免了中间结果反复写入和读取内存的开销，大幅提升了效率。

反向传播分解：将训练时的反向传播过程拆分为两个独立内核，分别处理不同部分的梯度计算，消除了并行计算中的冲突，让硬件协作更高效。同时，采用“重计算”策略，在反向传播时临时重新计算前向的中间结果，以此换取更高的内存使用效率。

最终的性能数据颇具说服力。在NVIDIA H100 GPU上，TritonSigmoid在多项测试中均领先于现有方案。换算下来，其前向计算速度比FlashAttention-2快43%，比普通实现快5.6倍。在具有25%填充的真实生物数据场景下，其优势进一步扩大。由于基于Triton实现，该内核天然支持适配未来新的GPU架构，具备了良好的前瞻性。

四、实验验证：sigmoid注意力训练出的模型真的更好吗

解决了效率问题，下一个关键问题是：用sigmoid注意力训出的模型，能力到底如何？

研究团队训练了多个1.6亿参数规模的模型进行对比，变量包括注意力机制（softmax vs. sigmoid）和上下文窗口长度（2K vs. 4K）。所有模型均在相同的海量细胞数据集上训练至完全收敛。

评估则在六个独立的、未参与训练的数据集上进行，覆盖大脑、血液、结肠、肺、心脏等多种组织，以及从胚胎到老年的不同发育阶段和健康/疾病状态，旨在全面检验模型的泛化能力。

评估维度包括：预测被遮盖基因的准确度（损失值）、细胞类型聚类效果、以及细胞类型在表征空间中的分离程度等。

结果呈现出清晰的规律：首先，在所有数据集和窗口长度下，sigmoid注意力的预测损失均更低。其次，更长的上下文窗口（4K）系统性地优于较短的窗口（2K），这印证了捕捉更广泛基因关系的重要性。

在生物学意义的评估上，sigmoid模型在大多数数据集上取得了更好的细胞类型凝聚度和综合得分。一个突出的例子是在心脏流出道数据集上的分析：sigmoid模型在所有28种细胞类型的两两比较中，其表征分离程度（MMD值）均高于softmax模型，平均提升幅度达到25%。这意味着，sigmoid模型学到的细胞表征，能让不同细胞类型在特征空间中分得更开、更容易被区分。

为什么预测精度相近，sigmoid却能学到更好的表征？一个合理的解释是：softmax的竞争性机制迫使模型聚焦于少数最具预测性的基因，而可能忽略了定义细胞身份的复杂基因共表达模式。sigmoid的独立机制则允许模型同时、充分地关注多个相关基因，从而捕获更全面的细胞特征。

五、极端压力测试：训练崩溃时，sigmoid能否力挽狂澜

除了常规性能，团队还设计了一个“极限压力测试”，专门暴露softmax的稳定性缺陷。

测试条件极为苛刻：使用8192的超长上下文窗口，并移除防止训练发散的“梯度裁剪”保护措施。这好比拆掉赛车的安全装置，看谁能在极限状态下不失控。

softmax模型在训练约40000步后开始失控，到55600步时彻底崩溃：损失值飙升，梯度爆炸式增长四个数量级，注意力分数暴涨至数亿。一旦崩溃，训练便无法恢复。

相比之下，sigmoid模型全程平稳运行了80000步，损失稳步下降，梯度始终保持在正常范围内，注意力分数也稳定在合理区间。在softmax崩溃的那个时间点，sigmoid模型未表现出任何异常。

这一结果完美印证了理论分析：sigmoid的梯度放大存在严格的上限，而softmax在长序列下的放大倍数可能呈指数级增长，最终导致训练过程“爆掉”。

六、训练速度：sigmoid到底快了多少

除了效果更好、更稳定，sigmoid还能让训练更快。

团队测量了不同模型规模和上下文长度下的训练速度。在4K上下文长度下，sigmoid相比softmax普遍有3%-5%的速度优势。对于14亿参数的大模型，速度优势随着上下文长度增加而扩大，在8K长度下可节省近7.5%的训练时间。

对于完成全程训练的1.6亿参数模型，sigmoid在2K上下文下比softmax快9%，在4K上下文下快4%。速度优势随序列变长而增加是符合预期的，因为注意力计算开销随序列长度平方增长，sigmoid在计算上的简洁性（无需跨token归一化）带来的收益也就越明显。

归根结底，这项研究给出了一个明确的结论：对于单细胞生物学基础模型，将softmax注意力替换为sigmoid注意力，已不再是一个理论上的备选项，而是一个经过全面验证的务实选择——模型质量更高、训练更稳定、速度更快。团队同时提供了让替换得以实现的工程方案，并开源了高效计算内核。

随着生物信息学与AI加速融合，未来越来越多的药物研发、疾病诊断和精准医疗方案，都将依赖于这类能读懂细胞语言的AI模型。如何在有限算力下训练出更好、更稳的模型，是一个具有直接现实意义的工程问题。这项研究提供的思路，值得相关领域的研究者和工程师仔细考量。

来源：https://www.163.com/dy/article/KSECB4610511DTVV.html

上一篇商汤推出零门槛AI服务无需付费即可处理复杂任务 下一篇清华AI自学系统让语言模型真正读懂陌生文档

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。