神经元会说话吗？单细胞分辨率下的视觉语义叙述

时间：2026-06-29 17:37

NEURRATOR框架在单神经元分辨率下将脉冲活动解码为自然语言叙述，基于CLIP和LLaVA实现语义解码。在小鼠视觉皮层实验中，该方法可量化解码保真度随群体规模和皮层区域的变化，并揭示基因标记细胞类型对视觉表征的贡献，将细胞身份从分类目标重构为功能探针。

# 神经元会说话吗？单细胞分辨率下的视觉语义叙述 Can neurons speak? Semantic narration of vision at single-cell resolution https://arxiv.org/pdf/2606.18667 --- 神经科学领域有一个长期存在但尚未解决的难题：如何识别高级视觉皮层中单个神经元正在编码的具体信息。神经元的响应往往难以用直观参数描述，而用来替代这些参数的深度网络嵌入又如同一个黑箱。这一问题困扰了研究者多年。如今，一个名为 NEURRATOR 的框架提出了全新思路——在单神经元分辨率下，直接将脉冲活动解码为对当前场景的自由形式自然语言描述。简而言之，它让神经活动“开口说话”了。该框架的工作原理如下：一个经过学习的编码器，将来自任意同时记录神经元子集的脉冲序列映射到冻结的 CLIP 模型补丁嵌入空间中，再由多模态语言模型和稀疏自编码器生成并验证描述——整个过程无需在语言端进行任何训练。当将 NEURRATOR 应用于小鼠观看自然电影时视觉皮层的 Neuropixels 记录时，它可以基于数千个神经元、单个皮层区域、局部群体或分子定义的细胞类型进行叙述。这一能力使研究者能够：(i) 量化解码保真度如何随群体大小和皮层区域变化，(ii) 用通俗易懂的语言描述单个神经元及基因标记的抑制性细胞类型对视觉表征的贡献。这实际上将细胞身份从分类目标重新构想为视觉系统的功能探针，为神经系统提供了全新的生物学洞察单元。 ## 1 引言我们来探讨神经科学中一个有趣的问题：单个神经元到底在编码什么？最常见的策略是将外部变量参数化，然后将这些参数与神经活动模式关联起来。例如，许多视网膜神经节细胞对光斑或暗斑有反应——通过光斑的位置、大小和极性就能有效描述其特性。然而，这种方法在高级视觉皮层区域就不太奏效了，因为那里的神经元对复杂的视觉特征有反应，而这些特征很难沿着直观的坐标轴进行参数化。为了将调谐分析扩展到更复杂的领域，近期研究开始另辟蹊径：通过将自然图像和视频嵌入到大型神经网络的潜在表征空间中进行参数化，然后将潜在变量映射到神经活动上。相比手工设计的特征空间，这种方法显著提升了预测性能。但问题依然存在——研究者仍需通过手动刺激检查、检索或归因分析，将高维激活转化为语义假设，最终落到通俗的语言描述上。归根结底，原始预测能力与可解释性之间的张力定义了解码神经活动的帕累托前沿：最具预测性的模型往往就是黑箱。此时，对比视觉-语言模型提供了突破瓶颈的机会。CLIP、ALIGN、SigLIP 这类模型学习了联合嵌入，使图像及其自然语言描述占据相邻的空间位置。而建立在编码器之上的多模态语言模型（如 BLIP-2、Flamingo、LLaVA）则将嵌入作为输入，生成自由形式的自然语言描述。这两种模型结合，为任何能与视觉-语言模型嵌入空间关联的信号提供了通往语言的桥梁。这个空间还有一个重要特性：允许进行特征级分解。拟合其激活的稀疏自编码器揭示了一个包含可解释视觉概念方向的有限字典。生成式读出和概念级分解这两个特性加在一起，使这个空间成为了神经解码的理想目标——一个将脉冲映射到该空间的模型，不仅能免费生成群体所代表内容的人类可读描述，还能为探究每个神经元对哪些视觉概念有贡献提供基础。在此之前，似乎没有研究将这个空间用作单神经元解码器的目标。现有的电生理解码器要么重建低级刺激特征，要么局限于不透明的嵌入坐标，始终无法突破描述的瓶颈。现在这个问题得到了解决：不仅解码输出变得可读，还开启了一种全新的探究模式——在单个神经元和特定关注群体的分辨率下，直接用自然语言提出、查询和检验关于神经系统的假设。 NEURRATOR 就是将这一想法付诸实践的框架。它包含一个学习到的编码器，接收选定记录神经元子集的脉冲序列，预测冻结视觉塔的相应图像块嵌入；然后，冻结的多模态语言模型将这些嵌入解码为自由形式的描述。在小鼠观看自然电影时视觉皮层的 Neuropixels 记录上进行训练和评估后，以 CLIP ViT 作为目标嵌入空间，LLaVA 作为语言解码器，效果相当不错。由于编码器在输入子集上是一致的，同一个训练好的模型可以在任意亚群上进行查询。利用这一点，可以量化语义准确性如何随输入神经元的数量、所属皮层区域以及群体的细胞类型组成而变化。更进一步，为了超越原始文本并恢复每个亚群编码内容的结构化描述，研究团队通过拟合 SAE 将预测的嵌入推入预训练的 CLIP 空间，创建了基于原理的视觉概念特征字典。结果显示，不同大脑区域和基因定义的细胞类型之间存在不同的概念特征。 NEURRATOR 的核心贡献可归纳为三点： - **基于语义的神经解码器**：这是第一个将单脉冲级别的群体活动直接映射到视觉体验的语义连贯自然语言描述的解码器，能够泛化到留出的帧、留出的图像身份以及一部未见的第二部电影。 - **区域和细胞类型身份作为功能探针**：解码器在输入子集上的一致性，使其在推理时可限制在单个神经元、解剖区域或分子定义的细胞类型上，用语言读出每个子集对表征的贡献。这产生了语义解码保真度作为群体大小和皮层区域函数的缩放定律，把细胞类型和区域标签从分类目标重新构想为视觉处理的功能探针。 - **细胞类型贡献的概念级分解**：结合预训练的 CLIP 稀疏自编码器，将每个亚群的贡献分解为可解释的视觉概念特征，恢复了细胞类型特异性的概念特征——这些特征在 bootstrap 重采样和正交 CLIP-文本概念轴验证下作为假设成立。 ## 2 相关工作 ### 人类神经数据的生成式语言读出共享的视觉-语言空间在非侵入性人类记录领域已被广泛用作编码目标和解码源。自然刺激的视觉-语言和语言模型嵌入可以预测 fMRI BOLD 响应；针对图像空间训练的 fMRI 解码器可以重建观看的图像；针对语言模型表征训练的解码器可从感知到的语音、想象的语音和无声视频中重建连续的自然语言。更近期的研究甚至用自由形式的自然语言为单个体素的首选刺激生成描述，朝着每个单元的可解释性迈进了一大步。但根本限制在于空间分辨率：每个体素或电极触点整合了 10⁴ 到 10⁶ 个神经元，因此即使是每个体素的读出，描述的也是一个区域而不是一个细胞。NEURRATOR 共享了这种针对每个单元的目标，但精细度提高了三个数量级——它是在分子细胞类型身份可以独立恢复的底物上进行的，并产生每次试验的轨迹，而不是单一的调谐总结。 ### 稀疏自编码器作为视觉-语言空间的探针稀疏自编码器（SAE）将密集的嵌入激活分解为稀疏激活的、可解释的特征方向字典，将向量值的激活转换为在命名概念上的稀疏分布。目前看来，SAE 是解释学习表征的最有效工具之一。不过，过去这项技术几乎完全是向内应用的——应用于基础模型本身的激活，而不是用作探测这些模型旨在阐明的神经系统的探针。此前，SAE 及相关方法用于神经数据可解释性的少数应用，仅在间接的、群体平均的信号（如钙成像或局部场电位）上运行，这些信号整合了许多细胞，缺乏脉冲活动的时间精度。NEURRATOR 在单神经元脉冲序列的水平上建立了这种联系——因为脉冲被投影到 SAE 运行的同一个共享视觉-语言空间中，生物群体活动可以同时被读出为自由形式的句子和在命名视觉概念上的稀疏分布，两者都产生于相同的神经侧嵌入。 ### 细胞类型身份作为输入而非输出不少工作将体内细胞类型和大脑区域身份视为在细胞外特征上训练的分类器的输出——使用波形形状和脉冲序列统计数据的无监督多模态嵌入、针对光遗传学真实标签校准的监督分类器、多模态对比预训练，或者重新用作少样本亚型分类器的通用视觉-语言模型。在每种情况下，身份标签都是分析的终点。 NEURRATOR 采取了互补的视角：细胞类型和大脑区域身份（无论是从光遗传学标记或其它方法获得的）作为输入进入模型，模型返回自由形式的描述，说明该亚群的活动在给定试验中编码了什么。这样一来，NEURRATOR 把细胞类型身份从分类目标重新构想为神经系统的功能探针。 ## 3 方法 ### 3.1 NEURRATOR 框架 NEURRATOR 通过视觉-语言模型的嵌入空间路由神经活动，将高密度 Neuropixels 探针记录的脉冲序列映射到动物正在观看的视觉刺激的自然语言描述。具体流程是：通过 Allen 研究所质量控制的所有单单元的脉冲计数被分箱，仅使用训练重复的统计数据对每个神经元进行 z-score 标准化，然后将一小段活动窗口输入到可训练的 NEURRATOR 编码器。编码器的输出是一个图像块嵌入张量，形状与 CLIP ViT-L/14 在真实电影帧的倒数第二层产生的完全相同：576 个图像块 token（24 × 24 网格），维度为 1024。这个图像块张量是大脑和语言之间唯一的学习接口——它被原封不动地交给一个冻结的 LLaVA-1.5-7B 的多模态语言模型，视觉塔在运行时通过前向钩子被绕过。多模态投影器和 LLaMA-2-7B 解码器像标准图像字幕生成一样运行，把神经衍生的图像块视为由实际图像产生的。语言模型的任何部分从未在神经数据上进行过训练。编码器本身使用多尺度 1-D 卷积脉冲序列前端、时间窗口上的小型 transformer、注意力加权的时间池化，以及 576 个学习到的图像块查询——这些查询交叉关注池化表征，为每个 CLIP 图像块生成一个 1024 维的嵌入。 ### 3.2 数据集研究使用了来自 Allen 脑天文台视觉编码 Neuropixels 发布版的 16 个记录会话（脑天文台 1.1 子集，唯一包含自然刺激的协议）。每只小鼠在同一记录期间观看三类自然内容：自然电影一（NM1；30 秒片段，30Hz 下 900 帧，20 次重复）、自然电影三（NM3；120 秒，3600 帧，10 次重复）以及自然场景（118 张灰度照片，每张约呈现 50 次）。对于细胞类型分析，研究团队与 Siegle 等人的光遗传学标记表进行交叉，在整个队列中产生了 73 个 PV、49 个 SST 和 33 个 VIP 光遗传学标记神经元。通过对齐基因型的跨会话光遗传学标记列进行拼接，构建了帧对齐的伪小鼠。 ## 4 结果 ### 4.1 从脉冲到句子在语义上是连贯的，并且能泛化到留出的帧 **自然视觉刺激的自然语言语义解码**：NEURRATOR 仅凭单神经元脉冲序列就能生成内容准确的自然电影自然语言叙述。为了证明这些叙述反映的是视觉流而非对训练帧的记忆，研究设置了两组压力测试数据划分，其中电影的整体区块被排除在语言解码器训练之外。在连续中间模式下，第 250–449 帧（连续约 6.7 秒的场景）被留出，迫使解码器从时间上遥远的训练上下文中对未见过的场景进行插值；在仅前部模式下，训练被限制在前 200 帧，其余 700 帧必须进行外推。两种模式下，留出帧上的解码叙述在语义上仍与视觉内容保持一致。研究使用 Sentence-BERT（SBERT）作为衡量语义相似度的指标（SBERT 余弦值：句子级别的语义相似度得分，范围在 [-1, 1] 之间，~1 表示语义相等，~0 表示不相关）。在连续中间测试块上，解码叙述与 BLIP-2 参考字幕之间的平均 SBERT 余弦值为 0.367 ± 0.180，而乱词基线为 0.020 ± 0.077。仅前部模式需要跨越超过 3 倍训练范围的外推，仍然产生了 0.170 ± 0.085 的得分，而随机基线为 0.062 ± 0.073。检查示例叙述后发现，解码的句子在未见过的帧上正确恢复了场景级结构——停车场布局、室内场景、建筑细节。语义准确性曲线进一步显示，解码质量在训练/测试边界附近最高，并随着与训练上下文距离的增加而平滑下降。在另一部电影（NM3）上复制整个流程，产生了描述该电影独特内容（人、西装、自行车、群体）的叙述，无需重新训练语言解码器，也没有特定于刺激的先验。据目前所知，此前没有工作从单单元电生理学中产生过视觉流的自由形式自然语言描述，也没有证明此类描述能泛化到留出的场景。 ### 4.2 视觉区域语义解码的规模效应 **叙述保真度随种群规模缩放**：图 4 展示了解码叙述与真实标题之间留出集的 SBERT 相似度随输入种群大小变化的曲线，并按解剖学池进行了细分。在所有视觉区域（V1、高级视觉皮层、LGD 以及视觉皮层的并集）中，叙述质量在对数轴上呈单调递增，从约 10 个神经元时的接近随机水平开始上升，并在整个测试范围内持续攀升，在最大种群规模时达到约 0.45 的 SBERT 余弦值，且未显示出饱和迹象。 SBERT ≈ 0.28 处的虚线标记了随机标题与真实标题对比的得分——在这个水平上，解码出的句子所携带的场景特定内容，不比任何通用英语句子偶然携带的多。视觉池只有当数十个到约 10² 个神经元进入编码器时才跨越这一底线：V1 最有效（约 30 个神经元），高级视觉皮层和 LGD 在 50-100 个时跨越，而异质性全神经元池仅在约 100 个时才跨越。低于这个范围时，解码出的叙述处于随机标题基线或低于该基线。作为非视觉对照纳入的海马体，在整个测试范围内从未跨越随机标题线，这与被动观看自然电影时几乎没有刺激锁定的视觉内容一致。值得注意的是，在匹配的种群大小下，全神经元池落后于纯视觉池——这暗示叙述保真度的瓶颈在于视觉驱动神经元的数量，而不是原始尖峰计数。 **区域池化发生坍缩；细胞类型池化发生分离**：接下来研究探讨了不同的亚群是否会对同一刺激产生语义上不同的叙述。通过按解剖区域（V1、高级视觉皮层、LGD、海马体、所有视觉皮层）或按基因标记细胞（PV、SST、VIP）对神经元进行池化，计算了各叙述集之间的成对 SBERT 余弦相似度，观察到了两种截然不同的模式。在区域层面，所有视觉区域都坍缩到单一的语义簇中（成对余弦相似度为 0.69–0.79），只有海马体下降至接近打乱配对的底线——仅凭解剖学是把握叙述内容的一个弱抓手。在细胞类型层面，情况发生了反转：PV 和 SST 的叙述适度对齐（0.58），但 VIP 与两者均发生分离（与 PV 为 0.34，与 SST 为 0.41）。这种叙述层面的细胞类型差异，恰恰是下一步工具应用的切入点。 ## 5 应用：细胞类型特异性的语义探究图 5 中的细胞类型差异表明，基因定义的群体携带了对同一刺激在语义上不同的读出，但这并没有告诉我们每个群体到底在编码**什么**。研究团队进一步利用 NEURRATOR 的子集查询特性来检验这一点：由于编码器对输入神经元具有均匀性，同一个训练好的模型在推理时可以仅限于选定的群体，并用语言询问——仅透过这些细胞的“镜头”看到的视觉世界是什么样子的。研究将这一方法应用于三个光标记的抑制性群体（PV、SST 和 VIP 中间神经元），探究它们的叙述差异是否对应于可识别的视觉概念。由于每个 Cre 品系在每次实验中仅产生几十个光标记单元，通过拼接同一品系跨实验的光标记列，为每个基因型构建了帧对齐的“伪小鼠”——之所以可行，是因为每只动物观看的是完全相同的 NM1 帧序列。随后，对每个伪群体使用同一个训练好的 NEURRATOR 进行一次查询。 **光标记细胞类型产生语义上截然不同的叙述**：将群体标签从解剖学转换为遗传身份，反转了在区域层面看到的图景。为了比较这三个细胞类型池对同一部电影的描述，计算了它们在 NM1 上解码出的叙述之间的 SBERT 余弦相似度。PV 和 SST 的叙述保持适度对齐（平均 0.58），而 VIP 则与两者都分离。同样的差距也出现在单个词汇使用的层面上。在自然场景中，最具区分度的词汇对于 PV 是“tree / foreground / background”，对于 SST 是“building / boat / water”，对于 VIP 是“scene / lot / bushes”。一个基于叙述嵌入训练的简单三分类器可以以 76% 的准确率识别出源细胞类型（随机概率 33%）。在 NM1 上，将解码出的句子投射到“黑暗或阴影”和“汽车或车辆”轴上，结果表明所有三个群体都追踪了电影的总体内容，但具有不同的基线和振幅。这种差距在单句层面最为明显：在同一个 NM1 帧上，PV 和 SST 通常会产生内容准确的描述，风格类似于“一辆车停在停车场，司机正从车里出来”，而 VIP 将同一场景描述为“一个黑暗的房间，有一个单一光源，在墙上投下阴影”——这是对同一视觉输入的一种关于光照和氛围的解读。 **每种细胞类型实际上“看”到了什么？** 叙述暗示了差异，但没有揭示驱动它们的底层视觉内容。为了恢复可识别的视觉概念，研究团队转向了稀疏自编码器（SAEs）。SAE 是一种小型无监督模型，将高维嵌入分解为一个更大的特征字典，每次输入只有少数几个特征激活，因此可以单独检查每一个。研究使用在 CLIP B/32 第 11 层残差流上预训练的 Prisma-Multimodal SAE（可访问 49,152 个特征），将每种细胞类型的 NEURRATOR 补丁预测通过它。对于每种细胞类型，根据 NM1 测试 bins 的平均激活对特征进行排名，并保留前 20 个；仅出现在单一细胞类型前 20 名中的特征，被称为“unique-by-magnitude”。为了在不泄露叙述本身信息的情况下标记这些特征，在一个保留语料库（50,000 张图像的 ImageNet-1k 集合）上运行 SAE，并将统一其前 32 个激活图像的视觉概念分配给每个特征。生成的字典沿可解释的轴分离了三个群体。PV 细胞独特地强调“小圆形物体”的特征：婴儿、小猫、茶壶、烤面包机、家居用品。SST 细胞强调“车辆”——特别是经典车和跑车，这是 NM1 黑色电影的主要内容。VIP 细胞强调某种与物体正交的东西：“场地光照和氛围”。它们的独特特征在明亮市场灯光下的农产品展示和带有舞台照明的黑暗体育/音乐会场馆上激活，没有一致的物体类别。最独特的 VIP 特征（26984，“黑暗场馆中的明亮舞台/体育场灯光”）在 VIP 中的激活强度比 PV 或 SST 高 29%。SST 区分场景中的“汽车”，而 VIP 区分同一场景的“光照”。光照和氛围的读出并不是先验预测的：此前的研究确立了 VIP 中间神经元作为由行为状态和强化信号招募的抑制性皮层增益控制的介质，但没有具体说明它们的活动应与什么视觉内容共变。因此，当下的发现最好被解读为一个初步观察——指向 VIP 介导的增益调节与场景级亮度和对比度统计编码之间可能的联系，在保证机制性声明之前需要直接的电路级后续研究。把 NEURRATOR 指向神经元的标记子集——光标记的或其他——会返回一个可解释的概念字典，其中每个条目都带有一个定量权重和一组自然图像示例，并且特定于群体的条目在重采样下是稳定的。上面的 PV / SST / VIP 对比是端到端产生的，没有任何细胞类型感知的训练步骤——编码器、语言解码器和 SAE 都是在从未被告知哪个神经元属于哪个遗传品系的情况下训练的。 ## 6 结论 NEURRATOR 是一个单一的训练模型，它将小鼠视觉皮层中任意神经元子集的尖峰序列转化为所观看场景的自由形式自然语言叙述，无需语言侧训练，也无需特定于刺激的先验。同一个模型可以在数千个神经元、单一皮层区域、局部神经元群或单一分子定义细胞类型的规模上进行查询——这使得编码器而非解码器成为生物学分析的基本单元。除了这一能力本身，该框架还引入了一个评估流程，用于控制记忆、时间自相关和生物学合理性（留出场景、海马对照、打乱标签、排除区检索），以及一种稀疏自动编码器分析，该分析从细胞类型特异性的解码中提取出可解释的概念级特征。 ### 局限性 NEURRATOR 目前是在单一物种、视觉皮层和较小的刺激词汇库上训练的；细胞类型分析依赖于通过帧对齐的“伪小鼠”跨多只小鼠进行池化的 40-100 个神经元的光标记群，尚未测试这些细胞类型差异在单一动物体内是否依然成立。解码出的叙述描述的是整体场景内容而非精细的感知细节，概念轴验证也仅停留在相关性层面。稀疏自动编码器是直接采用纯 CLIP 流程中现成的模型，并未与神经编码器进行联合训练。 ### 未来工作自然的下一步是将 NEURRATOR 扩展到视觉皮层和小鼠之外——扩展至听觉和体感记录，扩展至非人灵长类和人类的单单元数据，以及扩展至行为丰富的范式，在这些范式中，解码出的叙述可以与任务变量和逐次试验的选择相对齐。然而，最大的机遇可能在于那些人类缺乏对刺激空间直观理解的模态——最突出的是嗅觉（缺乏公认的气味参数化）以及更广泛的化学感觉。正是在这些领域，将神经活动直接解码为语言，可能提供了一条通往人类实际能够理解的表征的最短路径。细胞类型探究流程可扩展至任何标记的神经元子集（遗传、解剖、功能或连接定义的），若将其与闭环光遗传扰动相结合，就能将解码出的概念字典转化为因果抓手。最后，将稀疏瓶颈与神经编码器进行联合训练，而不是重用预训练的 CLIP SAE，为发现存在于神经活动中但缺失于视觉-语言先验中的概念打开了大门——这或许是将语言模型作为神经科学发现的系统性工具的最具前景的路径。

来源：https://cloud.tencent.com.cn/developer/article/2700086

自然语言