中国科学院瞬悉2.0类脑大模型发布突破长序列与低耗部署瓶颈

首页

热心网友

转载

2026-05-17

人工智能领域的长文本处理竞赛正进入白热化阶段。无论是深度解析代码仓库、构建智能体的长期记忆，还是处理复杂的多模态交互，都迫切需要模型能够高效处理数十万乃至上百万token的超长序列。

然而，一个根本性的技术瓶颈也随之凸显：基于传统Transformer架构的模型，其推理时的计算复杂度和显存消耗会随着序列长度呈平方级增长。这严重制约了大型语言模型在真实世界场景，特别是边缘计算和资源受限环境中的实际部署与应用。

如何破解这一效率与能耗的困局？近期，中国科学院自动化研究所李国齐、徐波团队带来了突破性解决方案——类脑脉冲大模型「瞬悉2.0」（SpikingBrain2.0-5B）。这项研究在前代「瞬悉1.0」的基础上，针对超长上下文理解与低功耗部署两大核心挑战，实现了从底层架构到上层应用的系统性革新。

研究背景：从规模驱动到效率驱动

当前，大模型的发展范式正在经历深刻变革。早期的“参数规模竞赛”逐渐转向对“上下文窗口能力”的极致追求。模型能够有效理解和记忆多长的信息，直接决定了其解决复杂推理、长文档分析等任务的实际能力上限。

但理想与现实之间存在巨大鸿沟。传统Transformer的自注意力机制在处理超长序列时，会产生难以承受的计算与存储开销。因此，整个产业界与学术界共同面临一个关键命题：能否以极低的计算成本，构建一个既能驾驭超长上下文，又能在多样硬件平台上高效、节能运行的基础模型？

「瞬悉1.0」率先将类脑脉冲神经网络机制引入大模型，迈出了第一步。而「瞬悉2.0」则实现了全面跃升，通过引入更精细的类脑稀疏记忆建模与双路径激活编码策略，旨在完成一次在性能、效率与通用性上的全方位突破。

架构设计：精准优化Transformer效率瓶颈

要设计高效的类脑大模型，必须精准识别传统架构的效能瓶颈。在短序列任务中，Transformer的计算负载主要集中于前馈网络；而在长序列场景下，注意力模块则成为主要的性能与能耗瓶颈。「瞬悉2.0」的架构创新，正是对这两大核心问题的针对性优化。

瞬悉2.0架构概览

双空间混合稀疏注意力

模型创新性地提出了“双空间稀疏注意力”（DSSA）机制。其核心思想并非在所有网络层使用统一的注意力模式，而是在不同层级间智能地混合两种稀疏注意力策略：一种是基于完整键值缓存的块级稀疏计算（MoBA），另一种则是对压缩后状态表征进行稀疏计算（SSE）。

这种设计灵感源于生物大脑的稀疏记忆与信息处理特性，其根本目标是在确保长序列建模性能的前提下，最大化计算效率，实现卓越的“性能-能效”平衡，为长文本大模型提供高效解决方案。

双路径激活值编码策略

注意力机制决定了计算方式，而激活值编码则决定了计算的数据形态。「瞬悉2.0」首创了双路径并行编码方案，以完美适配不同的硬件生态：

瞬悉2.0对偶编码路径

FP8低精度编码路径：面向主流高性能GPU（如NVIDIA H100）。利用新一代硬件的低比特张量核心加速矩阵运算，是追求极致推理吞吐量的理想选择。
INT8-Spiking脉冲事件编码路径：面向未来神经形态计算芯片。将密集的浮点激活转换为稀疏的脉冲事件流，从而将耗能的矩阵乘法替换为高效的事件驱动整数累加。此路径旨在革命性降低功耗，为AI在端侧、物联网等边缘设备的部署扫清障碍。

转换训练：低成本实现高性能模型迁移

从头训练一个全新架构的大模型成本极高。「瞬悉2.0」研发了一套高效的“Transformer-to-Hybrid”转换训练流程，仅需极少的开源数据和计算资源，即可将成熟的Transformer模型（如Qwen3系列）高性能地迁移为类脑脉冲混合模型。

瞬悉2.0转换训练Pipeline

该流程为语言模型和多模态模型设计了独立且高效的迁移路径。对于语言模型，通过短上下文知识蒸馏、渐进式长上下文能力扩展以及指令跟随微调等阶段，稳步提升模型各项能力。对于视觉语言模型，则融合了视觉-语言知识蒸馏与多模态指令调优技术。整个流程高效、可复现，为社区提供了宝贵的低功耗大模型训练实践经验。

性能表现：用数据验证突破

经过精心设计的「瞬悉2.0」，其实际效能究竟如何？多项基准测试给出了有力证明。

1. 长序列处理效率实现数量级提升

在超长文本处理能力上，其优势极为显著。在处理长达400万token的序列时，其首Token生成延迟相比强大的基线模型Qwen3加速超过10倍。更令人印象深刻的是，借助vLLM推理框架，仅需8张A100 GPU即可支持高达1000万token序列的推理，而基线模型在400万长度时便已因显存溢出而无法运行。

2. 模型训练成本大幅降低

高效不仅体现在推理，也贯穿于训练阶段。整个「瞬悉2.0」语言与多模态模型的转换训练，总计算开销被严格控制在7000 A100 GPU小时以内。具体而言，仅使用32张A100显卡，在9天内即可完成对Qwen3-4B及Qwen3-VL-4B模型的完整能力迁移。相比前代「瞬悉1.0」，训练所需数据量从1500亿Token大幅减少至140亿，训练成本降低了一个数量级。

3. 核心模型能力得到充分保持

在实现极高效率的同时，模型的核心能力是否受损？评测数据显示，其性能得到了完整保留。在MMLU、ARC-C等通用知识基准，以及GSM8K数学推理、HumanEval代码生成等专项任务上，「瞬悉2.0」的语言模型性能与原始Qwen3基线持平，并全面超越了前代模型。其多模态版本「瞬悉2.0-VL」也成功复现了Qwen3-VL的强大能力，在图表理解、视觉推理等任务上表现优异。

4. 卓越的跨平台部署适配能力

这正是「瞬悉2.0」最引人瞩目的特性之一，它真正实现了“一次训练，多端部署”。

在FP8编码路径下，模型精度损失极小（仅0.24%），但在NVIDIA H100 GPU上实测，长序列推理速度相比其自身BF16版本提升超过2.5倍，充分释放了硬件潜力。
在INT8-Spiking脉冲编码路径下，精度损失也控制在0.69%以内，同时激活稀疏度高达64.3%。后端仿真结果表明：与传统的INT8量化方案相比，该路径有望在专用神经形态硬件上实现芯片面积减少70.6%，功耗降低约46%-48%。这为彻底解决大模型在移动端、嵌入式设备上的功耗瓶颈，指明了一条极具前景的技术路径。