ICML 2026 SVL 脉冲神经网络高效3D开放世界理解

时间：2026-07-01 15:07

提出SVL脉冲视觉-语言预训练框架，通过多尺度三元对齐与可重参数化视觉-语言集成实现高效3D开放世界理解。首个全脉冲点云Transformer在零样本分类、字幕生成及下游任务中性能媲美ANN，能效提升超200倍，首次实现SNN开放世界3D问答。

论文题目：SVL: Empowering Spiking Neural Networks for Efficient 3D Open-World Understanding

论文：https://arxiv.org/abs/2505.17674
代码：https://github.com/bollossom/SVL

图1

一、背景

受大脑启发的脉冲神经网络（SNN）凭借其独特的脉冲驱动特性与时空处理能力，在处理稀疏3D几何数据（如事件流与点云）时，天然具备极高的能效优势。以Speck等神经形态芯片为例，事件驱动的稀疏处理可将功耗降低至毫瓦级别。

然而，现有SNN在性能上与人工神经网络（ANN）仍有较大差距，且多数模型仅针对特定任务设计，泛化表示能力不足，更难以实现3D开放世界下的多模态理解。在实际应用场景中，SNN往往难以泛化到训练集之外的新类别。当前主流的SNN预训练方法——如基于STDP的初始化、知识蒸馏、掩码图像建模——在复杂数据集上效果欠佳，计算资源消耗过高，或缺乏多模态（尤其是语言）的有效引导。

另一方面，视觉-语言模型（VLM，如CLIP）通过将2D图像知识迁移至3D领域实现了开放世界理解，但其推理时严重依赖庞大的文本编码器，给资源受限的神经形态硬件部署带来了巨大挑战。为解决上述难题，我们提出了SVL（Spike-based Vision-Language pretraining framework），旨在增强SNN的开放世界多模态3D理解能力，同时保留高效的脉冲驱动推理特性。

二、本文主要贡献

1. 多尺度三元对齐（MTA）

为了捕捉3D数据的几何特性并实现开放世界理解，我们设计了多尺度三元对齐机制。MTA通过无标签的三元组对比学习，联合优化文本、图像和3D输入之间的相关性对齐。具体而言，MTA不仅包含语义层面的脉冲-文本对齐——将3D实例特征与CLIP提取的文本提示特征在嵌入空间中拉近；还引入了细粒度的脉冲-图像对齐，通过InfoNCE与MSE损失的联合约束，进一步捕捉图像与3D数据之间紧密耦合的细粒度语义信息。

2. 可重参数化视觉-语言集成（Rep-VLI）

传统视觉-语言模型在推理时离不开庞大的文本编码器，这成为SNN高效部署的主要障碍。为此，我们提出了可重参数化视觉-语言集成模块。Rep-VLI的核心创新在于：将离线文本嵌入直接转换为轻量级分类层的权重。在推理阶段，文本编码器被完全移除，改用硬件友好的脉冲计数决策规则替代传统的Softmax操作。如此一来，模型既保持了全脉冲驱动和硬件兼容性，又实现了无文本编码器的轻量级推理。

3. 首个全脉冲驱动点云Transformer（Spike-driven PointFormer）

除SVL框架外，我们还提出了首个全脉冲驱动的点云Transformer架构——Spike-driven PointFormer。它采用3D脉冲驱动自注意力机制，将传统的矩阵乘法交互简化为纯加法操作。该设计不仅保留了端到端的脉冲计算特性，还大幅降低了训练与推理阶段的内存及时间开销，使其能够支撑大规模预训练，并在各类3D任务中展现出广泛的泛化能力。

三、实验结果

1. 3D零样本分类

在ModelNet40以及更具挑战性的大规模Obja verse-LVIS数据集上，SVL展现了卓越的零样本分类性能。例如，基于SVL预训练的E-3DSNN在ModelNet40上达到了85.4%的准确率，超越了众多ANN（如OpenShape、ULIP）及SNN基线模型，同时仅消耗0.79 mJ能量，参数量仅为17.7M。在Obja verse-LVIS上，我们的模型性能与ULIP-2相当，但能效提升了204倍。这充分证明了Rep-VLI模块在高效零样本推理方面的突出优势。

表1

2. 3D对象字幕生成与开放世界问答

我们将SVL训练的Spike-driven PointFormer与大语言模型结合，构建了SVL-13B模型。在3D对象字幕生成任务中，SVL-13B达到了与最先进ANN方法（如PointLLM）旗鼓相当的性能，这也是SNN首次应用于3D字幕生成。在开放世界3D问答中，模型能够准确理解物体的形状、材质、功能及上下文，展现出强大的常识推理与多模态对齐能力。

表2

3. 3D下游任务（分类、分割、检测与动作识别）

我们将SVL预训练的脉冲编码器在多个下游任务上进行了微调：

3D分类：在ModelNet40和ScanObjectNN上，SVL预训练显著提升了准确率。例如，Spike PointNet在ScanObjectNN上的准确率从70.0%大幅提升至76.1%，提升了6.1%。
3D分割与检测：在Semantic KITTI和KITTI数据集上，SVL预训练分别带来了1.2%和1.1%的性能提升。
神经形态动作识别：在DVS Action和DVS128 Gesture数据集上，模型准确率分别提升了2.1%和1.6%，证明了SVL在时空特征提取方面的强劲能力。