游乐游手机版
首页/AI教程/文章详情

ICML 2026 SVL 脉冲神经网络高效3D开放世界理解

时间:2026-07-01 15:07
提出SVL脉冲视觉-语言预训练框架,通过多尺度三元对齐与可重参数化视觉-语言集成实现高效3D开放世界理解。首个全脉冲点云Transformer在零样本分类、字幕生成及下游任务中性能媲美ANN,能效提升超200倍,首次实现SNN开放世界3D问答。

论文题目:SVL: Empowering Spiking Neural Networks for Efficient 3D Open-World Understanding

论文:https://arxiv.org/abs/2505.17674
代码:https://github.com/bollossom/SVL

\

图1

一、背景

受大脑启发的脉冲神经网络(SNN)凭借其独特的脉冲驱动特性与时空处理能力,在处理稀疏3D几何数据(如事件流与点云)时,天然具备极高的能效优势。以Speck等神经形态芯片为例,事件驱动的稀疏处理可将功耗降低至毫瓦级别。

然而,现有SNN在性能上与人工神经网络(ANN)仍有较大差距,且多数模型仅针对特定任务设计,泛化表示能力不足,更难以实现3D开放世界下的多模态理解。在实际应用场景中,SNN往往难以泛化到训练集之外的新类别。当前主流的SNN预训练方法——如基于STDP的初始化、知识蒸馏、掩码图像建模——在复杂数据集上效果欠佳,计算资源消耗过高,或缺乏多模态(尤其是语言)的有效引导。

另一方面,视觉-语言模型(VLM,如CLIP)通过将2D图像知识迁移至3D领域实现了开放世界理解,但其推理时严重依赖庞大的文本编码器,给资源受限的神经形态硬件部署带来了巨大挑战。为解决上述难题,我们提出了SVL(Spike-based Vision-Language pretraining framework),旨在增强SNN的开放世界多模态3D理解能力,同时保留高效的脉冲驱动推理特性。

二、本文主要贡献

1. 多尺度三元对齐(MTA)

为了捕捉3D数据的几何特性并实现开放世界理解,我们设计了多尺度三元对齐机制。MTA通过无标签的三元组对比学习,联合优化文本、图像和3D输入之间的相关性对齐。具体而言,MTA不仅包含语义层面的脉冲-文本对齐——将3D实例特征与CLIP提取的文本提示特征在嵌入空间中拉近;还引入了细粒度的脉冲-图像对齐,通过InfoNCE与MSE损失的联合约束,进一步捕捉图像与3D数据之间紧密耦合的细粒度语义信息。

2. 可重参数化视觉-语言集成(Rep-VLI)

传统视觉-语言模型在推理时离不开庞大的文本编码器,这成为SNN高效部署的主要障碍。为此,我们提出了可重参数化视觉-语言集成模块。Rep-VLI的核心创新在于:将离线文本嵌入直接转换为轻量级分类层的权重。在推理阶段,文本编码器被完全移除,改用硬件友好的脉冲计数决策规则替代传统的Softmax操作。如此一来,模型既保持了全脉冲驱动和硬件兼容性,又实现了无文本编码器的轻量级推理。

3. 首个全脉冲驱动点云Transformer(Spike-driven PointFormer)

除SVL框架外,我们还提出了首个全脉冲驱动的点云Transformer架构——Spike-driven PointFormer。它采用3D脉冲驱动自注意力机制,将传统的矩阵乘法交互简化为纯加法操作。该设计不仅保留了端到端的脉冲计算特性,还大幅降低了训练与推理阶段的内存及时间开销,使其能够支撑大规模预训练,并在各类3D任务中展现出广泛的泛化能力。

三、实验结果

1. 3D零样本分类

在ModelNet40以及更具挑战性的大规模Obja verse-LVIS数据集上,SVL展现了卓越的零样本分类性能。例如,基于SVL预训练的E-3DSNN在ModelNet40上达到了85.4%的准确率,超越了众多ANN(如OpenShape、ULIP)及SNN基线模型,同时仅消耗0.79 mJ能量,参数量仅为17.7M。在Obja verse-LVIS上,我们的模型性能与ULIP-2相当,但能效提升了204倍。这充分证明了Rep-VLI模块在高效零样本推理方面的突出优势。

\

表1

2. 3D对象字幕生成与开放世界问答

我们将SVL训练的Spike-driven PointFormer与大语言模型结合,构建了SVL-13B模型。在3D对象字幕生成任务中,SVL-13B达到了与最先进ANN方法(如PointLLM)旗鼓相当的性能,这也是SNN首次应用于3D字幕生成。在开放世界3D问答中,模型能够准确理解物体的形状、材质、功能及上下文,展现出强大的常识推理与多模态对齐能力。

\

表2

3. 3D下游任务(分类、分割、检测与动作识别)

我们将SVL预训练的脉冲编码器在多个下游任务上进行了微调:

  • 3D分类:在ModelNet40和ScanObjectNN上,SVL预训练显著提升了准确率。例如,Spike PointNet在ScanObjectNN上的准确率从70.0%大幅提升至76.1%,提升了6.1%。
  • 3D分割与检测:在Semantic KITTI和KITTI数据集上,SVL预训练分别带来了1.2%和1.1%的性能提升。
  • 神经形态动作识别:在DVS Action和DVS128 Gesture数据集上,模型准确率分别提升了2.1%和1.6%,证明了SVL在时空特征提取方面的强劲能力。

\

表3

\

表4

4. 架构效率对比

与现有的脉冲点云Transformer相比,我们的Spike-driven PointFormer-S在训练速度上提升了最高达4.3倍,训练内存降低了4.1倍,同时在ModelNet40上取得了92.6%的高准确率,推理能耗仅为5.1 mJ,完美平衡了ANN级别的识别性能与SNN的能效优势。

图2

四、讨论与总结

本文提出了SVL,一种新颖的基于脉冲的视觉-语言预训练框架,赋予脉冲神经网络强大的开放世界3D理解能力,同时保留了其固有的高能效优势。通过多尺度三元对齐与可重参数化视觉-语言集成,SVL成功弥合了SNN低功耗与先进视觉-语言模型强泛化能力之间的鸿沟。

此外,我们提出的Spike-driven PointFormer作为首个全脉冲驱动的点云Transformer,进一步推动了SNN在复杂3D任务中的应用。SVL不仅在多项基准测试中刷新了SNN的SOTA成绩,更首次实现了SNN的开放世界3D问答,标志着脉冲系统在多模态表示学习领域迈出了重要一步。

来源:https://cloud.tencent.com.cn/developer/article/2700712
上一篇化学元素周期表API接口信息查询介绍 下一篇健康管理API接口知识普及与使用详解
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年最新JetBrains AI助手Windows本地详细安装配置教程(含下载与环境要求)
AI教程 · 2026-07-03

年最新JetBrains AI助手Windows本地详细安装配置教程(含下载与环境要求)

JetBrainsAIAssistant可在Windows上通过IDE内置市场或离线包安装,需匹配新版JetBrainsIDE、账号登录与稳定网络。配置时应关注版本兼容、隐私设置、项目索引、快捷键和代码提交前复核,避免上传密钥与敏感业务资料。

Amazon Q Developer新手安装指南:从下载到首次运行的保姆级教程
AI教程 · 2026-07-03

Amazon Q Developer新手安装指南:从下载到首次运行的保姆级教程

AmazonQDeveloper可为编码、调试、解释项目和生成测试提供辅助。安装前需确认账号、开发环境和插件来源,按IDE或命令行路径完成配置,并在首次运行时注意权限、数据与项目安全。

Amazon Q Developer安装失败怎么办?报错日志排查与升级回滚方案
AI教程 · 2026-07-03

Amazon Q Developer安装失败怎么办?报错日志排查与升级回滚方案

AmazonQDeveloper安装失败通常与版本兼容、网络连接、身份登录、插件残留或权限配置有关。排查时应先确认环境,再查看IDE与终端日志,必要时采用清理重装、固定版本升级或回滚方案。

Amazon Q Developer本地模型运行:下载、路径与性能优化
AI教程 · 2026-07-03

Amazon Q Developer本地模型运行:下载、路径与性能优化

AmazonQDeveloper以云端能力为主,本地模型方案更适合离线补充、代码检索和私有环境辅助。配置时需确认版本、模型来源、路径权限、硬件资源与IDE集成方式,并通过量化、上下文控制和缓存策略优化性能。

Amazon Q Developer插件安装全流程:浏览器编辑器扩展市场配置
AI教程 · 2026-07-03

Amazon Q Developer插件安装全流程:浏览器编辑器扩展市场配置

AmazonQDeveloper可在浏览器控制台、VSCode、JetBrains等环境中辅助写代码、解释项目和生成测试。安装前需确认账号权限、编辑器版本与网络环境,配置时重点关注登录授权、工作区信任、数据权限和团队使用规范。