国产GPU突破！中科院成功运行76B类脑大模型_游乐游手机版

首页/科技数码/文章详情

国产GPU突破！中科院成功运行76B类脑大模型

时间：2025-09-24 18:55

过去几年，大模型几乎都依赖 Transformer，它支撑了 GPT、Claude、Gemini 等一众前沿模型的进步，但也一直被诟病：一旦文本变长，计算量和内存消耗就会成倍膨胀，百万级 token

过去几年，大模型几乎都依赖 Transformer，它支撑了 GPT、Claude、Gemini 等一众前沿模型的进步，但也一直被诟病：一旦文本变长，计算量和内存消耗就会成倍膨胀，百万级 token 几乎不可承受。与此同时，大模型训练几乎完全依赖 NVIDIA 的 GPU 体系。从算力到软件栈，整个行业被牢牢绑定在 CUDA 上，硬件自主化成了迟迟迈不过去的门槛。

正因为如此，业界一直在寻找“下一条路”。有人尝试混合架构，有人研究稀疏专家，也有人试水类脑计算。但这些探索往往停留在小规模实验，很少能真正跑到大模型层面。

直到最近，中科院团队抛出了一篇新论文，提出了一个全新系列的类脑大模型 SpikingBrain。他们通过引入 spiking 神经元、线性注意力和稀疏专家机制，不仅在超长文本处理上实现了百倍加速，还首次在国产 GPU 平台 MetaX 上稳定训练出 76B 规模的模型。

同时，SpikingBrain 的问世也证明了大模型并不是只能依赖 Transformer + NVIDIA 的组合，另一条通往未来的道路正在被打开。

不靠英伟达，中科院在国产 GPU 上跑通 76B 类脑大模型

论文链接：https://www.arxiv.org/pdf/2509.05276

大模型的新答案

在实验中，研究团队在超长上下文任务上取得了突破性成果。以 SpikingBrain-7B 为例，当输入长度达到 400 万 token 时，其 Time-to-First-Token（首个 token 生成延迟）比传统 Transformer 快了 100 倍。换句话说，原本需要长时间等待的超长文本任务，如今几乎可以做到即时响应。

不靠英伟达，中科院在国产 GPU 上跑通 76B 类脑大模型

由于脉冲神经元只在必要时才会“放电”，模型在推理过程中保持了 69.15% 的稀疏激活率——也就是说，大多数神经元在大部分时间处于静默状态，不参与计算。相比始终全量激活的 lf，这种机制显著降低了算力消耗和能耗。

不靠英伟达，中科院在国产 GPU 上跑通 76B 类脑大模型

在训练规模上，研究团队共使用 1500 亿 token，先后训练了两个核心模型：SpikingBrain-7B 和 SpikingBrain-76B。尽管所用数据量远少于许多主流开源大模型，这两款模型在多项基准测试中的表现依然能够接近，甚至在部分任务上追平传统 Transformer。

不靠英伟达，中科院在国产 GPU 上跑通 76B 类脑大模型

不靠英伟达，中科院在国产 GPU 上跑通 76B 类脑大模型

更关键的是，这些训练完全在国产 MetaX C550 GPU 集群上完成。实验结果显示，7B 模型在该平台上达到了 23.4% 的 FLOPs 利用率，充分证明了它在非 NVIDIA 硬件环境下依旧能够保持稳定高效的运行。

不靠英伟达，中科院在国产 GPU 上跑通 76B 类脑大模型

从不可微到可扩展

为了实现这些结果，研究团队在模型结构、训练方法和系统工程三个层面都做了实验探索。

在架构实验中，团队对传统 Transformer 做了关键改造。首先，他们将全连接注意力替换为线性注意力和混合注意力，从根本上缓解了计算复杂度随序列长度平方级增长的瓶颈。

与此同时，他们引入了 spiking 神经元，让模型像大脑一样“按需放电”：只有在需要时才被激活，大多数时间保持静默。这种类脑机制带来了天然的稀疏性，大幅降低了无效计算，是 SpikingBrain 在能效上实现提升的关键所在。

不靠英伟达，中科院在国产 GPU 上跑通 76B 类脑大模型

而在系统实验中，最棘手的挑战来自硬件环境。团队没有沿用 NVIDIA 的成熟体系，而是选择在国产 MetaX GPU 集群上完成全部训练。

为了让大模型在这一平台稳定运行，他们对底层系统进行了大规模优化：重写关键算子库，改造分布式通信机制，并针对长时间训练中常见的内存溢出与死锁问题设计了专门的解决方案。

凭借这些工程改造，SpikingBrain 不仅在数百张 MetaX GPU 上成功完成了 7B 模型的稳定训练，还顺利扩展到 76B 参数规模，并在此基础上引入 MoE 稀疏专家机制，进一步提升了模型的性能与效率。

到了训练实验环节，为了让新架构真正跑通，团队设计了一个 conversion-based pipeline，把 Transformer 成熟的训练经验迁移到 SpikingBrain。配合事件触发的 spike 编码，模型中的脉冲神经元依然可以通过反向传播学习，避免了“不可微”带来的训练障碍。通过这种迁移式实验设计，他们在保证稳定性的同时，也逐步扩展了模型规模。

不靠英伟达，中科院在国产 GPU 上跑通 76B 类脑大模型

一条被点亮的新路线

总体来看，SpikingBrain 的价值不只是跑通了一个新模型，而是用系统性的尝试回应了当下大模型最核心的几个痛点。它在百万级 token 的长文本上实现了数量级的加速，说明类脑机制在大规模模型里并不是纸上谈兵，而是能带来真实收益的方向。(公众号：)

同时，它第一次在国产 GPU 上完成了 76B 规模训练，让人看到大模型不一定要绑死在 CUDA 上，硬件路线其实有多种可能。再加上稀疏激活机制显著降低了能耗，SpikingBrain 给“大模型能否可持续”这个老问题提供了一个新答案。

当然，SpikingBrain 暂时还不能取代 Transformer，它更像是给行业提供了一个全新的实验样本：证明大模型还有其他路径可走。至于它能否在更复杂任务、更大规模下保持稳定，以及类脑机制能否发展成成熟的工具链，还需要时间和进一步验证。”

但至少现在，我们已经看到，大模型的发展并不是只有一条路，新的路径正在一点点被点亮。

原创文章，未经授权禁止转载。详情见转载须知。

来源：https://www.leiphone.com/category/ai/DpGZ15sEkuvhrNpC.html

中科院 Transformer SpikingBrain

上一篇国庆Vlog拍摄指南：佳能R50V，轻松拍出电影感旅行大片 下一篇梅赛德斯-奔驰与字节跳动深化AI合作，共启汽车产业数智化创新新征程

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容，方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

LiblibAI云端WebUI降低AI绘画部署门槛

科技数码 · 2026-07-02

LiblibAI云端WebUI降低AI绘画部署门槛

LiblibAI在线WebUI的核心优势在于——只需通过浏览器即可流畅运行Stable Diffusion，无需自行搭建本地环境。云端直接处理运算，模型即选即试，大幅降低了AI绘画的创作门槛。对于轻量创作和模型快速测试来说，体验相当顺畅，但用户仍需重视数据隐私保护和版权合规等问题。过去使用Stab

微软因用户不安叫停Edge浏览器AI历史搜索功能

科技数码 · 2026-07-02

微软因用户不安叫停Edge浏览器AI历史搜索功能

微软紧急暂停Edge浏览器AI历史搜索功能，该功能因被用户吐槽“令人不安”而暂缓部署。尽管微软强调所有AI处理在设备端完成且数据不上传云端，但用户仍不信任。此举与WindowsK2计划减少功能堆砌的理念一致。

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场

科技数码 · 2026-07-02

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场

【CNMO科技消息】近日，红魔游戏平板5 Pro正式发布。这款平板从定位上就明确瞄准“极致游戏”体验，外观方面带来了一个重磅亮点——首次引入RGB水冷散热系统，背部那条可视化的水路通道，配合纯平透明背板设计，核心配置信息一览无余，科技感十足。图源网络屏幕方面同样表现突出。一块9 06英寸OLED

杭州全国首所机器人学校首批30台机器人入学

科技数码 · 2026-07-02

杭州全国首所机器人学校首批30台机器人入学

30台机器人整齐列队，有的刚从生产线卸下，机械零件还带着崭新的“工业气息”；有的已搭载运动控制模块，能稳健地小跑、跳跃几下。它们来自不同制造工厂，外形与功能各有千秋，但此刻都拥有了同一个身份——杭州机器人学校的第一批入学新生。 6月30日，杭州经信正式发布：由浙江大学机器人研究院、浙江省质量科学研究

美国计划发射航天器托举天文卫星

科技数码 · 2026-07-02

美国计划发射航天器托举天文卫星

就在最近，NASA公布了一项非常果断的干预计划——他们定于6月30日实施一次“卫星维修任务”，派遣一台名为“连接”号的机器人服务卫星，为一颗超期服役的天文卫星延长运行寿命。这颗卫星是“尼尔·格雷尔斯·斯威夫特天文台”，其轨道高度正在不断衰减，如果不进行干预，今年年底前很可能会坠入地球大气层并烧毁。