中国团队研制新型芯片突破:特定任务算力超GPU千倍,攻克模拟计算世纪难题
“作为通用‘总指挥’的CPU,凭借着成熟的技术架构和经济性,始终在计算生态中占据着核心位置。GPU则专注于加速并行计算,尤其在处理海量矩阵乘法上表现卓越。而我们研发的这款模拟计算芯片,则瞄准了AI等前沿领域中最耗能的矩阵逆运算,旨在更高效地解决此类问题,为现有算力体系提供重要的补充。”
编辑 | 云昭
在数字计算统治计算机世界半个多世纪后,一场颠覆性的技术变革正在中国悄然上演。
北京大学人工智能研究院孙仲团队,携手集成电路学院研究力量,成功研制出全球首个基于阻变存储器的高精度、可扩展模拟矩阵计算芯片。该芯片首次将模拟计算精度提升至24位定点级别,让这项曾被视作“老旧技术”的计算范式重新焕发活力。
图片
实测数据显示,在求解大规模MIMO信号检测等关键科学问题时,这款芯片的计算吞吐量与能效相较顶级GPU提升了百倍至千倍。相关突破性成果已于10月13日发表在国际顶级期刊《Nature Electronics》(《自然·电子学》)上。
图片
一项“教科书技术”的重生
论文通讯作者、北大人工智能研究院孙仲教授介绍道,
“模拟计算是早期计算机的核心技术框架,通过物理定律直接进行运算,具备高并行、低延迟、低功耗的先天优势。”
但随着数字计算在精度和可编程性方面的快速崛起,传统模拟计算因精度受限、扩展性不足而逐渐淡出历史舞台。
“如何让模拟计算兼具高精度与可扩展性,进而在现代计算任务中充分发挥其潜能,始终是困扰全球科学界的‘世纪难题’。”他进一步解释道,“数字计算虽精度可控,但存在速度瓶颈,且受冯·诺依曼架构中‘内存墙’的制约,这已成为制约人工智能、科学计算和6G通信发展的瓶颈。”
那么模拟计算究竟有何独特之处?
为了更直观地说明这个问题,孙仲打了个形象的比方:
“数字芯片在处理信息时,都需要先将数据转换成0和1的符号串。例如数字‘十’,就要编译成‘1’和‘0’的组合,记为‘1010’。”
如果用二进制书写“1+1=2”,实际上它呈现的是“1+1=10”的结果。
而模拟计算则采用了完全不同的原理。
“模拟计算无需这层‘翻译’过程,它是一种‘类比计算’,可以直接用连续的物理量来对应数学上的数值。举例来说,数学上的‘十’,可以直接用十伏或十毫伏的电压来表示。”
简单来说,数字计算通过符号来表征世界,而模拟计算则直接“让物理世界自己完成计算”。
这项技术在计算机发展的早期阶段——上世纪30至60年代曾被广泛应用。当时的科学家们巧妙地运用电压、电流、齿轮和旋钮来求解复杂方程。然而随着计算任务变得日益庞大而精密,模拟计算的“精度短板”逐渐暴露,最终被数字计算全面取代,成为教科书中尘封的篇章。
孙仲指出,此项研究的核心突破正是要攻克模拟计算“算不准”这一根本痛点。
提升五个数量级,破解“精度困境”
面对这一技术瓶颈,研究团队并未沿袭传统思路,而是选择了“融合创新”的突破路径。
他们在新型信息器件、原创电路架构和经典算法之间建立协同设计体系,首次实现了可与数字计算相媲美的高精度模拟计算系统——将传统模拟计算的精度提升了整整五个数量级。
“我们研发的新方案在保持模拟计算低复杂度优势的同时,实现了与数字FP32处理器相媲美的计算精度。”
在实验室环境中,团队成功实现了16×16矩阵的24位定点精度求逆,经过10次迭代后,相对误差可低至10⁻¹¹量级。
图片
“团队还创新性地提出了块矩阵模拟计算方法,如同拼图游戏般将复杂问题分解到多个芯片上协同解决,成功突破了模拟计算的规模限制,实验实现了16×16矩阵方程的求解。”
算力超越GPU,能效高出百倍
更令人震撼的是性能测试结果。
在算力表现方面尤为突出:
“当求解32×32矩阵求逆问题时,该芯片算力已超越高端GPU的单核性能;当问题规模扩大至128×128时,计算吞吐量更是达到顶级数字处理器的1000倍以上。”
换句话说——传统GPU需要运算一整天的任务,这款芯片只需一分钟就能完成。
孙仲补充说明:
“在同等精度下,该技术的能效比传统数字处理器高出100倍以上,为算力中心应对能耗瓶颈提供了关键技术支撑。”
通向“算力新范式”的钥匙
我们熟知的计算机,无论是CPU还是GPU,本质上都属于“数字芯片”范畴。它们遵循冯·诺依曼架构——将计算和存储分离,通过“0”和“1”的数字流来完成编译、运算与传输。
这种模式已经持续了半个多世纪。但随着人工智能和6G通信对算力需求的急剧膨胀,这种架构的局限性日益凸显——数据在计算单元和存储单元之间来回搬运,能耗与延迟不断攀升。
而北大孙仲团队的突破,正是要从根本上“重构”这种算力逻辑。
“这项工作的核心价值在于,它用事实证明模拟计算能够以极高效率和精度解决现代科学与工程中的核心计算难题。”
他们研发的基于阻变存储器的模拟计算芯片,跳出了“将数据转换成二进制再运算”的繁琐过程,也不再依赖“过程性存储”。
在这里,计算与存储融为一体——电流流过的那一瞬间,就是运算本身。这意味着算力得到彻底释放:在6G通信中,它能让基站在低功耗下实时处理海量天线信号,提升网络容量与能效;在人工智能领域,有望加速大模型训练中的二阶优化算法,显著提高训练效率;而在边缘计算设备中,它的低功耗特性意味着AI训推一体化将更易落地。
“更重要的是,低功耗特性也将为复杂信号处理和AI训推在终端设备上的直接运行提供强力支持,从而大幅降低对云端的依赖,进而推动边缘计算迈向新阶段。”
从实验室到产业化:算力革命的起点
据悉,孙仲团队已启动产业化进程,计划将这一突破性技术从实验室推向市场。
“这项突破的意义远不止于一篇顶刊论文,其应用前景覆盖多元计算场景,有望重塑算力格局。”
“可以说,我们为算力提升探索出了一条极具潜力的路径,有望打破数字计算的长期垄断,开启一个算力无处不在且绿色高效的新时代。”
谈及与现有计算架构的关系,孙仲强调未来将是互补共存,而非替代:
“作为通用‘总指挥’的CPU,因其成熟性与经济性而难以被淘汰。GPU专注于加速矩阵乘法计算。我们的模拟计算芯片,则致力于更高效地处理AI等领域最耗能的矩阵逆运算,这是对现有算力体系的有力补充。”
参考链接:
https://www.zhihu.com/question/1964688206738978150
相关攻略
10月29日消息,千亿芯片巨头豪威集团10月28日晚间发布的三季报显示,2025年第三季度公司实现归母净利润同比增加约17%,前三季度公司归母净利润同比增加约35%。据介绍,公司在汽车智能驾驶领域渗
10月29日消息,对于黄仁勋来说,他已经公开承认,美国封锁确确实实推动了中国芯片爆发。“AI竞争不是单一维度的”,黄仁勋认为,AI竞争包括能源、芯片、基础设施、模型与应用等层次,并呼吁美国不仅要发明
10月29日消息,不管你多先进的光刻机,如果没有稀土一样玩不转。台积电高级副总裁兼副联席首席运营官侯志强(Cliff Hou)近日公开表示,短期内,由于稀土库存充足,台积电不会面临风险,但如果供应持
“CPU作为通用‘总指挥’因其成熟与经济性而难以被淘汰。GPU则专注于加速矩阵乘法计算。我们的模拟计算芯片,旨在更高效地处理AI等领域最耗能的矩阵逆运算,是对现有算力体系的有力补充。” 编辑 | 云
10月27日消息,今日,上海交通大学计算机科学与工程系教授张伟楠在采访中谈及了国产芯片的看法。他表示“我国现在正在走一条新路线,虽然单芯片我们可能不如最顶级的西方芯片,但我们通过芯片去构建出一个超级
热门专题
热门推荐
库币KuCoin与币安(Binance):下载与选择在数字货币的世界里,选择一个合适的交易平台至关重要。库币(KuCoin)和币安(Binance)都是备受瞩目的
Toncoin(TON)源自Telegram,具备高性能区块链、图灵完备虚拟机与友好开发环境,依托Telegram用户基础,发展出包括TON Wallet、DNS、Storage等生态,潜力巨大但面临监管与市场波动挑战。
OE账号注销指南:简单三步彻底删除 想和你的OE账号说再见?也许你找到了更适合自己的平台,或者只是想清理一下数字生活。无论什么原因,注
二重螺旋调停委托任务怎么通关?二重螺旋调停委托作为一种非无尽模式的委托关卡,在这个关卡当中,玩家需要尽可能的去通关,只是很多玩家在通关的时候发现调停委托好像有点复杂,自己也不知道该
近日,小米汽车针对SU7 Ultra车型推出“10月秋季关怀”服务,宣布为选配碳纤维双风道前舱盖的车主提供免费升级方案。根据最新说明,升级内容为在前舱盖新增两个空气动力学叶片,旨在优化高速行驶时的空





