从电路模拟的复杂逻辑推导到量子化学的精微粒子分析,求解大规模稀疏线性方程组的高效算法始终是科学计算领域的核心需求。然而传统稀疏直接求解器因数据非零元分布稀疏且不规则,普遍存在运算效率低下、计算资源浪费等瓶颈。近期,中国科学技术大学计算机科学与技术学院特任副研究员陈俊仕团队,在鲲鹏昇腾科教创新卓越中心算力资源的支持下,创新研发出面向鲲鹏处理器矩阵算力、基于密集kernel的LU直接求解器,通过密集运算模式实现了稀疏计算的高效求解,成功突破了传统运算瓶颈。

该研究创新构建了一种面向稀疏矩阵计算的密集计算范式,系统性解构了传统稀疏直接求解器的性能桎梏。研究团队通过将分散的非零元整合为更加规整的密集型数据块,把不规则稀疏矩阵映射为统一稠密的大块结构,进而采用基于稠密矩阵运算的数值分解算法,取代传统稀疏运算中聚合非零元小分块的碎片化计算模式,显著降低了由不规则内存访问引发的计算与调度开销,最终实现了计算效率与硬件利用率的协同优化。
该方案的顺利落地,深度依托于鲲鹏平台的计算特性。硬件层面,鲲鹏920新型号集成专用矩阵运算单元,原生具备高密度数值分解运算的高效承载能力,可精准匹配密集型数据块的集中化处理需求;其多核架构为大规模密集型数据块的并行运算提供了坚实基础,有效避免算力闲置或过载。软件层面,鲲鹏KML数学库针对密集型矩阵运算进行深度优化,通过底层算法与硬件架构的协同适配,进一步释放了密集运算模式的性能潜力。经70余个跨领域测试集验证,该方案性能较SuperLU求解器平均加速达32.2倍,在基础硬件配置下实现了9.6倍性能提升,大幅压缩了科学计算的时间成本。
目前,相关研究成果已发表于CCF B类国际会议Euro-Par 2025,其核心技术已申请中国发明专利并获授权。此次成果是鲲鹏平台在科学计算领域的典型实践,该方法对于现代高性能处理器上稀疏计算问题的高效求解、充分发挥处理器上的矩阵运算单元具有很好的应用价值。未来,随着鲲鹏生态的持续完善,其在高性能计算领域的赋能作用将进一步凸显,助力更多科研团队突破技术难关,推动科研成果加速落地转化。
