2025年9月18日至20日,华&为全联接大会在上海举行。到了第三天的开发者日,一批基于鲲鹏、昇腾基础软硬件平台的科研成果集中亮相,重点展示了高校及孵化企业在AI编程语言、大模型训推加速、多模态大模型、科学计算仿真等前沿领域的创新突破。这些成果背后有鲲鹏昇腾科教创新孵化中心的算力支撑,产学研协同创新的活力,确实让人印象深刻。
高校团队这次带来的成果,重点集中在计算架构和交叉学科创新上,既有学术深度,也有技术洞察,反映的是对领先计算范式与核心问题的深入探索。
先说科学计算仿真领域。北京大学力学与工程科学学院、北京科学智能研究院的陈帜研究员团队,基于鲲鹏对DeepFlame燃烧流体仿真工具做了重大升级。火箭发动机研发中,燃烧模拟的精度和效率一直是一对矛盾——要算得准,就得等得久。他们的做法是把AI推理和高性能计算融合起来,通过物理嵌入刚性神经算子(PE-SNO)与众核PDE求解器优化,实现了近万亿网格规模的模拟,浮点峰值超过1EFlops。原本需要6个月才能跑完的计算任务,现在压缩到1小时就能完成。这个突破有望大幅缩短我国航天发动机的研发周期、降低试验成本,对商业航天运力的提升也提供了关键的数字化支撑。

(北京大学力学与工程科学学院、北京科学智能研究院研究员 陈帜)
算子层面,北京大学计算机学院杨智副研究员团队开源的AI算子编程语言TileLang,是一个典型成果。核心成员董宇骐介绍,它的价值在于能将高级别的数据流描述自动转换并优化为底层代码(比如AscendC),开发者用更简洁的代码就能表达复杂计算,同时获得接近手写算子的高性能。以FlashAttention算子开发为例,代码量从500多行降到了80行,性能却和官方版本持平,效率提升很直观。

(北京大学计算机学院研究生、杨智团队核心成员 董宇骐)
多模态大模型方面,东南大学计算机科学与工程学院杨旭副教授团队在昇腾算力支持下,围绕类比、抽象与推理能力做了系统研究。他们提出的启发式上下文策略、可学习上下文向量LIVE等方法,显著提升了视觉问答任务的学习效率和推理速度。更进一步,团队基于规则奖励的强化学习框架LMM-R1,通过两阶段训练增强了多模态模型的推理能力;动态微调DFT方法则将监督学习与强化学习的优化视角统一起来,为轻量化模型实现高效知识迁移与泛化能力提升提供了新路径。

(东南大学计算机科学与工程学院副教授 杨旭)
在鲲鹏昇腾种子计划的推动下,不少高校的创新成果开始走向市场,科研团队纷纷成立初创企业,把学术理念转化为实际可部署的解决方案。市场的敏锐嗅觉和技术转化能力,在这里体现得相当明显。
多模态大模型正在重新定义AI的边界。魔芯科技CEO、浙江大学博士生陈天润团队,基于昇腾构建了首个3D空间智能大模型。这个模型基于数亿真实物理世界数据训练,只用Decoder-Only Transformer就实现了三维空间关系的自发学习,在256卡昇腾集群上完成了10万场景的训练。它支持多视角输入、新视点合成、语义编辑等功能,虚拟漫游、数字孪生、机器人仿真等场景都有广泛的应用潜力,三维内容生成正在走向普惠化。

(魔芯科技CEO、浙江大学计算机科学与技术学院博士研究生 陈天润)
清华系的初创企业趋境科技,则选择了另一条路线。他们的KTransformers引擎利用鲲鹏CPU与昇腾NPU的异构协同技术,实现了极致的推理加速。核心思路很直接:根据计算强度做精准的负载分配——把混合专家模型中计算强度较低的路由专家层参数卸载到容量更大的鲲鹏CPU内存,把计算密度最高的多层潜在注意力层留在昇腾NPU上执行。通过针对鲲鹏多NUMA架构的本地内存分配与线程调度优化、结合鲲鹏数学库对大模型矩阵乘法的专项加速,以及专家延迟计算技术来有效重叠通信与计算过程,KTransformers在千亿参数模型推理中实现了显存占用降低90%以上的效果。这个底层技术创新,为大规模模型部署提供了一个相当务实的工程解法。

(趋境科技KTransformers引擎架构师、清华大学计算机系博士 谢威宇)
前沿学术探索是源头活水,而开发者始终是创新的关键节点。鲲鹏与昇腾社区通过体系化的课程、详实的案例文档、高效的工具软件以及活跃的专家社群,全程陪伴开发者从学习到认证、从创新到实践的全周期成长。未来,鲲鹏与昇腾还将继续携手全球开发者,以更开放的技术、更丰富的工具和更紧密的社区共创,持续赋能开发者实现创新价值,共同推动计算产业的智能化进程。
