三维虚拟内容创作长期面临成本高昂、效率低下的行业痛点,尤其是在VR和元宇宙概念持续升温的背景下,如何将一张草图或几张照片快速转化为可编辑、可制造的3D模型,已成为技术攻关的核心难题。近日,浙江大学计算机学院博士生陈天润团队取得了一项突破性进展:他们基于昇腾平台的NPU,成功实现了首个三维模型生成算法模型——Img2CAD。这项研究成果的背后,离不开浙江大学鲲鹏昇腾科教创新卓越中心提供的强劲算力支撑。
那么,此次突破的核心技术亮点是什么?简单来说,就是利用生成模型直接输出脚本语言,从而精准描述三维结构。过去完成类似任务往往依赖可微渲染器,不仅计算开销巨大,而且很难在NPU上完整运行。而新方法采用Transformer结构,能够将草图、图片这类稀疏且抽象的多模态输入高效“翻译”为三维几何信息——整个过程无需大量Vector算力,训练与推理均可直接在NPU上完成。更重要的是,最终输出的模型可以直接导入现有CAD软件进行编辑,也可用于3D打印、CNC加工或数字展览。其中,昇腾加速套件MindSpeed发挥了关键作用:它支持多种类型数据加载,灵活适配多模态数据的异构特征,保障了视觉大模型与脚本语言表示模块之间的高效协同。
在交互体验方面,团队对算法模型结构进行了优化,实现了三维生成的“即时交互”。CANN算子库充分挖掘了NPU的并行计算能力与高效内存访问机制,大幅降低了计算延迟与通信开销。这意味着用户只需画出几笔草稿,系统便能快速响应并生成对应的3D模型——这种流畅体验对实际落地应用场景至关重要。
目前,这套三维生成方法已用于构建3D数据资产,并成功落地到KOKONI 3D打印机的应用场景中。换言之,它能够为数字制造、AR/VR等产业提供一套高效的内容创作解决方案。在学术层面,项目已产出3篇成果论文,包括1篇中科院1区期刊和2篇CCF-A类会议论文。在商业化层面,部分成果已在实际场景中跑通,未来将继续依托昇腾的澎湃算力,进一步拓展在三维数字化产业中的应用。
此次跨模态可控三维生成技术的突破,某种意义上也是浙江大学鲲鹏昇腾科教创新卓越中心在产学研融合方面的一次成功示范。它标志着智能三维内容创作正进入一个“低门槛、高效率、高质量”的全新阶段。可以预见,随着技术的持续迭代,Img2CAD这类模型将在工业设计、数字文创、AR/VR等领域释放更多创意能量,虚拟与现实世界的边界也将因此变得更加模糊、更加有趣。

