11月9日消息,据《科创板日报》报道,在11月8日举办的2025年世界互联网大会·乌镇峰会前沿人工智能模型论坛上,蚂蚁集团平台技术事业群总裁倪行军透露,在算力布局方面,蚂蚁已建成万卡规模的国产算力集群,能够流畅支持自研及主流开源模型训练,任务稳定性超过98%,训练与推理性能媲美国际先进算力集群,并全面应用于安全风控领域的大模型训练与推理服务。
值得注意的是,今年3月蚂蚁集团Ling团队在预印本平台Arxiv发布的技术成果论文《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家模型》中,正式推出两款不同规模的MoE大语言模型——百灵轻量版与百灵增强版,提出通过创新方法实现在低成本硬件上高效训练大模型,显著降低部署成本。
实验数据显示,其3000亿参数的MoE大模型可在配备国产GPU的普通设备上完成高效训练,性能表现与完全使用英伟达芯片的同规模稠密模型及主流MoE模型相当。
当前主流MoE模型训练通常依赖英伟达H100/H800等高性能GPU,芯片成本高昂且供应紧张。蚂蚁集团Ling团队提出“不使用高级GPU”的模型扩展目标,通过创新训练策略突破资源限制。具体方案包括:采用动态参数分配与混合精度调度技术优化架构设计;升级自适应容错恢复系统缩短训练中断响应时间;构建自动化评估框架压缩验证周期超50%;通过知识图谱指令微调技术提升复杂任务执行精度。
