商汤科技近日宣布,其与南洋理工大学S-Lab联合研发的多模态模型架构NEO正式开源发布。这一架构为日日新SenseNova多模态模型提供了新一代底层支撑,标志着多模态领域的技术突破迈出关键一步。

不同于传统的模块化设计思路,NEO架构从底层原理出发,采用原生多模态设计理念,通过核心架构层的深度融合,实现了模型性能、效率与通用性的全面提升。研发团队在注意力机制、位置编码和语义映射三个关键维度进行了底层创新,使模型能够统一处理视觉与语言信息,突破了单一模态的局限性。
针对跨模态训练中常见的语言能力退化问题,NEO架构创新性地引入了Pre-buffer与Post-LLM双阶段融合训练策略。该策略在保留原始大语言模型完整推理能力的基础上,从零构建视觉感知模块,确保两种模态能力同步增强且互不干扰。这一训练方式有效解决了传统方法中语言能力受损的技术瓶颈。
为促进行业技术生态发展,商汤科技已开源基于NEO架构的2B与9B两种参数规格的模型。这两个版本在保持架构核心优势的同时,为不同应用场景提供了灵活选择。开源社区可基于这些模型开展二次开发,加速原生多模态架构的技术迭代与应用落地。
