商汤科技联手南洋理工开源NEO架构:原生多模态模型新版发布
商汤科技与南洋理工大学S-Lab联合发布新一代多模态架构NEO,该架构现已正式开源,为日日新SenseNova多模态模型提供了全新的技术底座。这一突破性架构通过底层创新实现了视觉与语言的深度交融,在性能、效率及通用性方面均有显著提升,标志着多模态技术从“模块化拼接”向“原生融合”的范式转变。
传统多模态模型多采用“视觉编码器+投影器+语言模型”的模块化设计,以语言模型为核心扩展图像处理能力。然而,这种架构本质上仍以文本为主导,图像与语言的融合仅停留在数据层面,导致模型在复杂场景中(如精细图像分析或空间结构理解)表现受限。商汤科技指出,此类“拼凑式”设计不仅学习效率低下,更难以满足真实场景对多模态协同的需求。
针对上述痛点,NEO架构从底层机制重构多模态处理逻辑,通过三大核心创新实现原生融合:其一,原生图块嵌入技术摒弃离散图像分块方式,采用自底向上的连续映射技术,直接从像素生成语义词元,显著提升图像细节捕捉能力;其二,原生三维旋转位置编码解耦时空频率分配,为视觉与文本模态分配差异化频率参数,使模型同时具备图像空间结构解析与视频跨帧建模潜力;其三,原生多头注意力机制在统一框架下实现文本自回归注意力与视觉双向注意力的协同,强化空间关联推理能力。
在训练策略上,NEO采用Pre-Buffer与Post-LLM双阶段融合机制,既保留原始语言模型的完整推理能力,又从零构建视觉感知模块,有效解决跨模态训练中语言能力退化问题。测试数据显示,该架构仅需3.9亿图像文本样本(约为行业同等性能模型的十分之一),即可在视觉理解任务中比肩Qwen2-VL、InternVL3等旗舰模型。在MMMU、MMB等权威评测中,NEO架构多项指标位居前列,尤其在0.6B至8B参数规模的边缘部署场景中,展现出显著的成本与效率优势。
目前,商汤已开源基于NEO架构的2B与9B参数模型,开发者可通过开源社区获取技术文档与模型权重。此次开源不仅为学术界提供前沿研究基准,更为工业界部署高效多模态应用提供新选择。随着原生融合架构的普及,多模态技术有望在智能终端、自动驾驶、医疗影像等领域实现更广泛的应用突破。
热门专题
热门推荐
在《燕云十六声》中领悟“菩提苦海”,需沉浸探索游戏世界。主线剧情构建认知框架,战斗观察、场景细节与NPC对话皆暗藏线索。通过多元视角拼凑因果,方能深入理解游戏蕴含的宏大叙事与深邃魅力。
2026年618大促的序幕刚刚拉开,初期战报已经透露出一些耐人寻味的信号。截至5月21日,海信电视在京东平板电视累计销售竞速榜上拔得头筹,其RGB-Mini LED爆款王——海信小墨E5S Pro,更是同时拿下了天猫平板电视和抖音大家电的5 20单品销冠。 这并非偶然。奥维云网的全渠道监测数据给出了
充电桩领域的“军备竞赛”再次迎来重磅升级。5月22日,极氪汽车正式发布了其全新一代液冷超级充电桩,将单枪峰值功率一举提升至行业领先的800kW,标志着超充技术迈入新阶段。 根据官方披露的核心信息,这款超充桩主要具备四大优势:极速补能、高效节能、广泛适配与多重安全。具体而言,其单枪峰值电流高达800A
获取电弧机剑主要有五种途径:推进主线任务以解锁线索;探索遗迹、工厂等特定区域;挑战特定副本与Boss;完成提及传说武器或遗物的支线任务;参与限时活动并达成要求。玩家可根据偏好选择或组合多种方式获取该武器。
小米汽车再次为潜在车主带来惊喜福利!即日起至5月31日,用户只需提前完成预约,并到店参与任意车型的试驾体验,即可免费获赠一款1:64精致合金车模。车模款式与颜色随机发放,为试驾过程增添一份专属的收藏乐趣,诚意十足。 参与本次活动需注意以下细则:试驾必须通过官方渠道提前预约;各授权门店的车模备货数量不





