商汤科技携手南洋理工发布NEO架构:原生多模态模型新篇章
商汤科技与南洋理工大学S-Lab联合研发的多模态模型架构NEO正式亮相,并同步开源2B与9B两种参数规模的模型。这项突破性成果为多模态大模型领域带来全新范式,其核心架构通过底层创新实现了视觉与语言模态的深度融合,在数据效率、性能表现及部署成本等关键指标上达到行业领先水平。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
传统多模态模型普遍采用"视觉编码器+投影器+语言模型"的模块化设计,这种基于大语言模型扩展的方案虽能处理图像输入,但本质上仍以语言为中心。商汤科技指出,此类架构存在三大缺陷:数据层面浅层融合导致学习效率低下,图像细节捕捉能力受限,复杂空间结构理解困难。例如在需要精准识别物体位置关系或动态场景的任务中,传统模型往往表现乏力。
NEO架构通过三项底层创新实现模态融合的质变。其独创的原生图块嵌入技术摒弃离散图像分词器,通过连续映射机制从像素级构建视觉表征,使模型能捕捉到比传统方法精细4倍的图像细节。在位置编码方面,原生三维旋转位置编码创新性地解耦时空频率分配,为视觉模态分配高频信号、语言模态分配低频信号,这种设计使模型天然具备处理视频流和跨帧信息的能力。
注意力机制层面,原生多头注意力突破传统框架,在统一架构中同时实现文本的自回归注意力与视觉的双向注意力。这种设计使模型在处理图文混合任务时,空间关联利用率提升37%,特别在需要理解物体遮挡关系或动态轨迹的场景中表现突出。配合Pre-Buffer&Post-LLM双阶段训练策略,模型在保持语言推理能力完整性的同时,视觉感知能力实现指数级增长。
实测数据显示,NEO架构展现出显著优势:在数据效率方面,仅需3.9亿图像文本样本即可达到顶尖视觉理解水平,数据需求量仅为同类模型的1/10;性能测试中,在MMMU、MMB等五大权威基准测试中均取得最优成绩;部署成本方面,0.6B-8B参数规模的模型在边缘设备上的推理速度提升2.3倍,特别适合移动端和物联网设备部署。商汤已开放基于NEO架构的模型下载,开发者可通过开源社区获取完整代码与训练框架。
热门专题
热门推荐
V社联合创始人G胖调整角色:从主导开发转向赋能团队,释放创意生产力 近期一则消息引发游戏行业广泛关注:Valve联合创始人加布·纽维尔(“G胖”)在公司内部进行了一次重要角色转型。此次调整的关键原因,与他个人在公司中的特殊影响力息息相关。根据透露,这位创始人决定减少在具体游戏开发工作中的直接深度参与
红魔姜超透露:全新游戏平板将于四月或五月发布,承诺带来惊艳体验 游戏硬件领域即将迎来重磅更新。努比亚红魔游戏手机的产品线负责人姜超,近日通过社交媒体进行了一次颇具悬念的“前瞻剧透”,成功引发了广大游戏玩家和科技爱好者的高度关注。他明确指出,红魔全新一代游戏平板的发布日期已锁定在四月或五月,并使用了“
金铲铲之战S17天煞羁绊:效果解析与实战应用 在《金铲铲之战》S17赛季中,【天煞】是一个定位独特的专属羁绊,仅由5费英雄“劫”所携带。激活这一羁绊需要特定的前置条件——玩家必须在强化符文选择阶段获得【入侵者劫】。一旦成功解锁,劫将获得全新的技能机制,从而在战局中发挥出颠覆性的作用。 金铲铲之战S1
索尼调整第一方工作室阵容,王牌重制团队蓝点工作室正式“退出”核心名单 近日,索尼在其PlayStation Studios官方网站的更新中做出了一项关键调整,引发了游戏玩家和行业观察者的广泛关注:曾凭借《恶魔之魂:重制版》等作品赢得盛誉的蓝点工作室,已不再出现在索尼核心第一方工作室的名单之中。此次页
未来人类X98W移动工作站正式发布:重新定义移动端专业性能的新标杆 在专业移动计算领域,总有一些产品能够打破常规认知。近日,未来人类(TerransForce)正式在其官网上线了全新的X98W高性能移动工作站,并宣布将于本月内全面发售。这款设备的问世,无疑为那些在移动办公环境中仍需要桌面级别强悍性能





