首页 游戏 软件 资讯 排行榜 专题
首页
AI
商汤开源NEO架构:行业首个多模态模型统一视觉与语言

商汤开源NEO架构:行业首个多模态模型统一视觉与语言

热心网友
47
转载
2025-12-03

12月2日,商汤科技正式发布并开源了与南洋理工大学S-Lab实验室联合研发的全新多模态模型架构——NEO,为旗下日日新SenseNova多模态模型的下一代架构奠定了坚实基础。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

行业首个:商汤发布并开源NEO原生多模态模型架构,实现视觉、语言深层统一

NEO架构被誉为“业内首个可实现深层融合的可用原生多模态架构(Native VLM)”。该架构从底层原理出发,突破了传统“模块化”范式的限制,采用“专为多模态而生”的设计理念。通过核心架构层面的多模态深度融合,该架构在性能表现、运行效率与通用能力方面实现了全面突破。

商汤科技技术团队指出,当前业界主流的多模态模型大多遵循“视觉编码器+投影器+语言模型”的模块化范式。这种基于大型语言模型(LLM)的扩展方案虽然实现了图像输入的兼容,但从本质上仍以语言处理为核心,图像与语言的融合仅限于数据层面。这种“拼凑式”的设计不仅导致模型学习效率低下,更限制了其在复杂多模态场景(如图像细节捕捉、空间结构理解等)的处理能力。

行业首个:商汤发布并开源NEO原生多模态模型架构,实现视觉、语言深层统一

NEO架构通过从零开始的全新设计,在注意力机制、位置编码和语义映射三个维度实现底层创新,使模型天生具备统一处理视觉与语言信息的能力:

原生图像块嵌入(Native Patch Embedding):摒弃了传统离散的图像分词器,通过独创的图像块嵌入层自底向上构建从像素到词元的连续映射。这种设计能更精准地捕捉图像细节特征,突破了主流模型的图像建模瓶颈。

原生三维旋转位置编码(Native-RoPE):创新实现三维时空频率解耦,视觉维度采用高频编码、文本维度采用低频编码,完美适配两种模态的自然结构特性。这使得NEO不仅能准确捕捉图像的空间结构,更具备向视频处理、跨帧建模等复杂场景无缝拓展的潜力。

原生多头注意力(Native Multi-Head Attention):针对不同模态特征,NEO在统一框架下实现了文本词元的自回归注意力和视觉词元的双向注意力并存。这种设计显著提升了模型对空间结构关联的利用率,从而更好地支撑复杂的图文混合理解与推理任务。

行业首个:商汤发布并开源NEO原生多模态模型架构,实现视觉、语言深层统一

更重要的是,配合预缓冲与后融合双阶段训练策略,NEO能够在完整吸收原始LLM语言推理能力的同时,从零构建视觉感知能力,有效解决了传统跨模态训练中语言能力受损的行业难题。

测试数据显示,NEO架构在多个维度实现显著突破:

数据效率:仅需业界同等性能模型十分之一的数据量(约3.9亿图文示例),NEO即可开发出“顶尖的视觉感知能力”。无需依赖海量数据及额外视觉编码器,该架构就能在多项视觉理解任务中追平Qwen2-VL、InternVL3等顶级模块化旗舰模型。

性能表现:在MMMU、MMB、MMStar、SEED-I、POPE等多项公开评测中,NEO架构均取得优异成绩。

推理性价比:特别是在0.6B-8B参数区间内,NEO在边缘部署方面展现出明显优势。

行业首个:商汤发布并开源NEO原生多模态模型架构,实现视觉、语言深层统一

商汤科技已正式开源基于NEO架构的2B与9B两种规格模型,完整开源地址如下:

https://github.com/EvolvingLMMs-Lab/NEO

https://arxiv.org/abs/2510.14979

来源:https://www.ithome.com/0/901/985.htm
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

中国学界对873家机构遭AI顶会“封杀”事件集体表态
科技数码
中国学界对873家机构遭AI顶会“封杀”事件集体表态

智东西作者|江宇编辑|漠影智东西3月26日报道,昨日,中国计算机学会(CCF)发布声明,强烈反对NeurIPS新增限制条款,并倡议中国学者暂停投稿与审稿。▲中国计算机学会发布声明强烈反对并发起抵制这

热心网友
03.26
广西智能制造升级:商汤大学X大晓机器人共建战略合作新路径
科技数码
广西智能制造升级:商汤大学X大晓机器人共建战略合作新路径

近日,商汤大装置联合大晓机器人与广西产业技术研究院达成战略合作,就AI基础设施建设、具身数据采集、世界模型研发、机器人应用场景拓展等领域达成深度合作,开启三方携手赋能具身智能产业发展的新篇章。此次战

热心网友
03.25
商汤小浣熊推出“龙虾”办公插件,抢占OpenClaw市场
科技数码
商汤小浣熊推出“龙虾”办公插件,抢占OpenClaw市场

新京报贝壳财经讯(记者张晓慧)随着AI智能体OpenClaw走红,互联网厂商寻求从各个方向切入这一赛道。3月11日,商汤科技旗下“办公小浣熊”推出可在OpenClaw上部署的办公Skills(功能插

热心网友
03.11
商汤多模态大模型:剑指世界级,一体化架构实现图像智能生成
AI
商汤多模态大模型:剑指世界级,一体化架构实现图像智能生成

智东西作者 陈骏达编辑 李水青智东西3月6日报道,今天,商汤科技发布最新技术博客——《NEO-unify:原生架构打造端到端多模态理解与生成统一模型》。NEO-unify是一个从底层统一多模

热心网友
03.06
商汤SenseCore通过工信部软件供应链安全能力评估优秀级认证
科技数码
商汤SenseCore通过工信部软件供应链安全能力评估优秀级认证

近期,商汤大装置SenseCore原生AI云平台通过工业和信息化部电子工业标准化研究院组织的软件供应链安全能力评估,获评优秀级,成为全国首批通过该项认证的企业。当前,软件供应链安全形势严峻复杂,攻击

热心网友
02.13

最新APP

恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26

热门推荐

微信文件助手网页版:轻量使用,便捷访问文件
电脑教程
微信文件助手网页版:轻量使用,便捷访问文件

微信文件助手网页版轻量使用入口地址是https: filehelper weixin qq com,支持多端同步、界面简洁、传输稳定且资源占用低。微信文件助手网页版轻量使用入口地

热心网友
03.29
Photoshop安装新字体完整指南:3分钟轻松导入
手机教程
Photoshop安装新字体完整指南:3分钟轻松导入

在使用adobe photoshop进行设计工作时,安装新字体能为作品增添丰富多样的风格和视觉效果。以下为您详细介绍安装新字体的具体步骤。首先,您需要获取新字体文件。字体文件通常以

热心网友
03.29
黄玉碎片光谱世界表合成图鉴:MC实用合成大全与分享
游戏攻略
黄玉碎片光谱世界表合成图鉴:MC实用合成大全与分享

我的世界里面有很多的mod,模组中所有内容的合成都是不一样的,今天给大家带来了游戏里面的光谱世界模组合成图鉴分享,还有小伙伴不清楚,那么下面就是具体的内容 我的世界光谱世界合成表大

热心网友
03.29
英伟达发布596.02专项驱动,修复《明日方舟:终末地》游戏卡顿
娱乐
英伟达发布596.02专项驱动,修复《明日方舟:终末地》游戏卡顿

IT之家 3 月 26 日消息,英伟达昨日(3 月 25 日)发布 GeForce 596 02 版本热修复显卡驱动,专门修复《明日方舟:终末地》游戏画面卡顿问题。IT之家注:在发布节奏方面,英伟达

热心网友
03.29
BOSS直聘官网登录入口:网页与App平台登录指南
电脑教程
BOSS直聘官网登录入口:网页与App平台登录指南

BOSS直聘网页版登录入口为https: www zhipin com ,支持直接输入网址、搜索引擎正式链接、地域分站及手机扫码登录四种方式。BOSS直聘网页版登录入口在哪里?这

热心网友
03.29