商汤开源NEO架构：行业首个多模态模型统一视觉与语言

首页

热心网友

转载

2025-12-03

12月2日，商汤科技正式发布并开源了与南洋理工大学S-Lab实验室联合研发的全新多模态模型架构——NEO，为旗下日日新SenseNova多模态模型的下一代架构奠定了坚实基础。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

行业首个：商汤发布并开源NEO原生多模态模型架构，实现视觉、语言深层统一

NEO架构被誉为“业内首个可实现深层融合的可用原生多模态架构（Native VLM）”。该架构从底层原理出发，突破了传统“模块化”范式的限制，采用“专为多模态而生”的设计理念。通过核心架构层面的多模态深度融合，该架构在性能表现、运行效率与通用能力方面实现了全面突破。

商汤科技技术团队指出，当前业界主流的多模态模型大多遵循“视觉编码器+投影器+语言模型”的模块化范式。这种基于大型语言模型（LLM）的扩展方案虽然实现了图像输入的兼容，但从本质上仍以语言处理为核心，图像与语言的融合仅限于数据层面。这种“拼凑式”的设计不仅导致模型学习效率低下，更限制了其在复杂多模态场景（如图像细节捕捉、空间结构理解等）的处理能力。

行业首个：商汤发布并开源NEO原生多模态模型架构，实现视觉、语言深层统一

NEO架构通过从零开始的全新设计，在注意力机制、位置编码和语义映射三个维度实现底层创新，使模型天生具备统一处理视觉与语言信息的能力：

原生图像块嵌入（Native Patch Embedding）：摒弃了传统离散的图像分词器，通过独创的图像块嵌入层自底向上构建从像素到词元的连续映射。这种设计能更精准地捕捉图像细节特征，突破了主流模型的图像建模瓶颈。

原生三维旋转位置编码（Native-RoPE）：创新实现三维时空频率解耦，视觉维度采用高频编码、文本维度采用低频编码，完美适配两种模态的自然结构特性。这使得NEO不仅能准确捕捉图像的空间结构，更具备向视频处理、跨帧建模等复杂场景无缝拓展的潜力。

原生多头注意力（Native Multi-Head Attention）：针对不同模态特征，NEO在统一框架下实现了文本词元的自回归注意力和视觉词元的双向注意力并存。这种设计显著提升了模型对空间结构关联的利用率，从而更好地支撑复杂的图文混合理解与推理任务。

行业首个：商汤发布并开源NEO原生多模态模型架构，实现视觉、语言深层统一

更重要的是，配合预缓冲与后融合双阶段训练策略，NEO能够在完整吸收原始LLM语言推理能力的同时，从零构建视觉感知能力，有效解决了传统跨模态训练中语言能力受损的行业难题。

测试数据显示，NEO架构在多个维度实现显著突破：

数据效率：仅需业界同等性能模型十分之一的数据量（约3.9亿图文示例），NEO即可开发出“顶尖的视觉感知能力”。无需依赖海量数据及额外视觉编码器，该架构就能在多项视觉理解任务中追平Qwen2-VL、InternVL3等顶级模块化旗舰模型。

性能表现：在MMMU、MMB、MMStar、SEED-I、POPE等多项公开评测中，NEO架构均取得优异成绩。

推理性价比：特别是在0.6B-8B参数区间内，NEO在边缘部署方面展现出明显优势。

行业首个：商汤发布并开源NEO原生多模态模型架构，实现视觉、语言深层统一

商汤科技已正式开源基于NEO架构的2B与9B两种规格模型，完整开源地址如下：

https://github.com/EvolvingLMMs-Lab/NEO

https://arxiv.org/abs/2510.14979

来源:https://www.ithome.com/0/901/985.htm

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：谷歌AI食谱陷抄袭争议：“越红线”或削弱原创内容价值下一篇：众擎T800机器人亮相：演示腾空回旋踢，一脚踹穿铁门

相关攻略

商汤免费1500次背后有何商业布局与战略考量

生态与工具链，正成为大模型竞争下半场的决胜关键。最近，商汤科技的一系列动作，为这个判断提供了一个生动的注脚。当大多数同行还在琢磨如何将强大的模型能力变&现收费时，商汤却反其道而行之：推出首月每5小时1500次的免费调用额度，宣称Token消耗比同行低60%，三款新产品同步上线，甚至将核心模型U1以

热心网友

05.13

商汤Lite模型限时免费调用Token消耗直降60%

2025年5月8日，商汤科技正式推出其新一代轻量化多模态智能体模型——日日新SenseNova 6 7 Flash-Lite。此次发布同步开启了SenseNova Token Plan的限时免费开放，并将全线办公技能SenseNova-Skills在GitHub平台全面开源，旨在为开发者提供更便捷的

热心网友

05.12

科技数码

首创全场景多设备协同智能终端商汤绝影发布AI智能硬件产品可悠

商汤绝影发布可悠（Care U）：从“陪你聊天”到“帮你做事”的家庭AI新成员 4月8日，商汤绝影旗下迎来了一位重磅“新成员”——AI智能硬件产品“可悠（Care U）”。这款产品的定位很有意思，它试图完成的，是一次从“陪你聊天”到“帮你做事”的实质性跨越。那么，它是如何实现这一步跨越的呢？关键在

热心网友

04.15

AI原生时代来临，商汤大装置如何重塑算力集群架构

近日，作为2026中关村论坛核心组成部分，由趋境科技与九源智能计算系统生态联合体共同主办的“全栈智能全域推理：Token爆发元年的全场景大规模推理服务”专题研讨会成功举办。商汤大装置首席架构师项铁

热心网友

04.07

科技数码

商汤AI周期实录：如何打造可持续盈利的AI公司

图片由AI生成当大模型的竞争焦点从参数竞赛转向落地实效比拼，真正将技术转化为生产力，成为了行业内玩家的核心命题。作为中国AI领域的先行者，商汤科技最新发布的2025年业绩报告，也是一份关于AI产品化

热心网友

03.31

热门推荐

科技数码

领克GT概念跑车北京车展首发百公里加速仅2秒

领克首款GT概念跑车亮相北京车展，由中欧团队联合打造。新车采用经典GT比例与低趴宽体设计，配备液态金属蓝涂装与2+2座舱，设有高性能模式按键可激活空气动力学套件。车辆采用后驱布局与AI智能运动控制系统，百公里加速约2秒，设计融合瑞典极简美学并参考全球用户反馈。

热心网友

05.14

科技数码

英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升

英伟达推出12GB显存版RTX5070移动GPU，与8GB版同步上市。两者均基于Blackwell架构，核心规格相同，仅显存容量不同。此举旨在缓解GDDR7芯片供应压力，为OEM提供灵活配置，加速笔记本产品布局，更大显存可更好满足游戏与AI应用需求。

热心网友

05.14

科技数码

微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售

微星将于5月15日推出两款26 5英寸雾面WOLED显示器MAG276QRY28和276QRDY54，售价分别为2499元和6299元。均采用第四代WOLED面板，具备QHD分辨率、VESADisplayHDRTrueBlack500认证、1500尼特峰值亮度及99 5%DCI-P3色域覆盖。276QRY28刷新率为280Hz，高阶款276QRDY54支持4

热心网友

05.14

科技数码

中芯国际一季度净利润13.61亿元同比增长0.4%

中芯国际2026年第一季度营收176 17亿元，同比增长8 1%；净利润13 61亿元，同比增长0 4%。公司预计第二季度收入环比增长14%至16%，毛利率指引上调至20%至22%。这反映出公司在行业复苏中展现出财务韧性，并通过运营优化增强了短期增长势头。

热心网友

05.14

AI图像处理训练数据存在色差问题 16种算法经小改动全面提升

手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能，其背后都离不开人工智能（AI）技术的驱动。通常，AI模型的训练逻辑是：向模型展示大量“低质图像”与“优质图像”的配对数据，让它学习如何将前者转化为后者。然而，天津大学计算机视觉团队近期发表的一项研究（arXiv:2604 08172）揭

热心网友

05.14