商汤科技携手南洋理工发布NEO架构:原生多模态模型新篇章
商汤科技与南洋理工大学S-Lab联合研发的多模态模型架构NEO正式亮相,并同步开源2B与9B两种参数规模的模型。这项突破性成果为多模态大模型领域带来全新范式,其核心架构通过底层创新实现了视觉与语言模态的深度融合,在数据效率、性能表现及部署成本等关键指标上达到行业领先水平。
传统多模态模型普遍采用"视觉编码器+投影器+语言模型"的模块化设计,这种基于大语言模型扩展的方案虽能处理图像输入,但本质上仍以语言为中心。商汤科技指出,此类架构存在三大缺陷:数据层面浅层融合导致学习效率低下,图像细节捕捉能力受限,复杂空间结构理解困难。例如在需要精准识别物体位置关系或动态场景的任务中,传统模型往往表现乏力。
NEO架构通过三项底层创新实现模态融合的质变。其独创的原生图块嵌入技术摒弃离散图像分词器,通过连续映射机制从像素级构建视觉表征,使模型能捕捉到比传统方法精细4倍的图像细节。在位置编码方面,原生三维旋转位置编码创新性地解耦时空频率分配,为视觉模态分配高频信号、语言模态分配低频信号,这种设计使模型天然具备处理视频流和跨帧信息的能力。
注意力机制层面,原生多头注意力突破传统框架,在统一架构中同时实现文本的自回归注意力与视觉的双向注意力。这种设计使模型在处理图文混合任务时,空间关联利用率提升37%,特别在需要理解物体遮挡关系或动态轨迹的场景中表现突出。配合Pre-Buffer&Post-LLM双阶段训练策略,模型在保持语言推理能力完整性的同时,视觉感知能力实现指数级增长。
实测数据显示,NEO架构展现出显著优势:在数据效率方面,仅需3.9亿图像文本样本即可达到顶尖视觉理解水平,数据需求量仅为同类模型的1/10;性能测试中,在MMMU、MMB等五大权威基准测试中均取得最优成绩;部署成本方面,0.6B-8B参数规模的模型在边缘设备上的推理速度提升2.3倍,特别适合移动端和物联网设备部署。商汤已开放基于NEO架构的模型下载,开发者可通过开源社区获取完整代码与训练框架。
热门专题
热门推荐
在追求极致效率的现代软件开发中,一款名为Cursor的AI代码编辑器正引领着开发范式的变革。它被定义为“面向未来的IDE”,其核心理念清晰而有力:将人工智能深度无缝地集成到编码工作流的每一个步骤,为开发者创造一种前所未有的“AI结对编程”体验。 Cursor sh应用场景 那么,这款AI驱动的编辑器
在众多AI图像生成工具中,WHEE凭借其精准的产品定位与持续的功能迭代,正成为越来越多设计师和内容创作者的首选工具。它专注于打造高品质的AI视觉素材生成器,核心使命就是帮助用户快速、高效地获得可直接使用的优质图片素材。 那么,这款AI绘图工具究竟有哪些核心优势?下面我们从其关键特性与功能设计进行深入
在AI绘画工具不断涌现的当下,一款名为NightCafe Creator的应用以其全面的AI艺术生成能力脱颖而出。它不仅是一个简单的图片处理工具,更是一个融合了多种前沿人工智能技术的创意平台,帮助用户轻松实现从构思到成品的艺术创作。 NightCafe Creator是什么? NightCafe C
近期加密货币市场受到宏观经济不确定性及流动性紧缩影响,比特币(BTC)、以太坊(ETH)以及多种山寨币出现明显下行走势,市场情绪趋于谨慎。 比特币近期走势分析 比特币的价格近期表现如何?简单来说,它跌破了几个市场公认的关键支撑位,而且伴随交易量的放大。这种放量下跌的信号,往往意味着多空分歧加剧。无论
蔡司宣布将于6月2日发布一款新镜头,并称其为镜头技术的重大突破,标志着全新纪元的开启。官方仅公布了产品剪影,但措辞暗示其可能带来根本性的技术升级,例如全新光学结构、先进镀膜或对焦系统改进。具体细节需待发布日揭晓。





