首页 游戏 软件 资讯 排行榜 专题
首页
AI
商汤多模态大模型:剑指世界级,一体化架构实现图像智能生成

商汤多模态大模型:剑指世界级,一体化架构实现图像智能生成

热心网友
48
转载
2026-03-06


智东西
作者 陈骏达
编辑 李水青

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

智东西3月6日报道,今天,商汤科技发布最新技术博客——《NEO-unify:原生架构打造端到端多模态理解与生成统一模型》。NEO-unify是一个从底层统一多模态理解与生成的端到端原生架构,在保留抽象语义与细粒度表征的同时,展现更高数据训练效率。

当前,多模态模型普遍采用“视觉编码器(VE)用于理解,变分自编码器(VAE)用于生成”的组合式设计。这套范式虽行之有效,却也内在割裂了感知与创造,常面临模块协同与效率权衡的挑战。

能否更进一步,让AI像人一样,直接从最原始的像素和文字中,统一地进行学习、理解与生成?这正是NEO-unify尝试回答的根本问题。它摒弃了传统的VE与VAE,首次构建了一个真正的端到端原生统一模型,在同一个架构内直接处理像素与文本,并在此基础上协同完成理解与生成任务。

初步研究成果显示,该设计在保持强大语义理解与细节恢复能力的同时,显著提升了训练与计算效率。

博客地址(英文):

https://huggingface.co/blog/sensenova/neo-unify

博客地址(中文):

https://www.sensetime.com/cn/news-detail/51170543?categoryId=72

一、不需要VE也不需要VAE,模型表现打平Qwen3-VL

长期以来,多模态研究已形成一种默认范式:视觉编码器(Vision Encoder, VE)负责感知与理解,而变分自编码器(Variational Autoencoder, VAE)则用于内容生成。近期的一些工作尝试构建共享编码器,但这种折衷往往引入新的结构性设计权衡。

由此回到第一性原理:构建一体化模型直接处理原生输入,即像素本身与文字本身。商汤科技联合南洋理工大学,提出一种全新的架构范式:NEO-unify(preview),一个原生、统一、端到端的多模态模型架构。它不仅越过了当前视觉表征的争论,也摆脱了预训练先验和规模定律瓶颈的限制。最关键的是:不需要VE,也不需要VAE。

NEO-unify则是一个端到端统一框架,能够直接从近乎无损的信息输入中学习,并由模型自身塑造内部表征空间。

它首先引入近似无损的视觉接口,用于统一图像的输入与输出表示;其次,采用原生混合Transformer(Mixture-of-Transformer,MoT)架构,使理解与生成能够在同一体系中协同进行。

最终,通过统一学习框架实现跨模态训练:文本采用自回归交叉熵目标,视觉通过像素流匹配进行优化。


实验结果显示,采用NEO-unify架构的模型在多项基准测试上的表现超过同尺寸的前沿视觉语言模型,排进了同尺寸模型的第一梯队,基本与Qwen3-VL模型打了平手。


二、无编码器同时保留抽象语义与细粒度表征,展现更高数据训练效率

那么,这一模型背后究竟有哪些关键技术发现呢?

商汤此前的工作NEO(Diao et al., ICLR 2026)表明,原生端到端模型同样能够学习到丰富的语义表征。在此基础上,商汤进一步观察到一个有趣的现象:即使在冻结理解分支的情况下,独立的生成分支仍然能够从表示中抽取并恢复细粒度的视觉细节。

基于这一发现,商汤训练了NEO-unify(2B)。在初步9万步预训练后,模型在MS COCO 2017上取得31.56 PSNR和0.85 SSIM,而Flux VAE的对应指标为32.65和0.91。这一结果表明,即使不依赖预训练VE或VAE,近似无损的原生输入仍能够同时支持高质量的语义理解与像素级细节保真。

据此,商汤进一步开展探索:NEO-unify将所有全模态条件信息统一输入到理解分支,而生成分支仅负责生成新的图像。

在冻结理解分支的情况下,NEO-unify(2B)仍展现出较强的图像编辑能力,同时显著减少了输入图像token的数量。在使用开源生成与图像编辑数据集并进行初步6万步混合训练后,模型在ImgEdit基准上取得3.32的成绩,且理解分支在整个训练过程中保持冻结。

借助预训练的理解分支与生成分支,NEO-unify使用相同的中期训练(MT)与监督微调(SFT)数据进行联合训练。即使在较低的数据比例和损失权重下,理解能力依然保持稳定,而生成能力则收敛很快。二者在MoT主干中协同提升,整体冲突极小。


此外,商汤首先进行web-scale预训练,随后在多样且高质量的数据语料上依次进行中期训练(MT)和监督微调(SFT)。与7BBagel模型相比,NEO-unify展现出更高的数据训练效率,在使用更少训练token的情况下取得了更优的性能。


结语:多模态理解与生成一体化或成世界模型基础

NEO-unify团队认为,随着多模态理解生成一体化的模型出现,模型不再在模态之间进行转换,而是能够原生地跨模态思考。多模态AI不再只是连接不同系统,而是构建一个从未割裂的统一智能体,并让所需能力从其内部自然涌现。

理解生成一体化是AI大模型领域的前沿方向之一,被认为是更接近人类智能的一种模型形式。目前,业界已经基本完成文字理解生成一体化模型的探索,而多模态理解生成一体化模型,则有望成为全模态推理、视觉推理、空间智能乃至世界模型的重要基础。


来源:https://www.163.com/dy/article/KNC5CCSK051180F7.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

机器人舞姿爆红背后:具身智能行业“卡脖子”难题,终于有了新解法
AI
机器人舞姿爆红背后:具身智能行业“卡脖子”难题,终于有了新解法

头图由智象未来AI大模型生成智东西作者 王涵编辑 漠影在演唱会、各大晚会的舞台上,机器人伴舞团以整齐划一、精准卡点的舞姿惊艳全场。这种整齐划一不仅是硬件的胜利,更是“训练有素”的结果。具身智

热心网友
04.07
最小仅2B!谷歌最强开源模型登场,免费商用,手机就能跑
AI
最小仅2B!谷歌最强开源模型登场,免费商用,手机就能跑

智东西编译 陈佳编辑 程茜智东西4月3日消息,今日谷歌DeepMind开源发布Gemma 4系列模型,根据最新博客,这是谷歌迄今为止最智能的开放模型,专为高级推理和智能体工作流而设计,实现了单位参数

热心网友
04.07
日均 120 万亿 Token,火山引擎两年前的赌注开始兑现
AI
日均 120 万亿 Token,火山引擎两年前的赌注开始兑现

带着 Seedance 2 0 和 ArkClaw 两件新武器,火山引擎开始席卷 MaaS 市场。作者|郑玄两年前,火山引擎说要 All in Token 的时候,很多人觉得这是一句正确但空洞的口号

热心网友
04.07
AI看图能力真伪探秘:它是否真是编出来的?
科技数码
AI看图能力真伪探秘:它是否真是编出来的?

一个学生忽视了一行代码,结果发现了一件很不对劲的事:在一个多模态医学AI项目中,这行代码原本负责让模型读取图像数据。但因为这次疏忽,模型实际上完全没有看到任何图片。按理说系统应该报错,或者至少拒绝回

热心网友
04.01
中信证券:关注大模型迭代带来的模型原厂、应用与基础设施机遇
科技数码
中信证券:关注大模型迭代带来的模型原厂、应用与基础设施机遇

智通财经APP获悉,中信证券发布研报称,2026年以来,国产大模型厂商聚焦Agent及代码能力升级,竞相发布新模型。即将发布的DeepSeek下一代新模型有望延续高性价比开源模型路线,在能力上实现更

热心网友
04.01

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

析稿 提供高质量AI写作服务,助力学生高效完成各类学术论文,降低查重率
AI
析稿 提供高质量AI写作服务,助力学生高效完成各类学术论文,降低查重率

析稿产品介绍 在学术写作这个领域,效率和质量常常难以兼得。今天要聊的这款工具——析稿,正是试图破解这一难题的智能方案。 析稿网站介绍 简单来说,析稿是一个聚焦于学术写作与作业辅导的AI驱动平台。它的核心目标很明确:帮助用户,尤其是学生和研究者,在保证原创性的前提下,大幅提升写作效率,同时把查重率稳稳

热心网友
04.18
ARCRaiders收割机事件是什么-ARCRaiders收割机事件介绍
游戏攻略
ARCRaiders收割机事件是什么-ARCRaiders收割机事件介绍

在Arc Raiders中,收割机事件是一场不容错过的硬核挑战 首先需要明确的是:收割机事件并非随时都能遭遇的常规战斗,它更像是一场精心设计的“精英遭遇战”,拥有独特的触发机制与前置条件。通常,当游戏进程推进到特定阶段,在部分高危区域你可能会察觉到异常征兆——或许是远处传来的低沉机械轰鸣,或者是地面

热心网友
04.18
GPTOCR
AI
GPTOCR

GPTOCR是什么 说到从PDF或图片里“捞”数据,很多人可能都经历过格式混乱、需要反复调整的麻烦。现在,有一款工具试图用更聪明的方式解决这个问题,它就是GPTOCR。简单来说,这是一个利用生成式AI模型力量的工具,专门负责把PDF和图像文件里的文字内容,不仅提取出来,还能自动整理成格式完好的JSO

热心网友
04.18
消防安全标语大全精选
职业与学业
消防安全标语大全精选

消防安全标语大全:让安全警句,成为生命的护身符 标语,不仅是墙上的装饰,更是无声的警示与关怀。一句精炼有力的消防安全口号,能在关键时刻传递核心价值,潜移默化地塑造安全行为习惯。在消防领域,一条好标语就是一次及时的提醒、一份深切的关怀,甚至是一道守护生命的坚实屏障。本文系统梳理了涵盖校园、家庭、公共场

热心网友
04.18
《王者荣耀世界》寻路攻略
游戏攻略
《王者荣耀世界》寻路攻略

《王者荣耀世界》寻路攻略 在《王者荣耀世界》中执行任务时,无论是主线还是支线,游戏系统都会清晰地标注出目标坐标。玩家只需打开大地图,即可直接查看任务点的具体位置。一个高效的技巧是:先在地图上锁定目标,并快速记住其大致方位。然而,仅凭方向感在实际跑图中往往不够,玩家很容易在复杂地形中偏离预定路线。 此

热心网友
04.18