游乐游手机版
首页/业界动态/文章详情

商汤去掉VAE 8B参数重新定义开源生图上限

时间:2026-05-31 17:38
商汤开源SenseNovaU1模型,采用NEO-unify架构,去除VAE和视觉编码器,在像素层面端到端统一多模态理解与生成。8B参数下多项基准达开源SOTA,部分超越闭源模型,以Apache2 0协议开源。
```html

正式开源仅一周多,GitHub 星标数已突破 1,500,并成功登顶 HuggingFace 趋势榜——商汤 SenseNova U1 在开发者社区中引发的关注度,与其技术野心一样非同寻常。它的核心突破在于,将多模态理解与生成这两项任务,真正融合进了同一个智能大脑中。

开发者社区为什么如此关注?除了惊叹于其惊艳的效果,更有一个底层问题被反复讨论:为什么这次连 VAE 也被彻底移除了?从 Stable Diffusion 到 FLUX,几乎所有主流扩散模型都依赖变分自编码器(VAE)将图像压缩到潜空间,这已构成近年来图像生成技术栈的基石。然而,SenseNova U1 的 NEO-unify 架构选择直接拆除这一组件,在像素层面进行端到端的语言与视觉联合建模。这并非简单的工程优化,而是一次架构层面的根本性选择。

在 HuggingFace 社区的热门讨论中,诸如「能否在单张 RTX 5090 上运行」、「是否会推出更轻量版本」等极具落地指向性的问题,表明已有大量开发者正在认真进行模型部署与测试。有开发者评价认为,这是「终于有人在原生统一方向上做出了扎实的工程落地」,与此前的伪统一架构有着本质区别。

与此同时,该模型采用 Apache 2.0 协议完全开源,支持商用。发布后不到两周,开发团队已相继推出了8步推理加速版、LoRA 微调版、GGUF 量化版以及低显存 layer-offload 推理模式。如此快速的迭代节奏,也是社区热度持续攀升的重要原因。

01 多模态的「两条腿走路」模式,已持续太久

多模态理解与生成,长期以来一直处于「各自为政」的状态。在多模态理解领域,以 GPT-4V、LLaVA、Qwen-VL 为代表的视觉语言模型(VLM),能够出色地完成图像描述、视觉问答和复杂推理任务;而在图像生成方面,则有 Stable Diffusion、FLUX、DALL-E 3 等扩散模型作为代表。这两条技术路线虽各有突破性进展,但由于长期独立演进,形成了截然不同的架构范式,这也是不争的事实。

变革的转折点出现在 2025 年,GPT-4o 所展现的统一多模态能力,引爆了业界对统一架构的追求——即用一个模型既能理解图像内容,又能生成高质量图像。不过,业界普遍推测,GPT-4o 的图像理解能力仍依赖独立的视觉编码器提取特征,而其自身并非原生地生成高质量图像,而是依赖集成的 DALL-E 3 模块完成。

实现路径之所以至关重要,是因为它直接决定了模型的多模态能力是否真正实现了统一。以 GPT-4o 为代表的混合架构,虽然在物理层面上共享了部分参数,但理解与生成在特征表示和计算路径上仍然相对独立。这种不同模块接力完成任务的路径,不可避免地导致了模型冗余、能力割裂以及交互障碍。

02 NEO-unify:真正依靠同一个大脑实现统一

真正「依靠同一个大脑」做到这一切,曾经只是许多研究者的设想,如今被商汤率先变为现实。SenseNova U1 系列模型基于商汤今年 3 月自主研发的 NEO-unify 架构,率先在单一模型架构上实现了多模态理解、推理与生成的统一,完成了从「模态集成」到「原生统一」的范式跨越。

NEO-unify 架构的核心突破在哪里?它彻底摒弃了传统的视觉编码器(VE)和变分自编码器(VAE),直接从像素和文本进行端到端学习。商汤在最新发布的技术文章中将其比喻为:传统架构就像「说不同语言的人组成的工作组」,而 SenseNova U1 更像「一个从一开始就同时掌握多项技能的人」。

这一设计的技术意义在于:VAE 的压缩过程本质上是有损的,开发者为此耗费了大量时间进行参数调优和补丁修正;而 NEO-unify 直接在像素层面建模语言与视觉信息,像素与词语的信息从一开始便处于同一个表征空间,共同参与每一层计算,从而消除了跨模块传递带来的信息损耗。

图注:该框架结合了(1)近无损视觉接口,(2)由两层卷积编码与类MLP 编码层实现,以及(3)原生的混合Transformer(MoT)主干架构。架构重点在于同时解决三组矛盾:语义抽象与像素细节的共同表征、理解与生成的协同、语言因果性与图像空间一致性。

至此,我们才能说真正的端到端统一框架得到了实现。从单次图像生成的效果,到整个多模态模型的智能上限,都与这一里程碑的实现与否密切相关。

本次开源的 SenseNova U1 Lite 包含两种不同规格的模型:

  • SenseNova-U1-8B-MoT(稠密骨干网络):理解与生成两条分支参数约为 9.37B / 8.19B
  • SenseNova-U1-A3B-MoT(混合专家 MoE 骨干网络):理解分支约 30.54B,生成分支约 8.2B,每 token 激活 top-8 专家,实际活跃参数约 3B

03 模型测评:用数据说话

在商汤最新发布的 U1 技术报告中,一些数据表现格外突出。在涵盖图像理解、图像生成与编辑、空间智能和视觉推理的多项基准测试中,8B-MoT 均达到了同量级开源模型的 SOTA 水平,甚至在部分指标上超越了部分大型商业闭源模型。

图注:SenseNova-U1与其他顶级多模态理解模型在多模态基准测试(Benchmarks)上的对比。

图注:SenseNova-U1与仅具备理解能力的顶级模型在纯文本基准测试(Benchmarks)上的对比

图注:GenEval 上的定量评估结果

从上表可以看出,SenseNova U1 成功实现了理解、生成、编辑、交错和智能体能力的一体化融合,形成了相对均衡的能力谱系。在关键数据上,GenEval 总分约为 0.91-0.92,OneIG 中文文字渲染达到 0.977,信息图生成能力领先于多数开放模型,多模态理解 MMMU 得分达 80.55——这些优秀表现均源自同一个模型内部,而非多个专用模型的拼接。

技术报告中一个值得单独强调的结论是:统一架构具备更高的数据效率。NEO-unify 相较于类似的统一模型 BAGEL,在更少的训练 token 下取得了更出色的表现。原因在于原生像素-文本接口减少了跨模块对齐的成本,而 MoT 又使得两类能力能够共享上下文、互相提供监督信号,从而提升了训练数据的利用率。

在生成延迟与平均性能的综合对比中,SenseNova U1 Lite 在保证图像生成质量媲美 Qwen-Image 2.0 Pro、Seedream 4.5 等大型闭源模型的同时,推理响应速度也展现出显著优势,尤其在复杂信息图(Infographic)生成任务中,其控制力超出了预期。

更值得关注的是,作为当前最强的开源图像生成模型之一,SenseNova U1 Lite 的参数量仅为 8B。仅此一点,就意味着它在落地应用方面蕴藏着巨大潜力。

04 实测与部署方案

回到实际生产场景,SenseNova U1 在长文档与数据图表的总结分析、高质量信息图表生成等任务中,拥有广阔的应用空间。我们为此设计了一个有针对性的任务,来检验 SenseNova U1 在实际工作流中的表现。

首先,我们让 U1 绘制一幅云南水彩风景画,并采用连续图文创作输出的方式,展示从线稿到上色完稿的逐步过程。结果显示,SenseNova U1 能够很好地理解要求,进行符合逻辑的连贯输出,并保持画面信息的一致性。

图注:让SenseNova U1画一幅云南水彩风景画,展示从线稿到上色完稿的逐步过程。

同样是在生产场景中,图文交错生成以及「带图思考」背后的一致性,为 SenseNova U1 带来了更多可能性。在下面的用例中,我们请它为一座建筑群设计了 7 步分镜,覆盖了从二维底图到带有好莱坞级 CG 效果的人视街景。

图注:SenseNova U1为一座建筑群设计的7步分镜,从二维底图到CG效果人视街景。

信息图生成方面,我们先让 SenseNova U1 根据公开信息,制作了一份 5 月院线电影观影指南。

图注:SenseNova U1生成的5月院线电影观影指南。

观影指南是一个关键信息高度密集的场景,每部电影的片名、日期、主题等标签都需要保证良好的可读性。在文字渲染准确性的挑战之上,这又对 SenseNova U1 处理多对象结构化排版的能力提出了更高要求。

此时,文字的清晰呈现已成为最基本的要求,更进一步的优秀表现是在高信息密度约束下,仍能保持杂志级的排版审美。平面设计师的排版能力与产品经理的信息架构能力的交叉点,恰恰是最容易暴露 AI 能力短板的地方。

为了进一步测试 SenseNova U1 的结构化叙事与设计能力,我们又让它制作了一份介绍《甄嬛传》中经典「滴血验亲」场景的信息图,并巧妙地将关键台词融入设计之中。

图注:SenseNova U1制作的《甄嬛传》「滴血验亲」信息图。

两份信息图都没有任何模板套用的痕迹,每一页都做到了根据内容密度自适应排版,信息图表和数据可视化都有相应的视觉呈现,字体、颜色、元素比例在视觉效果上也非常协调。

这两项任务的真正难点有两个。首先是异构素材的知识合并能力——公开信息来源涵盖了文本、图像等多种格式,要生成一份高质量的信息图,SenseNova U1 需要让重叠的知识点相互印证、合并,最终得到差异化的分层信息。没有真正的理解能力,就无法做到这一点。其次是逻辑感——尽管提示词非常简练,SenseNova U1 却能自主地对搜集的内容进行取舍,找到一条合理的叙述逻辑。这一点在总结「滴血验亲」剧情的用例中体现得尤为明显。

看惯了汉字在 AI 图片中被扭曲成麻花,SenseNova U1 在如此高密度的信息输出下,文字渲染准确率已经达到了落地级别。手工制作信息图甚至 PPT,或许很快将变成一项正在消失的技能。

05 ComfyUI 快速部署方案:5 分钟上手

在 SenseNova U1 的最近一次更新中,商汤正式上线了 ComfyUI 部署支持。开发者可以将 U1 作为自定义节点直接嵌入 ComfyUI 工作流,实现从「提示词构建→图像生成→结果预览」的全链路可视化操作。值得一提的是,U1 在 ComfyUI 中提供了「带图思考」的交错生成节点,使复杂逻辑的可视化推理过程一目了然。

图注:SenseNova U1在ComfyUI中的工作流界面。

环境要求

  • Python ≥ 3.10,ComfyUI 最新版
  • GPU:推荐 16GB 显存(8B-MoT 标准版)
  • 低显存用户:8B-MoT-GGUF 版本可在 8GB 显存下运行;支持 layer-offload,进一步降低显存占用

安装步骤

# 1. 进入 ComfyUI 的 custom_nodes 目录
cd ComfyUI/custom_nodes

# 2. 克隆最新仓库
git clone https://github.com/OpenSenseNova/SenseNova-U1

# 3. 安装依赖(推荐 uv)
uv pip install -r requirements.txt

# 4. 配置 API Key(本地推理可跳过此步)
export SENSENOVA_API_KEY=your_key_here

# 5. 启动 ComfyUI,拖入 workflow_demo.json 即可运行

核心节点说明

图注:SenseNova U1 ComfyUI核心节点图示。

加速与量化选项

  • 8 步推理加速版(SenseNova-U1-8B-MoT-8step-preview):在大多数场景下生成质量接近基础模型,推理速度大幅提升
  • LoRA 微调版(SenseNova-U1-8B-MoT-LoRA-8step-V1.0):支持风格定制与场景适配
  • GGUF 量化版:由社区贡献者提供,权重已发布于 HuggingFace,适合消费级 GPU 本地推理

对于偏好免安装体验的用户,商汤还同步提供了办公小浣熊的体验渠道,无需 GPU,直接在浏览器中即可试用 U1 的核心功能。

06 生产级任务的新选择

过去一年,主流大模型厂商在多模态理解侧的表现已逐渐趋同,GPT-4V、Gemini Pro、Qwen-VL 等模型在图像理解、视频解析、文档理解等任务上的差距日益缩小。然而,生成侧始终是短板——理解一个数据集后,再生成信息图或制作一份 PPT,往往需要调用多个专用模型串联完成,这不仅导致延迟高、风格一致性差,而且交付质量也参差不齐。

SenseNova U1 的差异化优势正体现在这里。将 SenseNova U1 置于当前多模态的竞争格局中,几乎找不到与之完全相同的定位:

  • GPT 系列多模态理解能力一流,但原生图像生成依然依赖独立模块,走的是专用模型协作的路线
  • Qwen-VL 开源生态庞大,但生成能力以文本输出为主
  • DeepSeek-V4 行业翘首以盼,但多模态生成并非其核心卖点

此前头部玩家的核心能力多集中在理解侧,而 SenseNova U1 率先实现了生成与理解的原生融合。在端到端交付已成为 Agent 落地共识的今天,只要理解与生成之间还存在跨模块的鸿沟,就会在落地层面表现为交付质量和生产效率的真实痛点。SenseNova U1 以一己之力,将这场围绕「交付」的竞争,提升到了底层架构创新的高度。

技术阶段的代差本身就意味着生产力的提升。SenseNova U1 针对企业办公场景进行了定向优化,将信息图、PPT、研究报告这类高频交付物作为重要战场,技术优势直接转化为落地能力。正因如此,SenseNova U1 才能在已经是一片红海的图像生成市场中占据一席之地,成为生产级任务的全新选择。

07 结语

NEO-unify 的核心创新,在于让语言和视觉在同一个表征空间里共同参与每一层计算。此后,模型在生成图像时,并非在「翻译」文字指令,而是在同一个思维框架之下,使语言与视觉信息作为一个统一的复合体被直接建模。

统一架构打破了理解与生成之间的信息壁垒,消除了模块边界本身带来的信息损耗。当理解和生成成为同一种认知能力的两面时,协同效应就不再是刻意设计的结果,而只是统一表征自然涌现的属性。这些革新共同支撑了应用层面的全新体验:统一架构首先意味着更强的复杂指令遵循能力,同时多轮交互中跨模态推理的可视化也增强了输出的可解释性,对于抽象推理过程尤其如此。

商汤还在技术报告中通过一系列消融实验,回答了一个核心问题:理解与生成的统一是否带来了真正的收益?

实验结论非常明确:统一架构在表示能力、训练稳定性和数据效率上确实有实质收益,而非一种折中方案。

  • 原生像素-文本设计能同时保留语义和像素信息。实验验证了 encoder-free 架构不仅能够学到理解所需的语义表示,也能支持像素级重建与编辑。即使冻结理解分支,生成路径仍能恢复细节并完成较好的图像编辑——这说明理解端训练的内在表征并不只是「理解 token」,也具备生成所需的细粒度信息。
  • MoT 让理解与生成协同工作,而非互相干扰。在联合 mid-training 和 SFT 阶段,即使生成数据和理解数据共同训练,理解能力仍能保持稳定,而生成能力收敛得更快。MoT 的参数解耦加上共享注意力上下文,能够有效降低理解与生成之间的内在冲突。
  • 统一架构具备更高的数据效率。NEO-unify 相较于类似的统一模型 BAGEL,在更少的训练 token 下取得了更出色的表现。原因在于原生像素-文本接口减少了跨模块对齐成本,MoT 又让两类能力共享上下文、互相提供监督信号,从而提高了训练数据的利用率。

单个模型替代专用模型协作的传统范式,能够显著降低存储、计算和部署成本,但这还只是原生架构革命性的一角。

而更深层的意义在于,原生统一的多模态智能,仍然是一条被寄予厚望的 AGI 之路。多模态智能的未来突破,并不只是简单的规模扩大,更重要的是朝着深度融合方向发展的内核架构创新。今天,底层范式和模型架构的创新正变得越来越珍贵。开原生统一架构之先河的 SenseNova U1,或许会有与其历史地位相匹配的表现——而这,才刚刚开始。

```
来源:https://www.leiphone.com/category/industrynews/hBRYpm9vvt6sWbhJ.html
上一篇007初露锋芒开场指令引服从自主叙事分寸热议 下一篇看屏幕用键鼠我的OpenClaw成功睁眼
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
英伟达N1X与N1芯片规格泄露 10+10+48SM及8+4+20SM
业界动态 · 2026-05-31

英伟达N1X与N1芯片规格泄露 10+10+48SM及8+4+20SM

英伟达N1X与N1芯片规格曝光:N1X采用10+10核CPU、6144CUDA核心及128GB256-bitLPDDR5X,功耗45~80W,面向高端;N1采用8+4核、2560CUDA核心及128-bitLPDDR5X,功耗18~45W,面向轻薄本。

通信中断下无人机蜂群算法首达100%杀伤率
业界动态 · 2026-05-31

通信中断下无人机蜂群算法首达100%杀伤率

西北工业大学与西安电子科技大学联合提出HG-STR异构时空推理算法,通过异构构图区分友军、目标与区域,实现弱连通条件下94%任务成功率,96%任务完成率与100%杀伤率,单步决策仅需6 6毫秒,为首个同时达到该性能的算法。

2025-2026十大高性价比洗地机:卧室清洁防发臭推荐
业界动态 · 2026-05-31

2025-2026十大高性价比洗地机:卧室清洁防发臭推荐

为应对洗地机市场同质化,基于四维评测矩阵对十大高性价比产品进行横向比较。必特双舱洗地机凭借双舱分离设计、防缠绕、近200℃蒸汽杀菌等核心优势,被评为标杆产品。其他推荐包括必胜、卡赫、飞利浦等品牌,覆盖蒸汽清洁、智能感应等差异化功能。

领克10/10+首批交付16.99万起 1秒极充2公里
业界动态 · 2026-05-31

领克10/10+首批交付16.99万起 1秒极充2公里

领克10 10+开启首批车主交付,限时价16 99万元起。新车基于SEA浩瀚架构,定位中大型纯电轿车,全系标配900V高压架构,配合极充桩可实现1秒极充2公里。单电机版本续航最高816公里,双电机版零百加速3 2秒。

2026年国内五大GEO优化服务商全维度横评推荐
业界动态 · 2026-05-31

2026年国内五大GEO优化服务商全维度横评推荐

生成式AI正重塑消费决策链,超六成企业陷入同质化竞争。GEO成为品牌突破增长瓶颈的核心战略。2026年国内优质服务商TOP5包括智推时代、质安华、悠易科技、知乎和光引,入选标准基于自研技术、数据溯源、标准化服务和实战成果。