港中大与字节提出DreamOmni3：多模态生成编辑听懂“涂鸦+图文”输入

首页

热心网友

转载

2026-02-10

由港中文与字节跳动联合推出的 DreamOmni3 惊艳亮相。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

在人工智能飞速发展的今天，多模态生成与编辑领域成绩斐然，统一生成与编辑模型凭借文本指令就能生成精彩内容，展现出强大性能。然而，语言在精准定位编辑区域、捕捉视觉细节方面存在天然短板，难以满足创作者日益精细的需求。在此背景下，港中文与字节联手推出的 DreamOmni3 惊艳亮相。它创新性地解锁了“涂鸦 + 图文”联合输入模式，直面数据创建与框架设计难题，为多模态生成与编辑带来了全新思路，有望开启这一领域更为精彩的篇章。

介绍

近期，统一生成与编辑模型凭借文本指令展现出卓越性能，但语言难以精准定位编辑区域与捕捉视觉细节。为此，研究提出涂鸦式编辑与生成任务，借助图形用户界面融合文本、图像与自由涂鸦，实现更灵活创作，并推出 DreamOmni3 应对数据创建与框架设计两大挑战。其数据合成管道涵盖涂鸦编辑与生成，定义多项细分任务，基于 DreamOmni2 数据集构建训练数据。框架设计上，摒弃易受多涂鸦、图像与指令影响的二元掩码，采用联合输入方案，将原始与涂鸦图像输入模型，通过颜色区分区域、统一编码定位，实现精准编辑。实验表明 DreamOmni3 表现出色，模型与代码将开源。

方法概述

DreamOmni3的训练数据构建及框架概述。DreamOmni3训练数据构建及框架概述：

(a) 论文创建基于涂鸦的编辑训练数据。对于涂鸦和多模态指令式编辑，使用Referseg定位编辑对象，并将相应的涂鸦粘贴到源图像和参考图像上，从而创建训练对。对于涂鸦和指令式编辑，省略参考图像。对于涂鸦式编辑，我们使用专用模型将编辑对象转换为抽象草图，并将其粘贴回源图像。对于图像融合，从参考图像中裁剪对象，并将其粘贴到源图像的相应位置，从而构建训练对。

(b) 基于涂鸦的生成训练数据创建方式与编辑类似，只是源图像被替换为空白画布。

实验结果

来源:https://www.51cto.com/article/836222.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：苹果联合人大发布VSSFlow模型：无声视频AI生成音效与配音下一篇：PickStyle视频风格适配器：用上下文迁移完成视频风格转换

相关攻略

北大腾讯团队优化一行代码提升AI图像生成效果20%

近期，一项来自北京大学与腾讯混元实验室的联合研究在计算机视觉与AI图像生成领域引发了广泛关注。该团队仅通过修改一行核心代码，便显著提升了生成式模型的性能，在多个基准测试中实现了超过20%的效果增益。这项标志性成果已于2026年1月正式公开，论文编号为arXiv:2601 17124，为提升AI图像生

热心网友

05.12

业界动态

Luma AI发布Uni 1.1新一代图像生成模型详解

在AI图像生成技术飞速发展的今天，模型的核心价值正从基础的“绘画”能力，转向更深层次的“理解业务需求”。近期，一款名为Uni-1 1的新模型异军突起，凭借其创新的“一体化”设计理念，在全球权威的Arena ai图像生成模型盲测排行榜中，一举跃升至全球第三。令人瞩目的是，其背后的核心研发团队规模不足1

热心网友

05.12

业界动态

图像生成与大语言模型的关系

图像生成与大语言模型：深度学习的双生花从数据学习到生成创新说起AI领域的两个明星——图像生成和大语言模型，它们之间到底有什么联系呢？乍一看，一个是处理像素的艺术“画家”，一个是驾驭文字的思想“作家”，但往深处看，你会发现它们其实是同根同源。没错，它们都建立在深度学习这片肥沃的技术土壤之上。首先

热心网友

04.23

一夜变天：GPT-Image-2流出，昔日王者Nano Banana Pro要被拉下神坛？

OpenAI下一代多模态模型疑似曝光：文字渲染能力“强到离谱”，谷歌迎来真正对手？这几天，AI圈子又被一则泄露消息搅动了。不少眼尖的研究者发现，OpenAI似乎正在大模型竞技场Chatbot Arena，用多个略显古怪的代号，悄悄测试其新一代多模态模型。可惜的是，当你看到这篇文章时，相关测试入口已

热心网友

04.22

业界动态

微软推出升级版图像生成模型成本降四成速度提两成

微软发布MAI-Image-2-Efficient：企业级AI图像生成进入“性价比”时代 2026年4月，生成式AI领域迎来一则重磅消息：微软正式发布了其旗舰图像生成模型MAI-Image-2的升级版本——MAI-Image-2-Efficient。这款新模型瞄准了明确的目标：企业级应用。它的核心卖

热心网友

04.22

热门推荐

业界动态

阿里云百炼记忆库解决AI多轮对话遗忘难题

2026年4月9日，阿里云旗下的AI开发平台“百炼”正式发布了名为“记忆库”的全新功能。这项功能的核心价值，在于为AI Agent赋予跨会话的长期记忆能力，旨在彻底解决多轮对话中信息丢失与遗忘的行业核心痛点。目前，该功能正处于限时免费公测阶段。官方性能数据显示，其在关键指标上表现突出：记忆检索性能大

热心网友

05.12