首页 游戏 软件 资讯 排行榜 专题
首页
AI
港中大与字节提出DreamOmni3:多模态生成编辑听懂“涂鸦+图文”输入

港中大与字节提出DreamOmni3:多模态生成编辑听懂“涂鸦+图文”输入

热心网友
37
转载
2026-02-10

由港中文与字节跳动联合推出的 DreamOmni3 惊艳亮相。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在人工智能飞速发展的今天,多模态生成与编辑领域成绩斐然,统一生成与编辑模型凭借文本指令就能生成精彩内容,展现出强大性能。然而,语言在精准定位编辑区域、捕捉视觉细节方面存在天然短板,难以满足创作者日益精细的需求。在此背景下,港中文与字节联手推出的 DreamOmni3 惊艳亮相。它创新性地解锁了“涂鸦 + 图文”联合输入模式,直面数据创建与框架设计难题,为多模态生成与编辑带来了全新思路,有望开启这一领域更为精彩的篇章。

相关内容

介绍

近期,统一生成与编辑模型凭借文本指令展现出卓越性能,但语言难以精准定位编辑区域与捕捉视觉细节。为此,研究提出涂鸦式编辑与生成任务,借助图形用户界面融合文本、图像与自由涂鸦,实现更灵活创作,并推出 DreamOmni3 应对数据创建与框架设计两大挑战。其数据合成管道涵盖涂鸦编辑与生成,定义多项细分任务,基于 DreamOmni2 数据集构建训练数据。框架设计上,摒弃易受多涂鸦、图像与指令影响的二元掩码,采用联合输入方案,将原始与涂鸦图像输入模型,通过颜色区分区域、统一编码定位,实现精准编辑。实验表明 DreamOmni3 表现出色,模型与代码将开源。

方法概述

DreamOmni3的训练数据构建及框架概述。DreamOmni3训练数据构建及框架概述:

(a) 论文创建基于涂鸦的编辑训练数据。对于涂鸦和多模态指令式编辑,使用Referseg定位编辑对象,并将相应的涂鸦粘贴到源图像和参考图像上,从而创建训练对。对于涂鸦和指令式编辑,省略参考图像。对于涂鸦式编辑,我们使用专用模型将编辑对象转换为抽象草图,并将其粘贴回源图像。对于图像融合,从参考图像中裁剪对象,并将其粘贴到源图像的相应位置,从而构建训练对。

(b) 基于涂鸦的生成训练数据创建方式与编辑类似,只是源图像被替换为空白画布。

(c) DreamOmni3基于DreamOmni2的框架,引入了涂鸦输入的联合输入方案。还对源图像和涂鸦图像应用了相同的编码方案,从而确保更好的像素对齐,并与之前的图像和语言指令编辑完全兼容。

实验结果

来源:https://www.51cto.com/article/836222.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

北大腾讯团队优化一行代码提升AI图像生成效果20%
AI
北大腾讯团队优化一行代码提升AI图像生成效果20%

近期,一项来自北京大学与腾讯混元实验室的联合研究在计算机视觉与AI图像生成领域引发了广泛关注。该团队仅通过修改一行核心代码,便显著提升了生成式模型的性能,在多个基准测试中实现了超过20%的效果增益。这项标志性成果已于2026年1月正式公开,论文编号为arXiv:2601 17124,为提升AI图像生

热心网友
05.12
Luma AI发布Uni 1.1新一代图像生成模型详解
业界动态
Luma AI发布Uni 1.1新一代图像生成模型详解

在AI图像生成技术飞速发展的今天,模型的核心价值正从基础的“绘画”能力,转向更深层次的“理解业务需求”。近期,一款名为Uni-1 1的新模型异军突起,凭借其创新的“一体化”设计理念,在全球权威的Arena ai图像生成模型盲测排行榜中,一举跃升至全球第三。令人瞩目的是,其背后的核心研发团队规模不足1

热心网友
05.12
图像生成与大语言模型的关系
业界动态
图像生成与大语言模型的关系

图像生成与大语言模型:深度学习的双生花 从数据学习到生成创新 说起AI领域的两个明星——图像生成和大语言模型,它们之间到底有什么联系呢?乍一看,一个是处理像素的艺术“画家”,一个是驾驭文字的思想“作家”,但往深处看,你会发现它们其实是同根同源。没错,它们都建立在深度学习这片肥沃的技术土壤之上。 首先

热心网友
04.23
一夜变天:GPT-Image-2流出,昔日王者Nano Banana Pro要被拉下神坛?
AI
一夜变天:GPT-Image-2流出,昔日王者Nano Banana Pro要被拉下神坛?

OpenAI下一代多模态模型疑似曝光:文字渲染能力“强到离谱”,谷歌迎来真正对手? 这几天,AI圈子又被一则泄露消息搅动了。不少眼尖的研究者发现,OpenAI似乎正在大模型竞技场Chatbot Arena,用多个略显古怪的代号,悄悄测试其新一代多模态模型。可惜的是,当你看到这篇文章时,相关测试入口已

热心网友
04.22
微软推出升级版图像生成模型 成本降四成速度提两成
业界动态
微软推出升级版图像生成模型 成本降四成速度提两成

微软发布MAI-Image-2-Efficient:企业级AI图像生成进入“性价比”时代 2026年4月,生成式AI领域迎来一则重磅消息:微软正式发布了其旗舰图像生成模型MAI-Image-2的升级版本——MAI-Image-2-Efficient。这款新模型瞄准了明确的目标:企业级应用。它的核心卖

热心网友
04.22

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

阿里云百炼记忆库解决AI多轮对话遗忘难题
业界动态
阿里云百炼记忆库解决AI多轮对话遗忘难题

2026年4月9日,阿里云旗下的AI开发平台“百炼”正式发布了名为“记忆库”的全新功能。这项功能的核心价值,在于为AI Agent赋予跨会话的长期记忆能力,旨在彻底解决多轮对话中信息丢失与遗忘的行业核心痛点。目前,该功能正处于限时免费公测阶段。官方性能数据显示,其在关键指标上表现突出:记忆检索性能大

热心网友
05.12
全链网30官方报价6.7946 最新行情分析与解读
web3.0
全链网30官方报价6.7946 最新行情分析与解读

今天外汇市场的表现,可以说是在平静中透着一丝韧性。北京时间下午四点半,在岸软妹币对美元汇率官方收盘价定格在6 7946。 这个数字背后有两个值得玩味的对比:一是比起前一个交易日的官方收盘价,小幅上扬了8个基点;二是相较于昨晚夜盘的收盘价,则回升了17个基点。虽然波动幅度不大,但这种日内低开后的企稳回

热心网友
05.12
北境墓碑全收集攻略 遥遥西土地图点位详解
游戏攻略
北境墓碑全收集攻略 遥遥西土地图点位详解

《遥遥西土》北境区域共有十个墓碑等待收集。首个墓碑位于地图北部悬崖下方,玩家需跳至崖底才能发现,其旁另有一座墓碑作为参照。具体位置与探索方法可参考相关视频攻略。

热心网友
05.12
归环好彩骰获取途径大全与快速入手方法
游戏攻略
归环好彩骰获取途径大全与快速入手方法

归环好彩骰”是游戏的核心机制,通过投掷骰子组合牌型获得奖励。它将叙事、战斗与成长深度整合,玩家的选择与骰点结果直接影响剧情走向和战斗效果。机制简单易上手,无时间压力,提供即时强反馈。游戏结合“万相卡”与角色流派,支持多样策略,平衡随机性,提升了内容探索深度与复用价值。

热心网友
05.12
植物大战僵尸抽卡重置版上线时间确定 开服日期与预约指南
游戏攻略
植物大战僵尸抽卡重置版上线时间确定 开服日期与预约指南

《植物大战僵尸》抽卡重置版已上线,核心玩法融合塔防与抽卡。游戏包含七阶卡池系统,顶级卡牌稀缺。新增超百种原创植物,僵尸行为更复杂,关卡设计多样。随机植物模式增加变数,roguelike元素提升重复可玩性。版本持续更新,社区活跃。

热心网友
05.12