港中大与字节提出DreamOmni3:多模态生成编辑听懂“涂鸦+图文”输入
由港中文与字节跳动联合推出的 DreamOmni3 惊艳亮相。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
在人工智能飞速发展的今天,多模态生成与编辑领域成绩斐然,统一生成与编辑模型凭借文本指令就能生成精彩内容,展现出强大性能。然而,语言在精准定位编辑区域、捕捉视觉细节方面存在天然短板,难以满足创作者日益精细的需求。在此背景下,港中文与字节联手推出的 DreamOmni3 惊艳亮相。它创新性地解锁了“涂鸦 + 图文”联合输入模式,直面数据创建与框架设计难题,为多模态生成与编辑带来了全新思路,有望开启这一领域更为精彩的篇章。

相关内容

介绍
近期,统一生成与编辑模型凭借文本指令展现出卓越性能,但语言难以精准定位编辑区域与捕捉视觉细节。为此,研究提出涂鸦式编辑与生成任务,借助图形用户界面融合文本、图像与自由涂鸦,实现更灵活创作,并推出 DreamOmni3 应对数据创建与框架设计两大挑战。其数据合成管道涵盖涂鸦编辑与生成,定义多项细分任务,基于 DreamOmni2 数据集构建训练数据。框架设计上,摒弃易受多涂鸦、图像与指令影响的二元掩码,采用联合输入方案,将原始与涂鸦图像输入模型,通过颜色区分区域、统一编码定位,实现精准编辑。实验表明 DreamOmni3 表现出色,模型与代码将开源。
方法概述

DreamOmni3的训练数据构建及框架概述。DreamOmni3训练数据构建及框架概述:
(a) 论文创建基于涂鸦的编辑训练数据。对于涂鸦和多模态指令式编辑,使用Referseg定位编辑对象,并将相应的涂鸦粘贴到源图像和参考图像上,从而创建训练对。对于涂鸦和指令式编辑,省略参考图像。对于涂鸦式编辑,我们使用专用模型将编辑对象转换为抽象草图,并将其粘贴回源图像。对于图像融合,从参考图像中裁剪对象,并将其粘贴到源图像的相应位置,从而构建训练对。
(b) 基于涂鸦的生成训练数据创建方式与编辑类似,只是源图像被替换为空白画布。
(c) DreamOmni3基于DreamOmni2的框架,引入了涂鸦输入的联合输入方案。还对源图像和涂鸦图像应用了相同的编码方案,从而确保更好的像素对齐,并与之前的图像和语言指令编辑完全兼容。
实验结果


相关攻略
这项由澳门大学SKL-IOTSC实验室领导的研究发表于2026年的国际学习表征会议(ICLR),论文编号为arXiv:2602 07022v1。研究团队深入探索了自回归图像生成中的条件错误优化问题,
这项由亚马逊FAR(前沿AI与机器人)部门领导的研究发表于2026年2月,论文编号为arXiv:2602 09024v1。有兴趣深入了解的读者可以通过该编号查询完整论文。在人工智能图像生成领域,一直
智通财经APP获悉,2月10日,字节跳动旗下图像生成模型Seedream 5 0 Preview在字节视频编辑应用剪映、字节AI创作平台小云雀上线,并在即梦AI平台开启灰度测试,图片生成可限时免费体
智通财经APP获悉,2月10日,字节跳动旗下AI应用豆包宣布,“豆包过年”新春活动正式开启。这也意味着,在今年春节节点,继通义千问、腾讯元宝等AI产品之后,豆包正式加入春节AI红包大战。就在春节AI
港中文与字节联合推出的 DreamOmni3 惊艳亮相。 在人工智能飞速发展的当下,多模态生成与编辑领域成绩斐然,统一生成与编辑模型凭借文本指令就能生成精彩内容,展现出强大性能。然而,语言在精准定位
热门专题
热门推荐
猎豹浏览器免安装网页版入口是https: web lemur-browser com,具备界面简洁响应迅速、多端同步无缝衔接、安全防护层级丰富、文档处理能力突出、资源兼容性广泛覆
据昆仑万维集团消息,3月27日下午,昆仑万维(300418 SZ)旗下天工AI顺利举办“世界模型前沿技术与天工AIGC全家桶大模型生态”专场发布会,携Matrix-Game 3 0、SkyReels
本报(chinatimes net cn)记者石飞月 北京报道大模型未来会走向哪里?OpenClaw的爆火似乎为全行业指明了一个方向,但接踵而至的舆论质疑,又让这个答案变得扑朔迷离。3月27日,在2
Anthropic一款尚未发布的新AI模型因数据泄露意外曝光,引发市场对AI颠覆网络安全行业的担忧再度升温,网络安全板块股价周五盘前全线下挫。据《财富》杂志报道,Anthropic正在开发并已开始向
3月初,腾讯在深圳总部楼下设立“龙虾站”,引发千人排队尝鲜。OpenClaw掀起的“全民养虾”热潮,在短短一个月内让更多人看到了AI Agent深入业务场景的价值,随即推动Token调用量大规模增长





