首页 游戏 软件 资讯 排行榜 专题
首页
AI
港中大与字节提出DreamOmni3:多模态生成编辑听懂“涂鸦+图文”输入

港中大与字节提出DreamOmni3:多模态生成编辑听懂“涂鸦+图文”输入

热心网友
81
转载
2026-02-10

由港中文与字节跳动联合推出的 DreamOmni3 惊艳亮相。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在人工智能飞速发展的今天,多模态生成与编辑领域成绩斐然,统一生成与编辑模型凭借文本指令就能生成精彩内容,展现出强大性能。然而,语言在精准定位编辑区域、捕捉视觉细节方面存在天然短板,难以满足创作者日益精细的需求。在此背景下,港中文与字节联手推出的 DreamOmni3 惊艳亮相。它创新性地解锁了“涂鸦 + 图文”联合输入模式,直面数据创建与框架设计难题,为多模态生成与编辑带来了全新思路,有望开启这一领域更为精彩的篇章。

相关内容

介绍

近期,统一生成与编辑模型凭借文本指令展现出卓越性能,但语言难以精准定位编辑区域与捕捉视觉细节。为此,研究提出涂鸦式编辑与生成任务,借助图形用户界面融合文本、图像与自由涂鸦,实现更灵活创作,并推出 DreamOmni3 应对数据创建与框架设计两大挑战。其数据合成管道涵盖涂鸦编辑与生成,定义多项细分任务,基于 DreamOmni2 数据集构建训练数据。框架设计上,摒弃易受多涂鸦、图像与指令影响的二元掩码,采用联合输入方案,将原始与涂鸦图像输入模型,通过颜色区分区域、统一编码定位,实现精准编辑。实验表明 DreamOmni3 表现出色,模型与代码将开源。

方法概述

DreamOmni3的训练数据构建及框架概述。DreamOmni3训练数据构建及框架概述:

(a) 论文创建基于涂鸦的编辑训练数据。对于涂鸦和多模态指令式编辑,使用Referseg定位编辑对象,并将相应的涂鸦粘贴到源图像和参考图像上,从而创建训练对。对于涂鸦和指令式编辑,省略参考图像。对于涂鸦式编辑,我们使用专用模型将编辑对象转换为抽象草图,并将其粘贴回源图像。对于图像融合,从参考图像中裁剪对象,并将其粘贴到源图像的相应位置,从而构建训练对。

(b) 基于涂鸦的生成训练数据创建方式与编辑类似,只是源图像被替换为空白画布。

(c) DreamOmni3基于DreamOmni2的框架,引入了涂鸦输入的联合输入方案。还对源图像和涂鸦图像应用了相同的编码方案,从而确保更好的像素对齐,并与之前的图像和语言指令编辑完全兼容。

实验结果

来源:https://www.51cto.com/article/836222.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

澳大研究:图像生成如何通过自优化实现“精益求精”
科技数码
澳大研究:图像生成如何通过自优化实现“精益求精”

这项由澳门大学SKL-IOTSC实验室领导的研究发表于2026年的国际学习表征会议(ICLR),论文编号为arXiv:2602 07022v1。研究团队深入探索了自回归图像生成中的条件错误优化问题,

热心网友
02.12
亚马逊突破:比特预测法实现高效图像生成加速
科技数码
亚马逊突破:比特预测法实现高效图像生成加速

这项由亚马逊FAR(前沿AI与机器人)部门领导的研究发表于2026年2月,论文编号为arXiv:2602 09024v1。有兴趣深入了解的读者可以通过该编号查询完整论文。在人工智能图像生成领域,一直

热心网友
02.12
字节Seedream 5.0预览上线:2K/4K分辨率图像生成新模型
科技数码
字节Seedream 5.0预览上线:2K/4K分辨率图像生成新模型

智通财经APP获悉,2月10日,字节跳动旗下图像生成模型Seedream 5 0 Preview在字节视频编辑应用剪映、字节AI创作平台小云雀上线,并在即梦AI平台开启灰度测试,图片生成可限时免费体

热心网友
02.10
千问Qwen-Image-2.0发布:春节AI红包大战背后的新一代基础模型解析
科技数码
千问Qwen-Image-2.0发布:春节AI红包大战背后的新一代基础模型解析

智通财经APP获悉,2月10日,字节跳动旗下AI应用豆包宣布,“豆包过年”新春活动正式开启。这也意味着,在今年春节节点,继通义千问、腾讯元宝等AI产品之后,豆包正式加入春节AI红包大战。就在春节AI

热心网友
02.10
港中大与字节提出DreamOmni3:多模态生成编辑听懂“涂鸦+图文”输入
AI
港中大与字节提出DreamOmni3:多模态生成编辑听懂“涂鸦+图文”输入

港中文与字节联合推出的 DreamOmni3 惊艳亮相。 在人工智能飞速发展的当下,多模态生成与编辑领域成绩斐然,统一生成与编辑模型凭借文本指令就能生成精彩内容,展现出强大性能。然而,语言在精准定位

热心网友
02.10

最新APP

你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25
诸神皇冠
诸神皇冠
棋牌策略 03-25

热门推荐

猎豹浏览器免安装网页版:在线云端使用入口与教程
电脑教程
猎豹浏览器免安装网页版:在线云端使用入口与教程

猎豹浏览器免安装网页版入口是https: web lemur-browser com,具备界面简洁响应迅速、多端同步无缝衔接、安全防护层级丰富、文档处理能力突出、资源兼容性广泛覆

热心网友
03.27
昆仑万维发布三大世界第一梯队AI模型
科技数码
昆仑万维发布三大世界第一梯队AI模型

据昆仑万维集团消息,3月27日下午,昆仑万维(300418 SZ)旗下天工AI顺利举办“世界模型前沿技术与天工AIGC全家桶大模型生态”专场发布会,携Matrix-Game 3 0、SkyReels

热心网友
03.27
杨植麟、张鹏、夏立雪、罗福莉论道大模型:未来一年趋势前瞻
科技数码
杨植麟、张鹏、夏立雪、罗福莉论道大模型:未来一年趋势前瞻

本报(chinatimes net cn)记者石飞月 北京报道大模型未来会走向哪里?OpenClaw的爆火似乎为全行业指明了一个方向,但接踵而至的舆论质疑,又让这个答案变得扑朔迷离。3月27日,在2

热心网友
03.27
Anthropic核心模型意外泄露,网络安全股面临冲击风险
科技数码
Anthropic核心模型意外泄露,网络安全股面临冲击风险

Anthropic一款尚未发布的新AI模型因数据泄露意外曝光,引发市场对AI颠覆网络安全行业的担忧再度升温,网络安全板块股价周五盘前全线下挫。据《财富》杂志报道,Anthropic正在开发并已开始向

热心网友
03.27
Token经济到来,解析互联网大厂的布局与冷思考
科技数码
Token经济到来,解析互联网大厂的布局与冷思考

3月初,腾讯在深圳总部楼下设立“龙虾站”,引发千人排队尝鲜。OpenClaw掀起的“全民养虾”热潮,在短短一个月内让更多人看到了AI Agent深入业务场景的价值,随即推动Token调用量大规模增长

热心网友
03.27