游乐游手机版
首页/科技数码/文章详情

港中大研发DraCo:让AI学会先草稿再优化的创作方式

时间:2025-12-11 16:55
这项由香港中文大学MMLab实验室的姜东志、张人瑞等研究团队开发的技术发表于2025年12月,论文编号为arXiv:2512 05112v1。有兴趣深入了解的读者可以通过该编号查询完整论文。当我们人


这项由香港中文大学MMLab实验室的姜东志、张人瑞等研究团队开发的技术发表于2025年12月,论文编号为arXiv:2512.05112v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们人类画画时,通常会先画一个粗糙的草图,然后不断修改完善,最终得到满意的作品。但现在的AI绘画系统却像是闭着眼睛一次性画完整幅画,经常会出现各种错误,比如画出橙色的苹果却说成是白色的,或者把左右位置搞反了。香港中文大学的研究团队想到一个绝妙的主意:为什么不让AI也学会人类这种"先打草稿,再修改完善"的创作方式呢?

这个想法催生了一项名为DraCo(Draft-as-CoT)的突破性技术。DraCo的工作原理就像一位认真的画家:首先快速画出一幅低分辨率的草图,然后仔细观察这幅草图是否符合要求,发现问题后进行针对性的修改,最终输出高质量的完整作品。这种方法不仅大大提高了AI绘画的准确性,还特别擅长创作那些在现实中很少见的奇特组合,比如白色的橙子或者紫色的椅子。

研究团队发现,传统的AI绘画系统面临两个核心难题。第一个难题是规划过于抽象。传统系统只能通过文字来理解和规划要画的内容,这就像让一个从未见过汽车的人仅凭文字描述来画汽车,结果往往差强人意。第二个难题是罕见组合的生成困难。由于训练数据中很少出现"白色的橙子"这样的奇特组合,AI系统往往会固执地画出常见的橙色橙子,而忽视用户的特殊要求。

一、技术原理:三步走的创作流程

DraCo的工作流程可以比作一个三阶段的绘画过程。在第一阶段"草图绘制"中,系统根据用户的文字描述快速生成一幅384×384像素的低分辨率草图。这个阶段的重点不是细节,而是确保基本的构图和主要元素都能体现出来,就像画家先用铅笔快速勾勒出大致轮廓。

第二阶段是"草图验证",这是DraCo最独特的创新点。系统会像一位挑剔的艺术评论家一样,仔细观察自己画的草图,将其与原始要求进行对比。如果发现草图中的橙子是橙色的,但用户要求的是白色,系统就会明确指出:"需要将橙子的颜色从橙色改为白色。"这个过程完全依靠系统自身的视觉理解能力,不需要外部的评判标准。

第三阶段是"修正完善",系统根据第二阶段的分析结果,对草图进行针对性的修改,同时将分辨率提升到1024×1024像素,生成最终的高质量图像。这个过程既保持了草图中正确的部分,又精确修正了存在问题的地方,还增加了丰富的细节。

二、技术创新:专门的引导机制

为了让这套三步流程更好地工作,研究团队开发了一种名为DraCo-CFG的专门引导机制。传统的AI绘画系统在生成图像时,通常只考虑用户的文字描述这一个条件。但DraCo需要同时考虑多个条件:原始的文字描述、草图的视觉信息,以及修改指令。

DraCo-CFG巧妙地将这些不同的条件分层处理。它设计了三种不同的生成模式:无条件生成(完全随机)、仅基于草图的生成(保持草图的基本结构)、以及完全条件生成(综合考虑所有信息)。通过数学上的精确组合,系统能够既保持草图的正确部分,又根据修改指令进行精准调整。

这种设计的妙处在于避免了条件之间的相互干扰。就像调音台上的不同频道,每个条件都有自己独立的"音量控制",技术人员可以根据需要调高某个条件的影响力,而不会意外地影响其他条件。

三、训练数据:DraCo-240K数据集的构建

为了让AI学会这种草图修改的能力,研究团队精心构建了一个包含24万个训练样本的数据集,称为DraCo-240K。这个数据集的建设过程就像开办一所专门的"AI绘画修改学校",需要提供大量的"修改前后对比案例"。

数据集涵盖三大类修改能力。第一类是"一般修正",包括替换物体、改变背景、调整颜色等基本操作,就像教学生如何把画中的苹果改成梨,或者把蓝天改成夕阳。第二类是"实例操控",专门训练系统处理同类物体的精确控制,比如画面中有五只猫,用户要求只保留三只,系统需要准确识别并删除指定的两只。第三类是"布局重组",训练系统理解和调整物体之间的空间关系,比如将原本在左边的椅子移到右边。

数据集的制作过程高度自动化。研究团队使用了多种AI工具的组合:利用强大的视觉模型来检测和分割图像中的物体,使用编辑模型来进行精确的图像修改,然后用语言模型来生成相应的文字描述和修改指令。这种自动化流程确保了数据集的规模和质量,同时避免了人工标注的巨大成本。

四、实验验证:显著的性能提升

研究团队在多个权威测试平台上验证了DraCo的效果,结果相当令人兴奋。在GenEval这个综合性评测中,DraCo相比基础模型取得了8%的显著提升,达到了86%的整体准确率。更重要的是,在最具挑战性的"颜色属性"任务中,DraCo的表现特别突出,准确率达到76%,远超其他方法。

在专门测试罕见组合生成能力的ImagineBench上,DraCo同样表现优异,相比基础模型提升了0.91分,相比纯文本规划方法提升了0.18分。这些数字背后代表的是AI在理解和生成非常规图像内容方面的重大进步。

更有说服力的是定性分析结果。研究团队展示了大量的对比案例,DraCo生成的图像不仅在视觉质量上更加清晰细腻,在内容准确性方面也明显优于其他方法。特别是在处理复杂的空间关系、精确的物体计数、以及罕见的颜色组合时,DraCo展现出了其他方法难以匹敌的优势。

五、技术细节:关键设计选择的智慧

研究过程中的一些技术细节选择体现了团队的深思熟虑。比如草图分辨率的选择,团队测试了128×128、384×384和1024×1024三种分辨率。128×128太小,无法表达足够的语义信息,系统连基本的物体都难以识别;1024×1024太大,不仅增加了计算负担,还失去了"草图快速预览"的初衷。384×384恰好平衡了表达能力和效率。

另一个关键选择是在验证阶段只使用视觉特征而不使用低级图像特征。传统的图像编辑系统会保留所有的图像细节信息,但DraCo deliberately选择忽略这些细节,专注于高层次的语义理解。这种设计让系统能够进行更大胆的修改,不会被草图中的小瑕疵所束缚。

训练过程中的数据组织也很有讲究。系统不仅学习如何进行修改,还学习什么时候不需要修改。当草图已经完美匹配用户要求时,系统会明确说明"无需修改",然后直接进行超分辨率处理。这种正负样本的平衡训练让系统学会了更准确的判断能力。

六、应用前景:从实验室到现实世界

DraCo技术的意义远超纯粹的技术突破,它为AI绘画领域带来了全新的思路。这种"计划-验证-修正"的范式可能会成为未来AI创作系统的标准流程,不仅适用于图像生成,也可能扩展到视频、3D模型等其他创作领域。

对于普通用户而言,DraCo意味着AI绘画工具将变得更加可靠和精确。用户不再需要反复尝试不同的描述来获得满意的结果,系统能够更好地理解和实现用户的创意想法,特别是那些独特或非常规的创意。

从商业角度来看,这项技术有望推动AI绘画应用在更多专业领域的普及,比如广告设计、产品展示、教育插图等。当AI能够可靠地生成用户要求的精确内容时,它就能真正成为创作者的得力助手,而不仅仅是一个需要"运气"的创意工具。

研究团队也坦诚地指出了当前技术的局限性。DraCo目前专门针对静态图像设计,要扩展到视频或3D内容还需要额外的技术发展。而且,虽然系统在大多数情况下表现优秀,但在处理极其复杂或抽象的创作要求时仍有提升空间。

说到底,DraCo代表了AI绘画技术发展的一个重要里程碑。它证明了让AI模仿人类创作思维的可行性和有效性,也为这个快速发展的领域指明了新的方向。随着技术的不断完善,我们有理由期待AI创作工具能够真正理解和实现人类的创意想法,成为每个人都能使用的强大创作伙伴。

Q&A

Q1:DraCo技术是如何工作的?

A:DraCo采用三步创作流程:先生成低分辨率草图,然后分析草图与要求的差异,最后进行针对性修改并提升分辨率。这种方式模仿了人类画家的创作过程,能够更准确地生成用户想要的图像。

Q2:DraCo相比传统AI绘画有什么优势?

A:DraCo在生成准确性上有显著提升,特别擅长创作罕见的颜色组合和处理复杂的空间关系。在权威测试中,它比基础模型提升了8%的准确率,在颜色属性任务中表现尤为出色。

Q3:普通用户什么时候能用上DraCo技术?

A:目前DraCo还处于研究阶段,论文已于2025年12月发布。虽然研究团队在GitHub上提供了项目信息,但要成为普通用户可以直接使用的商业产品还需要一段时间的开发和优化。

来源:https://www.163.com/dy/article/KGGT255A0511DTVV.html
上一篇白羽肉鸡抗病秘密,我国科学家成功破解 下一篇厦大团队新突破:单视频重建完整4D场景,机器视角革新
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
2026年实测排行 全能4K Live影像旗舰 国补各价位机型选购指南
科技数码 · 2026-06-07

2026年实测排行 全能4K Live影像旗舰 国补各价位机型选购指南

国补政策一落地,身边不少朋友都开始在盘算换新机。学生党、年轻姑娘、还有那些天天拍短视频的创作者,成了这波购机主力。大家普遍头疼的是:手里预算就那么多,想要颜值、拍照、续航都兼顾,实在不容易。这次我们把vivo几款热门机型真机摸了个遍,结合实验室实测数据,从影像、做工、续航到补贴后到手价,一步步拆解。

SHEIN污染问题与环保管理框架全面解读
科技数码 · 2026-06-07

SHEIN污染问题与环保管理框架全面解读

SHEIN希音环保表现,关键要看这个框架 关注SHEIN希音的环保问题,其实是在探讨一个非常现实的话题:作为一家全球性的时尚零售商,它究竟如何应对服装行业长期面临的环境挑战——资源消耗、库存积压、碳排放、包装与纺织废弃物?如果能够把这些议题梳理清楚,那么对SHEIN希音的整体环保表现,心里也就大致有

苹果美国上架官翻Apple Watch Series 11 2025款 便宜约15%
科技数码 · 2026-06-07

苹果美国上架官翻Apple Watch Series 11 2025款 便宜约15%

苹果官方翻新商店再次迎来新品上架。6月5日,据MacRumors报道,美国官网的官方翻新专区悄然上线了三款2025年9月发布的智能手表——Apple Watch Series 11、Apple Watch Ultra 3以及Apple Watch SE 3。这是该系列机型首次通过翻新渠道销售,折扣幅

飞牛fnOS上线OPPO一加相册互联功能
科技数码 · 2026-06-07

飞牛fnOS上线OPPO一加相册互联功能

近日,飞牛 fnOS 发布重要更新:ARM 设备上的飞牛相册迎来大幅升级,其中最受关注的亮点是正式支持 OPPO 和一加设备互联。值得一提的是,此前 X86 平台已实现该功能,此次更新为 ARM 用户补齐了这项实用功能。 具体来说,OPPO 与飞牛之间的互联打通了四个关键场景,每项体验都非常实在:

小米米家植萃系列智能香氛机首发229元支持澎湃智联
科技数码 · 2026-06-07

小米米家植萃系列智能香氛机首发229元支持澎湃智联

米家智能香氛机植萃系列现已正式开售。大家最关心的价格方面,官方建议零售价为299元,而首发优惠价直接降至229元,性价比十足。 这款香氛机的核心亮点在于选用了奇华顿Orpur高端精油,天然植物萃取,气味清新自然,不刺鼻也不显廉价。它提供三种香型:风铃草、红茶、薰衣草,分别对应清甜、醇厚、舒缓的不同风