图像生成技术正从简单的指令执行任务,向更接近人类创作流程的开放协作模式演进。当前一个明显趋势是:用户不再满足于输入一句“生成一张图”就结束,他们开始要求画面中的地标建筑必须精确无误、人物身份需要保持前后一致、特殊材质要真实还原到位,甚至连模糊的描述性需求也要能被准确呈现。面对这些日益复杂的创作诉求,单纯依靠生成模型的一次前向推理,确实有些力不从心。

最近,来自香港科技大学(广州)、美团、香港科技大学以及新加坡国立大学的研究团队,提出了一套名为 GenEvolve 的自我进化智能体框架。其核心思路非常直接:将一次图像生成过程建模为一个“工具编排轨迹”。智能体首先理解用户的复杂请求,接着依次调动搜索工具、图像检索工具以及生成知识工具,最后将收集到的外部证据、视觉参考和硬性约束整合成一个 prompt-reference program,再交由底层生成器进行最终渲染。
- 论文标题:GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation
- 论文链接:https://arxiv.org/abs/2605.21605
- 项目页面:https://ephemeral182.github.io/GenEvolve/
- 代码链接:https://github.com/MeiGen-AI/GenEvolve
- 模型权重:https://huggingface.co/MeiGen-AI/GenEvolve
- 数据与评测:https://huggingface.co/datasets/MeiGen-AI/GenEvolve-Data-Bench
值得一提的是,GenEvolve 使用同一套智能体策略,既能搭配开源模型 Qwen-Image-Edit,也能与更强大的生成器 Nano Banana Pro 无缝衔接。
从 prompt 到工具轨迹
GenEvolve 重点关注两类典型的开放生成场景。第一类是 Knowledge-Anchored(知识锚定):生成结果依赖于外部世界知识,比如真实建筑地标、公众人物、商品结构或事件线索。第二类是 Quality-Anchored(质量锚定):生成结果取决于可校验的视觉质量约束,例如文字一致性、对象计数、布局结构、属性绑定、解剖比例、材质质感以及审美水准。
为此,研究团队给智能体配置了三类关键工具:文本搜索 search(q) 用于补充事实依据;图像搜索 image_search(q) 用于获取视觉参考素材;生成知识查询 query_knowledge(skill) 则负责激活模型内部关于文字渲染、空间布局、材质一致性等复杂任务的潜在技能。
这意味着,一次图像生成不再是仅仅“写一个更长的 prompt”,而是演变成一次多轮决策过程:搜索什么内容、参考哪张图片、调用哪类生成知识、最终程序里必须写入哪些具体约束——每一步都需要智能体做出精准判断。
数据与评测
为了有效训练这套智能体,研究团队构建了 GenEvolve-Data 和 GenEvolve-Bench 数据集。他们并非直接收集普通的 prompt-image 对,而是从大约 2 万条结构化 recipe 出发,覆盖了实体、地标、产品、事件、文字、布局、计数、属性、解剖、材质、美学和创意转化等多种复杂场景。
每个请求都会先交由 Teacher Agent 执行完整的工具流程:查证事实、寻找参考、调用生成知识,最终写出完备的 prompt-reference program。生成的数据还需要经过程序检查、VLM 视觉审计、GT 图像渲染和视觉过滤等多重验证,最后切分成 SFT 轨迹、自我进化样本以及对应的 benchmark 评测集。
这套数据闭环设计得相当扎实:从结构化 recipe 到工具轨迹,再到 VLM 审计和 GT 图像过滤,最终分为训练和评测两个视图,确保了数据质量和多样性。
自我进化:先筛选出更优轨迹
训练过程主要分为两步。
首先,GenEvolve 使用高质量的 Teacher 轨迹对 Qwen3-VL-8B-Instruct 进行 SFT 冷启动训练,让模型学会基本的工具调用和程序编写方法。
接下来进入自我进化的 Rollout 阶段:对同一个请求采样多条轨迹,将结果渲染成图像后,由视觉判分器和文本判分器共同打分,并采用 GRPO 算法优化轨迹级别的奖励信号。
视觉经验自蒸馏:将“好在哪里”教给模型
然而,仅有轨迹级别的奖励是不够的。它能告诉模型“哪条轨迹更好”,却很难解释“好在哪里”。针对这一难题,GenEvolve 引入了视觉经验自蒸馏机制:系统性地比较同一请求下的最优与最差轨迹,将差异总结为结构化的 Decision Guide(决策指南),例如应该搜索什么、选择哪类参考、避免哪些失败的写法。
这些经验只在训练阶段提供给 privileged teacher 使用。Student 模型在同一批样本上仍然只看到普通输入,无法直接读取经验库;而 teacher 则在 Decision Guide 的辅助下,给出更好的 token 分布。随后,通过 token 级别的反向 KL 散度,将 teacher 在关键决策 token 上的偏好蒸馏给 student。这样一来,模型学到的不是一条离线记忆,而是“看到类似请求时,该如何搜索、选择参考、组织约束”的决策习惯。
这也是 GenEvolve 与仅做 RL 打分优化的主要区别。GRPO 提供的是“哪条轨迹更值得强化”的方向性指导,而视觉经验自蒸馏提供的则是更精细的 credit assignment(信用分配):好轨迹究竟好在哪里——是工具计划更合理、参考选择更准确,还是最终 prompt-reference program 中的某个约束写法更有效。部署时,student 模型无需再查询 Decision Guide 或经验 buffer,因为经验已经被压缩并内化进模型参数里。
方法总览:智能体采样多条工具轨迹,比较最优与最差结果,将视觉经验蒸馏回部署模型。
实验结果
在自建的 GenEvolve-Bench 评测集上,研究团队对比了主流的直接生成模型和 agentic 工作流。当底层生成器固定为开源 Qwen-Image-Edit-2511 时,GenEvolve 的整体 KScore 达到 0.3663,显著超越了 Gen-Searcher 的 0.3493;在更依赖事实和视觉细节的 Knowledge-Anchored 任务上,提升尤为突出。
当搭配更强大的 Nano Banana Pro 渲染器时,GenEvolve 的 KScore 进一步提升至 0.5739,高于 Nano Banana Pro 裸生成的 0.5298。这充分说明 GenEvolve 学到的并非针对某个生成器的 prompt 技巧,而是一套可以灵活迁移至不同渲染器的通用工具编排策略。
GenEvolve-Bench 主结果:GenEvolve 在开源生成器和强生成器设置下均取得了稳定的性能提升。
消融实验显示,未调优的 Qwen3-VL 工作流已能利用工具入口,但结果不够稳定;SFT 显著提升了工具调用和最终程序的质量;GRPO 提供了有效的轨迹级优化信号;而加入视觉经验自蒸馏后,模型在 Visual correctness、Knowledge-Anchored 和 Quality-Anchored 等关键维度上继续获得提升。
研究团队还在公开的 WISE 知识密集型图像生成基准上进行了外推评估。在未做 in-domain 微调的情况下,GenEvolve 使用 8B 开源策略与开源 Qwen-Image-Edit 渲染器,整体 WiScore 达到 0.82,超越了 GPT-4o 的 0.80。
WISE 结果:GenEvolve 在开源生成器和强生成器设置下,均超越了此前的开源与闭源模型。
定性对比:橙色示例更依赖外部知识,蓝色示例更依赖内部生成技能。
小结
GenEvolve 的核心价值在于,它将开放图像生成从单次 prompt 优化,推进到了可学习的工具编排过程。对于那些需要外部知识、参考图一致性以及多重硬约束的复杂任务,智能体不仅仅是“调用工具”,而是在训练过程中学会了如何将工具结果有效转化为高质量的生成程序。
目前,GenEvolve 已开源模型、代码、数据与评测集。对于图像生成智能体、工具使用、视觉反馈强化学习以及开放生成评测等研究方向,这套框架提供了一个可复现的坚实基础。
作者与单位
论文作者包括 Sixiang Chen、Zhaohu Xing、Tian Ye、Xinyu Geng、Yunlong Lin、Jianyu Lai、Xuanhua He、Fuxiang Zhai、Jialin Gao、Lei Zhu,分别来自港科广、美团、港科大和新加坡国立大学。
