港中大与上海AI实验室研发AI边看边想新方法

时间：2026-05-30 11:10

当你面对一道复杂难题时，单靠脑内思考往往不够——你总会拿起笔，在纸上圈出关键信息、绘制推理路线，或是重新排列碎片。人类的大脑与视觉系统天然协同运作，“看”与“想”从来不是割裂的。然而，目前最先进的多模态大语言模型在处理那些“必须先看清才能想通”的问题时，却常常陷入纯文字描述的死循环，无法亲手绘制空间

这项由香港中文大学、上海人工智能实验室、上海交通大学以及上海创新研究院联合开展的研究，精准关注到了这一根本性的矛盾，并提出了一套直觉化解决方案：既然问题出在“只顾推理、不看画面”，那为何不让AI在推理过程中真正地“动手”编辑图片，将需要关注的视觉信息直接标注出来，再依据编辑后的图像得出答案？这一思路并非全新，但研究者发现，现有的两类尝试都存在显著短板。因此他们另辟蹊径，开发出了一套名为ETCHR（全称Editing To Clarify and Harness Reasoning，意为“通过编辑来澄清并驾驭推理”）的系统。

ETCHR的核心思想，可以用修缮房屋的比喻来生动诠释。假设你手头有一张老房子的照片，有人问你“厨房的窗户在哪一侧”。一个糟糕的助手只会口头描述，说不清楚；另一个助手带着固定工具包，只能在照片上贴几张便利贴，却无法查看厨房的整体布局；而第三种助手，既懂看图又懂修图，能根据你的具体问题直接在照片上标出最关键的区域，甚至能重新渲染出你需要换个角度才能看清的视角——ETCHR就是第三种助手。

一、现有方案各有各的“短板”

目前“边看边想”的方案大致可分为两类，研究者分别称之为“工具调用型”和“统一模型型”。

工具调用型方案的逻辑是：让AI学会发出指令，例如“在红色的车周围画一个方框”，然后交由专门的渲染器执行。DeepEyes、Thyme等系统走的正是这条路。问题在于，渲染器能做的操作从一开始就被限制住了——只能处理“画框”、“裁剪”、“缩放”等简单的局部动作。如果你问的是“迷宫该怎么走”或“这张拼图复原后应是什么样子”，这些操作便完全无能为力。更棘手的是，每次要支持新操作，都需要重新对AI进行专项训练，而这种训练往往会导致AI在其他领域的性能下降，好比将一位全能厨师专门培训成只做煎饼，他慢慢就遗忘了炒菜的技巧。

统一模型型方案则走向另一个极端：用同一套AI骨干网络同时负责“看图理解”和“生图修图”两项任务，期望它能自然地交替生成文字和图片。Zebra-CoT、ThinkMorph等系统采用了这种思路。然而，“看懂”与“画好”本质上是截然不同的能力，强行让同一套神经网络同时做到极致，往往两边都难以精通。更致命的是，这类系统产生的中间图片质量参差不齐，图片中的错误反而可能误导后续推理，就像帮你修图纸的人反而添上了错误标注，导致施工方向完全偏离。

两类方案还共享一个盲区：它们都不去检查修改后的图片是否正确，而是直接扔进后续推理流程。一旦图片改错，整个推理便会被带偏，而系统自身毫无察觉。

正因如此，研究者决定走第三条路：用一个专门为推理任务设计并训练的图像编辑模型，将“修图”与“理解”彻底分离，同时加入一个“改完先检查”的环节，确保修改后的图片确实有用，再继续推理。

二、AI编辑器面临的两道坎

在正式介绍ETCHR之前，研究团队进行了一组诊断性实验，摸清了现有图像编辑模型在推理辅助任务上的弱点。他们发现，现有编辑器面临两道明显的坎，分别称为“语言侧推理缺口”和“生成侧推理缺口”。

语言侧推理缺口指的是这样的问题：现有的图像编辑模型是按照“给我一条明确指令，我就执行”的方式训练的。如果你告诉它“在垃圾桶周围画一个红框”，它能做得很好；但如果你只给它一个问题——“垃圾桶在黑色椅子的左边还是右边？”——它就不知如何下手，因为它根本不具备从问题本身推断出“我需要做什么样的编辑”的能力。

为了量化这一差距，研究者用Gemini先把问题转换为明确指令，再让编辑器执行；另一种情况则是直接将原问题喂给编辑器。结果显示，在有明确指令的情况下，编辑正确率远高于只有抽象问题的情况。这表明，现有编辑器“照指令做事”的能力尚可，但“从问题自行判断该做什么”的能力几乎为零。

生成侧推理缺口则指向另一个维度：即便已经给了足够明确的指令，当该指令本身需要复杂的多步推理才能执行时，编辑器同样会出错。研究者以迷宫路径绘制和冰湖路径绘制为例，在给定最短路径文本描述的前提下，测试编辑器能否在图片上正确画出。他们发现，当路径只有1步时，编辑器几乎总能画对；但随着路径长度增加，准确率急剧下降，路径长度达到10步时，准确率接近于零。这好比告诉一个木匠“先量尺、再锯木、再打孔、再拼装……”，前两步他能跟上，但步骤一多就开始犯错，整个工序越做越歪。

这两个缺口共同说明了一件事：要把图像编辑器变成一个真正有用的推理助手，既需要教会它“从问题推断需要什么样的编辑”，也需要提升它在执行复杂变换时的准确度。ETCHR的两阶段训练方案，正是为了分别弥合这两道坎而设计的。

三、ETCHR的“两轮培训+一道验收”架构

ETCHR的整体结构可以理解为：把一个经验丰富但只会照章办事的装修工人，通过两轮针对性培训，改造成一个能够独立判断施工方案并具备质量自检能力的施工总监，再配上一个严格的验收环节。

第一轮培训：模仿学习

第一阶段称为“推理模仿监督微调”。研究者为ETCHR的基础图像编辑模型准备了精心设计的训练数据，数据格式为成对的“原图+问题→目标修改图+答案”。这批数据覆盖了五类推理任务，每类任务的编辑方式各不相同。

细粒度感知任务关注在高质量图片中找到某个细小目标，训练数据来自V*数据集，目标修改图是在原图上用边框圈出目标。图表理解任务要求AI能读懂柱状图、折线图等数据可视化内容，训练数据来自RefChartQA，同样是在图表上圈出与问题相关的数据区域。逻辑推理任务以迷宫为主，目标修改图是在迷宫图上画出正确的通行路径。拼图还原任务来自Spatial-SSRL数据集，原图是一张被打乱顺序的图片，目标修改图是正确还原后的完整图片。三维空间理解任务使用了DL3DV-10K数据集，包含真实场景的视频及对应的相机位姿参数，原图和目标图来自同一视频的不同帧，研究者从相机外参中合成了问题和答案。

覆盖这五类差异巨大的任务是有意为之的设计。如果只训练某一类编辑，模型会发展成只会干一件事的“专科工人”；而覆盖从局部标注到整图重排的各种变换，才能让模型真正学会“根据问题判断该做什么”的元能力。

为了进一步减少不同任务之间的干扰，研究者为每类任务设计了一个“任务级提示词”，相当于给模型贴上一张任务说明牌。感知类任务的提示词是“在图中用红框标出与问题相关的重要区域”；逻辑类任务的提示词是“用蓝色画出迷宫的最短路径”；拼图类任务的提示词是“画出这道拼图题还原后的原始图片”；三维理解类任务的提示词是“设想一个有助于回答问题的新视角”。这些任务级提示词在训练时帮助模型区分不同任务的编辑空间，在推理时不需要访问理解模型的内部信息，从而让ETCHR可以像插件一样接驳到任何大语言模型上，无需对后者进行额外训练。

在技术实现上，研究者选择了FLUX.2-klein-base-9B作为基础编辑模型，这是一类采用类语言模型编码器的扩散模型，具备较强的文本理解能力。训练时使用了LoRA技术，以较小的参数量实现对扩散变换器的高效微调，LoRA秩设置为768，应用于全部线性层，以保证足够的多任务学习容量。

第二轮培训：强化提升

第二阶段称为“推理增强强化学习”。光靠模仿还不够，因为模仿只能让模型做出“看起来像”的编辑，但不能保证编辑真的有用。第二阶段引入了强化学习，用真实的推理效果来评判编辑质量，让模型从“做得像”升级到“做得对、做得有用”。

训练数据的筛选颇为讲究。研究者从五类任务中各取2000个样本，总共10000对，但只保留那些满足特定条件的样本——理解模型在看原图时答不对，但在看目标修改图时能答对。第一个条件确保这道题确实需要视觉辅助，不是模型自己就能搞定的；第二个条件确保目标修改图提供了真实有效的帮助，从而为强化学习提供一个可靠的上界信号，减少训练过程中的噪声和方差。

奖励信号由两个互补的部分构成。第一个称为“编辑引导奖励”：如果理解模型在看了编辑后的图片之后能回答正确，就给一分，否则零分。这个奖励最直接，优化的就是最终目标——让编辑真的有助于得出正确答案。但它有一个固有的上界限制：如果理解模型本身就不够强，即使编辑完美无误，它也未必能答对，这时候这个奖励就会给出错误的惩罚信号。

第二个称为“编辑正确性奖励”：不去看最终答案，而是让一个“裁判模型”专门判断编辑本身是否正确——比如红框有没有圈到正确的目标，路径有没有画对。这个奖励不受理解模型能力天花板的限制，但裁判模型本身也可能判断有误，有时候会误判一个正确的编辑。两个奖励各有盲区，各有长处，研究者将两者以相等的权重叠加，让它们互相补充、互相纠错。

优化算法采用了Pref-GRPO，这是GRPO算法的一个改进版本。每次训练时，系统为同一张图和同一个问题生成8张不同的编辑结果，然后用上述综合奖励对这8张图进行两两比较，计算每张图相对于其他图的“胜率”，再用归一化后的胜率作为策略优化的优势估计值。相比直接用绝对奖励值，这种两两比较的方式能放大不同编辑结果之间的细微差异，使奖励信号更加显著，训练更加稳定。

推理时的验收环节

ETCHR在推理阶段设计了一个三步流程，研究者称之为“编辑-验证-推理”。第一步，编辑模型接收图片和问题，生成一张候选编辑图。第二步，理解模型检查这张编辑图是否包含了回答问题所需的有效信息，但不在这一步给出最终答案。第三步，如果验证通过，理解模型同时接收原图和编辑图来生成答案；如果验证不通过，则直接回退到只看原图来生成答案。

这个验收环节的必要性在于：编辑错误的代价是不对称的。一张正确的编辑图能提供决定性的视觉线索，帮助模型做出正确判断；但一张错误的编辑图会引入结构性的干扰信息，而大语言模型往往很难从这种干扰中自我纠正，反而会顺着错误的线索越走越偏。与其冒险使用一张可能有问题的图，不如在验证失败时直接回到原图，稳稳地用文字推理解决问题。

四、实验结果：五类任务全面提升

研究者在九个基准测试上对ETCHR进行了全面评估，覆盖了细粒度感知、图表理解、逻辑路径推理、拼图还原以及三维空间理解。ETCHR分别与三种规模和来源各异的理解模型配合测试：开源的Qwen3-VL-8B、闭源的Gemini-3.1-Flash-Lite，以及参数量高达万亿级别的混合专家模型Kimi K2.5。

结果表明，在全部三个理解模型上，ETCHR均带来了稳定的提升。与Qwen3-VL-8B配合时，平均Pass@1从55.95提升到60.77，提升了4.82个百分点；与Gemini-3.1-Flash-Lite配合时，从65.08提升到70.55，提升了5.47个百分点；与体量极大的Kimi K2.5配合时，从76.55提升到81.16，提升了4.61个百分点。

从任务细分来看，ETCHR在逻辑推理和三维空间理解上的提升尤为突出。以Qwen3-VL-8B为基础模型，ETCHR在迷宫任务上将准确率从27.5%提升到38.5%，在三维空间理解的DL3DV-2k任务上从70.8%提升到78.6%，在拼图还原任务上从9.5%提升到13.0%。这些任务正是工具调用型方法完全无法覆盖的领域，因为它们需要全局性的图片变换，而非仅仅在局部画个框。与此同时，细粒度感知和图表理解任务也有稳定的小幅提升，说明ETCHR在局部标注类任务上同样有效。

与工具调用型方法的比较揭示了一个有趣的现象：这些方法在图表理解和细粒度感知上与ETCHR相近甚至略有优势，但由于它们的工具箱根本不支持逻辑路径绘制、拼图还原和三维视角变换，这三类任务的得分接近于零，综合平均分远低于ETCHR配合强力模型时的水平。统一模型型方法则在所有任务上都低于专门的理解模型基线，印证了研究者关于“统一骨干网络的生成和理解能力两边都会打折”的判断。

研究者还额外与闭源的商用图片编辑服务进行了比较。结果显示，两者在感知类和图表类任务上表现相近，但ETCHR在逻辑推理、拼图还原和三维理解任务上有更明显的优势。这与研究者的核心假设一致：在需要编码任务结构的任务上，推理感知训练而非编辑器本身的规模，才是驱动效果的关键因素。

五、消融实验：每个设计都有它的价值

为了验证ETCHR各个设计选择的必要性，研究者做了三组对照实验。

第一组比较了两个训练阶段各自的贡献。结果显示，基础的FLUX编辑模型在大多数任务上都跟没有视觉辅助的原始理解模型差不多，有时候甚至略差，说明未经针对性训练的编辑模型根本起不到推理辅助的作用。加入第一阶段监督微调之后，所有任务均有明显提升。第二阶段强化学习在感知和图表任务上进一步带来了不到1个百分点的额外提升，而在逻辑推理、拼图和三维任务上提升有限。研究者分析认为，这是因为GRPO的滚动采样对于局部标注类任务产生的多张候选图之间差异足够明显，奖励信号能有效区分；而对于需要全局结构性变换的任务，采样出的多张候选图之间的语义差异往往不够丰富，导致策略优化的空间有限。

第二组比较了两种奖励信号单独使用和合并使用的效果。只用编辑引导奖励时，在感知和图表任务上略逊于只用编辑正确性奖励；在逻辑推理任务上两者相近。合并两种奖励之后，在所有任务上均优于或持平于单独使用任一奖励，验证了两种奖励的互补性设计。

第三组测试了“编辑-验证-推理”中的验证环节是否真的必要。实验结果显示，在细粒度感知和图表理解任务上，加入验证步骤的效果明显好于不验证直接推理。这两类任务的共同特征是理解模型的基础准确率本来就比较高，在这个区间内，过滤掉有问题的编辑比提供额外线索更重要。而在逻辑推理和拼图任务上，有无验证的差距不那么明显，甚至在三维任务上出现了轻微的回退。这个发现也暗示了一个改进方向：验证步骤最好根据任务类型或模型置信度有选择地启用。

六、几个有代表性的具体案例

研究者在论文中展示了多个直观的案例，可以很清楚地看出ETCHR相比其他方法的具体差别。

在一道关于图中雕像左右位置判断的题目中，DeepEyes和Thyme尝试调用工具但没有成功，最终给出了错误答案；Zebra-Bagel完全没有修改图片；ThinkMorph修改了图片但框选位置出了偏差；Nano Banana 2的框选位置大致正确但范围粗糙，对推理的帮助有限；只有ETCHR给出了精确框选关键目标的编辑图，配合推理模型得到了正确答案。

在迷宫路径绘制任务中，Zebra-Bagel的输出图像出现了明显的损坏，ThinkMorph画出了错误的路径，Nano Banana 2也画错了路径，只有ETCHR准确画出了从起点到终点的正确路径，并在推理时成功引导模型按路径描述出正确的移动序列。

在拼图还原任务中，理解模型在没有编辑辅助的情况下通过镜像反射关系推断出了一个错误的排列顺序；而ETCHR生成了一张还原后的完整图片，让理解模型能够直接比对两张图片，从而得出了正确答案。

在三维视角理解任务中，原图拍摄的是两位女性从正面的画面，问题是从其中穿绿衣女性的视角来看，穿红衣女性在哪个方向。不借助视角变换，模型从图中看到绿衣女性在左边，推断红衣女性在她的右前方，但这是相机视角而非绿衣女性本人的视角，因此答案是错的。ETCHR生成了一张模拟从两人背后拍摄的图片，从这个视角可以清楚看出绿衣女性在右边，红衣女性在她的左边，推理模型据此得出了正确答案。

说到底，ETCHR做的事情其实并不神秘，它只是把人类在解决视觉推理问题时的一个朴素直觉——“看不清就画出来再看”——用工程化的方式实现在了AI系统里。整个设计里有三个关键细节支撑着这个朴素思路的实际落地：训练数据覆盖了五类差异巨大的任务，防止模型只会一种编辑；两阶段训练先打基础再提质量；推理时的验证环节防止错误编辑污染最终答案。这套系统最吸引人的地方或许在于，因为编辑器和理解器被彻底解耦，ETCHR可以像一个通用插件一样接入任何已有的视觉语言模型，无需对那些模型进行任何额外训练——无论是开源的Qwen3-VL还是闭源的Gemini和Kimi，都能直接从中受益。

当然，这项研究也坦诚地指出了自身的局限。GRPO在处理需要全局结构变换的任务时，候选样本之间的语义多样性不足，限制了强化学习阶段的探索效果；整个系统的最终表现仍然受制于理解模型本身的能力上限，即使编辑完美，也无法弥补理解模型推理能力的不足；此外，每次推理都需要额外生成一张图片，相比纯文字推理会增加时间开销。这些都是后续研究值得继续深入的方向。

对这项研究感兴趣的读者，可以通过arXiv编号2605.23897查阅完整论文。

Q&A

Q1：ETCHR和普通的图片编辑AI有什么区别？

普通图片编辑AI只会按照明确指令操作，比如你告诉它“把天空变成蓝色”它才会执行。ETCHR则不同，它能从一个问题本身推断出自己该对图片做什么样的修改，相当于从“被动执行”升级成了“主动判断”，而且修改的目的是帮助AI更好地回答问题。

Q2：ETCHR的“编辑-验证-推理”流程具体是怎么运作的？

流程分三步。第一步，编辑模型根据原图和问题生成一张修改后的图片。第二步，理解模型检查这张修改图里有没有真正有用的信息，但这一步不给出最终答案。第三步，如果修改图通过检查，理解模型同时看原图和修改图来回答问题；如果没通过，直接只看原图回答。这样能防止错误的修改图把推理带偏。

Q3：ETCHR为什么在迷宫和拼图这类任务上提升比画框圈重点更明显？

因为这两类任务需要对图片做全局性的结构变换，而不只是局部标注。现有的工具调用型方法根本不支持这类操作，而ETCHR经过专项训练后具备了绘制完整路径、还原拼图顺序等能力，直接填补了这个空白。相比之下，画框圈重点这类任务很多系统都能做，所以ETCHR的相对优势没那么突出，但依然有稳定的小幅提升。

来源：https://www.163.com/dy/article/KU4OI4E10511DTVV.html

实验室

上一篇OpenAI升级GPT-5.5 Instant，AI回复更自然易读 下一篇九号2026发布会连发四款新车重新定义好车标准

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。