港理工新研究：AI图片编辑结合手势与文字指令更精准

时间：2026-06-20 14:19

香港理工大学与OPPO研究院提出TV-Edit方法，通过结合文字指令与手势轨迹实现图像编辑。研究构建TV-Edit-23K数据集，并设计内容感知空间控制器，动态调整控制强度。实验表明，TV-Edit在几何精度和语义忠实度上均优于现有方法，密集匹配距离较拖拽类方法提升28 7%，指令遵循分达到0 93。

香港理工大学视觉计算实验室与OPPO研究院联合推出的这项研究成果，以预印本形式于2026年6月发布，论文编号为arXiv:2606.16767。完整的论文内容可在arXiv平台上获取。

你是否曾遇到这样的情况？你打开一款AI图片编辑工具，希望将照片中猫咪的头部稍微向左转动，于是输入“让猫咪的头略微向左转”。然而，AI却将其理解成“大幅度扭转猫头”，导致照片变得面目全非。随后，你又尝试了另一款支持“拖拽”功能的工具，用鼠标拖动猫咪的鼻尖来指定方向，结果猫脸被奇怪地拉伸变形，完全不像自然转头，更像是被用力揉捏了一番。

这两种操作体验，一种依赖文字，一种依赖手势，都令人感到困扰。问题在于，这两种方式各自只掌握了部分信息。而这正是香港理工大学研究团队想要解决的核心难题：如何让AI既能“理解”你说的话语，又能“看懂”你比划的动作。

两种工具各有局限，单一模式均显不足

要理解这一问题的价值，首先需要审视当前AI图片编辑工具所面临的瓶颈。

目前主流的AI图片编辑主要分为两大路径。第一条路径是“基于文字指令”，你输入一段描述，AI便据此进行修改。像FLUX.1 Kontext和Qwen-Image-Edit这类大模型，在改变颜色、材质、物体类别等方面表现出色。但文字存在一个天然缺陷：它难以精确描述“程度”和“位置”。“稍微”究竟是多少？“向左一点”具体是几厘米？文字本质上是模糊的，AI对“稍微”的理解很可能与你相去甚远。

第二条路径是“基于手势指令”，即“拖拽编辑”。你在图片上标记起点和终点，告诉AI“将这个点从这里移到那里”。GoodDrag、DragDiffusion等方法在精确控制空间位置方面具有优势，能够明确知道该移动哪里、移动多少。然而，纯手势操作存在另一个致命弱点：它无法理解语义，只懂得几何变换。在鳄鱼图片的上颌处画一个向上的箭头，你的意图可能是“张开嘴”，但AI只看到“这个点需要向上移动”，于是它简单地将上颌的皮肤和骨骼向上拉扯变形，而非执行张嘴这一自然动作。

文字理解意图，却不了解位置。手势明确位置，却不懂意图。这好比在指挥一位厨师：一种方式只告诉他“做一道微辣的菜”，他无法确定加多少辣椒；另一种方式只给他演示“加两勺辣椒”的动作，他却不知道这是要做红烧肉还是麻婆豆腐。最佳解决方案显然是两者结合：一边说“做一道微辣的麻婆豆腐”，一边演示“加入这么多辣椒”。

基于这一洞察，研究团队提出了一个全新的任务——“文本-视觉协同指令图像编辑”，简称为TV-Edit。

构建一个能同时理解两种语言的翻译器

明确了问题，但第一个挑战随即而来：缺乏合适的训练数据。

现有的图片编辑数据集要么仅有文字标注，要么仅有手势轨迹，没有一套同时包含文字说明和精确空间轨迹的完整数据。研究团队的解决方案是：从视频中寻找答案。

视频本质上是“时间轴上的图片序列”，相邻两帧之间的物体运动恰好构成了现成的空间轨迹，而这段运动又可以描述为自然语言指令。研究团队从公开视频数据集中收集素材，将每一段视频切分成起始帧与结束帧的配对，并通过一套三步流程来制作训练数据。

第一步处理空间信息。他们使用了两种专用工具：SEA-RAFT负责计算光流，即图片中每个像素从第一帧到第二帧的移动量；Co-Tracker-V3负责追踪密集的网格点，记录每个点的具体轨迹。随后，根据运动幅度的大小筛选出值得保留的点——运动幅度大的地方更为重要，但小幅运动也不能忽略。最终保留的是一组稀疏的“起点-终点”坐标对，精确记录了哪些位置移动到了何处。

第二步生成文字描述。直接将两张图片提供给AI语言模型，要求其描述“发生了什么”，这种方式容易产生误差，模型易受无关信息干扰。研究团队采用了一种更巧妙的方法：先将第一步找到的特征点用不同颜色标注在图片上，然后指示语言模型“仅关注这些标注点的运动，描述它们从一张图到另一张图的变化”。这种“视觉提示”策略使语言模型的注意力集中在真正重要的运动上，生成的文字描述也更加精准。

第三步进行质量过滤。原始视频中包含许多不适合用于图片编辑训练的素材，如镜头抖动、背景整体移动、模糊或质量较差的帧。研究团队设计了一套过滤规则，通过检测边界区域的光流来排除“摄像机移动”的情况，确保只保留“图中物体运动而背景静止”的素材。此外，他们还采用了一个“生成-验证”的闭环机制来检查文字描述的质量，让AI自行检验所生成的描述是否与图片内容相匹配。

经过这三步处理，研究团队最终积累了23,000组高质量的训练样本，并将其命名为TV-Edit-23K数据集。每组样本均包含起始图片、结束图片、空间轨迹坐标和文字描述。而且，每组数据还可以“正反两用”——从起始图到结束图是一个训练样本，从结束图返回起始图则是另一个样本，实际可用于训练的对数因此翻倍。

一个可集成现有系统的“空间理解模块”

有了数据，接下来是模型架构的设计。研究团队面临一个重要的工程选择：是重新训练一个全新的AI模型，还是在现有强大模型的基础上增添新能力？

他们选择了后者。理由非常务实：现有的大型图片编辑模型（如Qwen-Image-Edit和FLUX.1 Kontext）已经投入了大量资源，并训练出了强大的语义理解能力。要让它们具备空间控制能力，最高效的方式是添加一个专门负责空间理解的“插件”，而非推倒重来。

这个“插件”被命名为“内容感知空间控制器”。其工作原理可以用一个比喻来理解：原有的庞大AI模型就像一位经验丰富的室内设计师，擅长判断风格与美感，但不擅长精确测量“沙发需要左移多少厘米”。新加入的控制器则像一位精准的测量助手，他不仅能告诉设计师“沙发要从这里移到那里”，还能结合房间的整体布局来解读这一移动指令——同样是“左移”，在不同格局下可能意味着完全不同的操作细节。

从技术实现角度来看，这个控制器的工作分为几个层次。首先，系统将用户指定的“起点-终点”坐标对转化为两张特殊的“地图”：一张标注了每个控制点在起始图中的位置，另一张标注了这些点在目标位置的坐标。每个点的值被设为其编号，这样即便处理多个点，系统也能知道哪个起点对应哪个终点。接着，这两张位置地图经过一个轻量级的编码器处理，转化为与图片尺寸匹配的特征表示。这些特征随后分别与起始图的图像特征和噪声特征拼接，使空间坐标信息“嵌入”到图像内容的语境中。

经过这一步骤，控制器所理解的就不再是抽象的“某个点要从(104, 492)移到(271, 389)”，而是“猫鼻子这个位置需要移到那个位置”——同样的坐标，现在有了具体的物体语义支撑。

然后，这些“带有物体语义的空间信息”被送入控制器的核心——一组轻量化的Transformer模块。为了防止控制器过于笨重，研究团队采取了两种瘦身措施：将控制器内部的特征维度缩减一半（参数量减少约75%），并仅使用5层Transformer块，而非原始大模型的60层。

不过，精简之后可能导致控制器的表达能力不足，“声音过小”让大模型难以听清。为解决这一问题，研究团队引入了一个“时间调制注入层”——这可以说是整个设计中相当精妙的细节。在AI生成图片的过程中，早期步骤负责确定整体结构与布局，后期步骤负责填充细节与纹理。时间调制注入层会根据当前所处的生成步骤，动态调整控制器对大模型施加的影响强度。在早期的结构性步骤中放大空间控制信号，在后期细节步骤中适当收敛，从而实现整体结构与局部细节之间更好的平衡。

这个控制器最终会生成一系列“残差控制特征”，以类似ControlNet的方式注入到大模型的各层中，持续引导整个生成过程。这套机制的一个重要特点是“即插即用”——只需对不同的基础大模型进行少量适配，同一套控制器架构即可分别与Qwen-Image-Edit和FLUX.1 Kontext配合使用。

训练中的一个小技巧：让AI先把握大局，再精修细节

模型架构确定后，训练策略同样有其独到之处。

AI生成图片的过程可以理解为“从噪声中雕刻图像”：一开始全是噪点，经过多个步骤逐步清晰。在早期步骤（噪声较多）中，AI确定画面的整体结构和空间布局；在后期步骤（噪声较少）中，AI打磨毛发、纹理等细节。对于TV-Edit这种以空间控制为核心的任务，早期步骤显然更为关键——如果物体位置一开始就没有移动到位，后期再怎么精修细节也无济于事。

研究团队因此选择了一个偏向早期步骤的训练目标（技术上称为“Z0预测目标”）。其数学效果相当于给不同时间步骤的损失乘以不同的权重系数——时间步骤值越大（噪声越多、越早期），权重越大，惩罚越重。这意味着模型在训练时被强制要求在最为嘈杂的早期阶段就正确完成空间布局，而不是将希望寄托于后期细节修正。

在此基础上，研究团队还显式地调整了训练时随机采样时间步骤的分布。他们采用一种名为Beta分布的概率分布，初始时将采样重心放在大时间步骤（高噪声区间），随着训练的推进逐渐松开这一偏置。通过系统实验，他们发现Beta(5,2)这一参数配置效果最佳：它将训练注意力主要集中在高噪声阶段，同时保留了对低噪声阶段的适度覆盖，两者缺一不可。

一把公平的标尺：专为这一新任务设计的评测标准

TV-Edit是一个全新的任务，而新任务需要新的评测方法。

研究团队发现，现有的评测体系无法全面衡量“文字加手势协同编辑”的质量。DragBench专门评测拖拽编辑，只关注几何精度，不评估语义是否正确；文字编辑的基准测试则只看语义，不关注空间。因此，他们构建了TV-Edit-Bench，一个包含120个精心筛选样本的全新评测集。

这120个样本来自三个不同来源，各承担不同的测试使命。第一部分来自真实视频的帧对，捕捉自然世界中真实发生的运动模式。第二部分来自图片转视频模型（Wan2.2）生成的素材，专门用于测试“运动幅度控制”的能力：同一个动作，仅改变幅度，看AI能否精确跟随。例如，同样是“让狗狗的头向左转”，一个样本转动15度，另一个转动45度，文字指令相同但手势轨迹长短不同，AI能否准确区分？第三部分来自NanoBanana Pro等先进编辑模型生成的图片对，专门用于测试“语义消歧”能力：同样的手势轨迹，配上不同的文字（如“抬头”和“张嘴”），AI能否根据文字选择正确的语义动作？

评测指标也被设计为三个维度，缺一不可。图像保真度方面，使用LPIPS指标衡量编辑结果与参考目标图片之间的像素级相似度，同时引入基于DINOv3模型的全局相似度和局部相似度两个指标，后者更能抵抗轻微的像素错位干扰，给出更公平的评价。几何精度方面，在编辑结果中找到与目标点对应的位置，计算实际落点与理想落点之间的距离，分别报告稀疏匹配距离和密集匹配距离，距离越小表示空间控制越精准。语义忠实度方面，使用Qwen-3-VL这样的大型多模态语言模型作为评估者，给出两项打分：一项是“概念保留分”，评估图片中未被编辑的区域是否保持原样；另一项是“指令遵循分”，评估编辑结果是否忠实执行了文字指令的语义意图。

实验结果：两类方法的短板一目了然，TV-Edit双双突破

研究团队将TV-Edit与一批代表性方法进行了正面比较，包括GoodDrag、DragDiffusion、LightningDrag等拖拽类方法，以及FLUX-Kontext、Qwen-Image-Edit、NanoBanana Pro等文字指令类方法。

实验结果非常清晰地揭示了两类方法各自的致命缺陷。拖拽类方法在几何精度上表现出色，以GoodDrag为例，其密集匹配距离达到0.0648，空间控制相当准确。但它的指令遵循分仅为0.75——意味着AI知道“将某个点移到何处”，却经常搞错“这个移动对应什么自然动作”。文字指令类方法恰好相反，NanoBanana Pro的全局一致性达到0.9432，概念保留接近满分，但密集匹配距离高达0.1195，远超拖拽类方法——文字可以说明要做什么，却无法控制具体移动到哪里。

TV-Edit打破了这种两难困境。TV-Edit-Qwen版本在密集匹配距离上达到0.0462，比最好的拖拽类方法提升28.7%，空间控制精度反而超越了专门为空间控制设计的拖拽工具。与此同时，它的指令遵循分达到0.93，不仅比基础模型Qwen-Image-Edit（0.86）显著提升，甚至超过了谷歌的商业闭源模型NanoBanana Pro（0.89）。这说明视觉轨迹信息不仅提供了几何约束，还帮助AI更准确地理解了文字指令的语义意图——两种信号产生了正向的化学反应。

在视觉对比上，这种差异更加直观。当要求AI“让狐狸微微张开嘴”时，拖拽类方法往往将狐狸的脸拉扯变形；文字类方法通常能做出张嘴动作，但开口幅度往往过大或方向不对；而TV-Edit能准确实现“微微张开”这一既有语义又有幅度约束的复合指令。在移动狗狗位置的案例中，TV-Edit在没有明确指令的情况下，甚至能理解狗绳应该跟着狗一起移动——这是一种基于场景理解的隐性推断能力。

研究团队还额外在传统的DragBench评测集上测试了TV-Edit，与专门针对拖拽任务设计的方法相对比。TV-Edit-Qwen的平均点位偏移误差达到17.31，远低于最好的对比方法GoodDrag（24.26）和DragLora（23.77），说明TV-Edit的空间控制能力即便放在纯几何任务的评判标准下，也具备很强的竞争力。

更多可能性：同时调整外观与位置

研究团队还展示了一项令人印象深刻的扩展能力：TV-Edit可以同时完成空间变换和外观改造。

在展示的案例中，用户给一只柯基犬的图片指定了“头部向右转”的运动轨迹，同时在文字指令中加上“把它变成老虎”。最终的结果是：一只老虎的头部按照指定的幅度和方向完成了转头动作。类似地，用户可以一边控制老虎头部变大的幅度，一边让老虎变成白色；一边控制北极熊头部缩小，一边给北极熊戴上皇冠或太阳镜。这表明TV-Edit并未牺牲大型基础模型原本强大的语义编辑能力，而是在此基础上叠加了精细的空间控制层。

自我审视：哪些方面还可以改进

研究团队在论文中也坦诚指出了TV-Edit的两个局限性。

其一是速度。TV-Edit构建在大型基础编辑模型之上，而这类模型的推理速度本身就较慢，这使得TV-Edit目前还无法支持实时交互式编辑——用户拖动一个点后需要等待一段时间才能看到结果，这对于需要频繁微调的创作流程来说是一个障碍。

其二是三维局限性。TV-Edit擅长处理二维平面上的运动，例如左右移动、简单的大小变化、在图片平面内的旋转等。但对于需要理解三维空间的操作——比如让一个正面朝向的人物侧转身体（涉及透视变形）——当前系统的能力还较为有限。这是因为稀疏的二维坐标轨迹本质上是无法完整表达三维变换所需的深度信息的。

总的来说，TV-Edit这项研究做了一件看似简单、实则精妙的事情：它发现了两种主流AI编辑方式各自的“语言缺陷”，然后设计了一套让这两种缺陷语言相互补充的机制。文字告诉AI“你要做什么”，手势告诉AI“要做多少、做到哪里”，两者合一，AI终于能够真正“听懂”复杂的编辑意图。

对于普通用户而言，这意味着一种更加自然的交互体验：你无需再费尽心思措辞，也不必担心拖拽手势被错误解读——你可以同时用嘴巴说和手比划，就像与真人助手沟通一样。对于创作者来说，这开辟了一个新的可能性空间：精确到幅度的形变控制，与创意性的外观改变，可以在同一次操作中无缝完成。

这项研究的数据、模型和代码均承诺开放发布，有兴趣深入探索的读者可以通过arXiv编号2606.16767找到完整论文，并跟踪代码和数据集的发布进度。

Q&A

Q1：TV-Edit与普通的AI图片编辑有何不同？

A：普通AI图片编辑要么只能使用文字指令，要么只能使用拖拽手势，两者各有缺陷：文字无法清晰表述“移动多少”，手势无法理解“要做什么动作”。TV-Edit同时接受文字和手势两种输入，文字提供语义意图，手势提供空间约束，两者协同工作，编辑结果更为精准。

Q2：TV-Edit-23K数据集是如何构建的？

A：研究团队从公开视频数据集中收集素材，取每段视频的起始帧和结束帧作为图片对，利用光流算法和点追踪算法提取物体的运动轨迹作为手势标注，再通过多模态语言模型（Qwen-3-VL）生成对应的文字描述，经过严格的质量过滤后，最终获得23,000组完整的训练样本。

Q3：TV-Edit能否同时修改图片的外观与位置？

A：可以。TV-Edit在提供空间轨迹控制的同时，完整保留了基础大模型的语义编辑能力。用户可以在文字指令中加入外观改变要求（如“变成老虎”或“戴上太阳镜”），同时通过手势指定空间变换，模型会同步执行这两类操作。

来源：https://www.163.com/dy/article/KVQNM8030511DTVV.html

AI图片

上一篇清华大学研究发现AI大模型存在偷懒规律 下一篇清华慕尼黑工大等高校让AI扩散语言模型学会回忆未来

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。