AI看图编程测试表现平平形状代码测试台结果分析

时间：2026-05-21 11:12

一项研究测试了AI根据几何图形图片生成绘图代码的能力，使用ShapeCodeBench自动生成题目并评分。结果显示，简单场景下传统计算机视觉方法在精确匹配上占优；而在形状重叠的复杂场景中，AI模型凭借整体理解能力实现了更好的结构还原。

一项聚焦于AI“视觉编程”能力的前沿研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.11680。相关的完整数据集与评估代码已开源，存档于Zenodo平台，DOI为10.5281/zenodo.20132286。

设想这样一个任务：你面前有一张图片，上面画着两个黑色圆形和一个黑色正方形轮廓。你的目标不是描述它，而是编写一段计算机程序，让机器能够精确地复现这张图。你需要准确指定每个形状的位置坐标、尺寸大小、填充样式，精度需达到像素级别。这对人类而言颇具挑战，对人工智能系统来说，同样是一项艰巨的考验。

这正是ShapeCodeBench基准测试研究的核心目标——评估AI模型“视觉到代码”的转换能力，即给定一张图像，让模型输出能重建该图像的绘图代码。研究者将这一任务定义为“从视觉感知到程序生成的重建”，通俗而言就是“AI看图写代码”。他们构建了一套系统化的评测框架，用以全面衡量当前顶尖多模态AI在此任务上的真实性能。结论如何？结果表明：距离完美表现仍有显著差距，提升空间巨大。

一、为何需要构建专用AI绘图代码评测基准

在人工智能领域，要客观评估模型能力，离不开精心设计的“考题”，即基准测试。一套优秀的基准测试需满足几个核心标准：评分机制必须客观、公正，避免因答案表述差异而产生误判；题目需能真实反映问题复杂度的层次；同时，还需具备可持续性和防作弊能力，防止模型通过记忆训练数据获得虚高分数。

现有同类评测大多仅满足部分条件。例如，部分测试依赖人工评分，效率低下且主观性强；另一些测试的题目集一旦公开，易被模型“过拟合”，导致评估失真。这好比考试题目泄露后，学生背诵答案即可得高分，但实际能力并未得到验证。

ShapeCodeBench的设计者提出了一个创新解决方案：基于随机数种子动态生成题目。每道题均源自一个数字“种子”，只需更换种子，即可源源不断地生成全新、未见过的测试用例。从题目生成到自动评分，全过程无需人工干预，实现了全自动化评测。这相当于构建了一台能够自动出题、自动阅卷的“考试机器”，生成150道新题仅需不到一秒。

二、基准测试具体考察哪些AI编程能力

整个测试基于一套极简的“绘图指令集”。该语言仅包含四条命令：绘制实心圆、空心圆、实心正方形、空心正方形。每条指令需指定图形中心点坐标、尺寸参数，空心图形还需指定边框线宽。画布固定为512×512像素的白色背景，所有坐标与尺寸均为整数值。

一道典型题目如下：向AI模型展示一张包含实心圆与空心正方形的图片；AI需要输出两行代码，分别描述圆形的位置与半径，以及正方形的位置、边长与线宽。系统将执行AI生成的代码，渲染出新图像，并与原始图像进行逐像素比对，计算差异度。

评分体系涵盖五个维度。最严格的是“完全匹配率”，要求生成图与原图像素级完全一致，不容许任何偏差。较宽松的是“像素准确率”，计算一致像素的比例。关键指标“前景IoU”则专门评估黑色图形区域的重叠度，排除白色背景干扰，更能反映形状位置与大小的还原准确性。此外，系统还会记录AI代码能否被成功解析与执行，用以判断是否存在语法或逻辑错误。

题目按复杂度分为三个等级。简单级别包含1-3个形状，形状较大、线宽较粗，形状间无重叠，且基本不超出画布边界。中等级别包含3-6个形状，尺寸减小，允许少量边界溢出，形状可相邻但边界框重叠不超过35%。困难级别包含6-10个形状，尺寸进一步缩小，全部部分超出边界，且强制形状间存在重叠，无重叠上限约束。

这种分级设计意图明确：简单级别测试“AI能否准确识别并定位少数几个清晰独立的形状”，而困难级别则挑战“AI能否在形状相互遮挡、部分超界的复杂视觉场景下，完整还原出生成程序”。

三、参与评测的AI模型与对比方案

研究共评测了六套方案，其中两套为无AI推理能力的基础对照组，另外四套为前沿多模态AI模型配置。

第一套对照组是“空程序”，策略为无论输入何种图像，均输出空字符串。这设定了性能底线，任何有效系统都应超越它。

第二套对照组是“传统计算机视觉启发式方法”。该方法不依赖任何AI，仅使用经典图像处理技术：先将图像二值化，识别所有连通黑色区域，计算每个区域边界框的填充比例以判断实心或空心，通过形态学腐蚀进一步确认，并依据面积与周长之比估算线宽。最后，将几何估算结果转换为绘图指令输出。该方法完全基于规则计算，不涉及机器学习。

真正的AI参赛者包括四个配置，来自两家公司的顶尖模型。其一是Anthropic的Claude Opus 4.7，分别以“高推理强度”和“最高推理强度”模式参与。其二是OpenAI的GPT-5.5，分别以“中等推理强度”和“超高推理强度”模式参与。

所有AI配置均采用相同的“零样本”提示策略，即不提供任何示例，仅给出系统指令（“仅返回合法绘图代码，勿添加代码块标记、注释或说明文字”）及四个函数的格式说明。AI接收图像和文本提示后，直接生成代码，无任何预热或参考。

四、评测结果：揭示各方案优势与短板

测试结果清晰勾勒出各系统的“能力剖面”，优势与缺陷一目了然。

在最严格的“完全匹配率”指标上，传统计算机视觉方法以8.7%的匹配率位居第一，GPT-5.5中等推理强度以2.7%位列第二，GPT-5.5超高推理强度以2.0%排第三，Claude Opus 4.7两种配置的完全匹配率均为0%。空程序自然为0%。

这些数值虽低，但不同难度级别的对比更具启发性。在简单级别，传统方法以26%的完全匹配率大幅领先，而所有AI配置的最高匹配率仅约8%。进入中等和困难级别，传统方法的匹配率骤降至接近零，而AI配置虽也不高，但表现相对更稳定。

这一“交叉”现象背后的逻辑清晰：传统方法依赖于“识别独立连通区域”的操作。当形状互不重叠时，此操作极为精准，每个形状对应一个独立黑色区域，易于计算。一旦形状发生重叠，多个形状的像素区域便粘连成片，传统方法无法区分“这一片黑色实为多个重叠形状”，导致估算错误。AI模型则不依赖底层连通性，能从视觉整体上理解“此处有两个部分重叠的圆形”，因此在复杂场景下保持了更好的结构感知能力。

再看更宽松的“前景IoU”指标。GPT-5.5超高推理强度以0.865的平均值排名第一，GPT-5.5中等推理强度以0.850紧随其后，两个Claude配置约在0.44至0.46之间，传统方法为0.583。在简单级别，GPT-5.5两种配置的前景IoU接近0.87，传统方法约为0.74，Claude配置则在0.41到0.44之间。

此处出现第二个关键对比：GPT-5.5在前景IoU上全面领先，但在完全匹配率上却低于传统方法（于简单级别）。这表明GPT-5.5能大致还原形状的位置与大小，但参数估算存在数个像素的误差，导致无法实现像素级精确匹配。换言之，GPT-5.5生成的程序“大致正确”，但未能达到“绝对精确”。

Claude的表现则不同。其前景IoU在各难度级别上均低于传统方法，说明其在还原形状整体空间结构方面，甚至不及基于规则的几何计算。这是一个更为根本性的差距，不止是参数精度问题。

在代码格式合法性方面，所有AI配置的解析成功率均较高，Claude两种配置分别为98%和100%，GPT-5.5两种配置分别为97.3%和99.3%。少数解析错误主要集中于两类问题：坐标或尺寸超出合法范围，以及线宽超过了形状允许的最大值。这表明AI模型大多能生成语法正确的代码，仅偶尔对参数范围限制理解不够准确。

五、错误模式分析：AI与传统方法的失败类型

研究者对错误案例进行了系统性归类，形成了详细的“失败画像”。

对AI模型而言，失败主要分为三类。第一类是“形状识别正确，参数存在像素级偏差”，这在简单级别最常见。AI能识别出图中有一个实心圆和一个空心正方形，也大致知晓其位置，但圆心坐标输出为(245, 187)而实际是(248, 190)，或半径输出为78而实际是81。此类误差不影响视觉观感，但会导致完全匹配失败。第二类是“遮挡场景下遗漏形状”，在困难级别中，多个形状堆叠时，AI可能仅识别出外层可见形状，忽略了被完全或部分遮挡的形状。第三类是“空心与实心混淆”，当线条非常细时，AI可能将空心圆误判为实心圆。

对传统方法而言，失败的根本原因如前所述：形状连通后无法分割。此外，其线宽估算采用面积除以周长的近似公式，在形状规整时较为准确，但遇到边缘不平整或形状极小时，误差会显著增大。

从这些失败模式可见，简单级别隐藏着一个有趣挑战：对AI而言，“识别形状位置”相对容易，难在“以像素级精度输出坐标数字”。传统方法因直接测量像素坐标，在简单场景下反而占优。但这种优势在形状开始重叠时便迅速消失。

六、评测框架设计细节与可复现性保障

本研究在可复现性方面设计周密。评测集eval_v1包含150道题目，各难度级别50道，使用0至49的连续整数作为种子生成。每张图片的SHA-256哈希值均已公开，任何人运行相同生成代码即可获得完全一致的图片，便于验证数据集正确性。

代码解析器的安全性经过专门设计。它基于Python的抽象语法树模块，但严格限制了允许的语法：仅允许四种函数调用、仅允许关键字参数、仅允许整数字面量，禁止变量、循环、导入、属性访问等任何其他Python语法。这意味着AI无法通过代码注入或执行恶意操作，保障了评测系统的安全。

渲染器使用Python图像库Pillow，具有完全确定性——相同代码每次都会生成完全相同的图片。评测流程——解析代码、渲染图像、与原图对比——三步全自动完成，无需人工介入。

在测试不同AI配置时，研究者为Claude使用了Claude Code命令行工具，为GPT-5.5使用了OpenAI Codex命令行工具。每道题设置超时限制，失败时最多重试两次。每次运行都会将完整的请求内容、原始输出、归一化后的预测、延迟时间及详细评分结果保存至文件，便于后续核查与复现。

七、研究局限性与未来探索方向

研究者在论文中明确列出了当前版本的若干局限，体现了科学的严谨性。

首先，当前版本仅支持黑白两色，这导致一个隐含特性：后绘制的形状无法覆盖或擦除先绘制的形状，只能叠加。这意味着绘图顺序不影响最终结果，评测无法考察“绘制顺序推理”能力。若未来引入多色或“清除”指令，绘图顺序将变得关键，测试难度也会大幅提升。

其次，当前绘图语言仅包含四种基本图形，缺乏矩形、直线、多边形、曲线等。这是刻意的简化，旨在使错误原因更易定位，但也意味着测试无法反映对复杂图形的理解能力。

再次，所有测试均为零样本，未给AI提供任何示例。提供少量示例，或让AI进行链式思考，可能会显著改变结果，但这些实验未包含在当前版本中。

此外，研究未评估人类在此任务上的表现水平。缺乏人类基准，便难以直观判断“该任务的实际难度”——是普通人可轻松完成，还是需要专业知识与大量时间？研究者计划在后续版本中补充此项对比。

最后，模型推理本身存在随机性，因此即使使用完全相同的图片和提示，两次运行也可能得到不同代码。研究者公开了每次运行的配置参数与全部原始输出，便于他人尝试复现，但无法保证数字完全一致。

归根结底，ShapeCodeBench最引人深思之处，在于它揭示了一个反直觉现象：在最简单场景下，完全不用AI的传统计算机视觉方法，竟比当今最顶尖的多模态大模型更精准；而在复杂场景下，情况则发生逆转。这表明当前的AI在“视觉编程”任务上，既非完全无能，也远未达到实用级可靠——它处于一种微妙的中间状态。

传统方法好比一位仅会用直尺测量的工匠，在无遮挡时测量精准，但一旦形状叠放便束手无策。AI模型则更像一位具备整体视觉理解的人类，能大致看出图像内容，但在精确报出每个像素坐标上尚不够稳定。若能结合两者优势——用AI理解整体结构，再用精确计算细化参数——或许能在两个维度上同时取得突破。这也是研究者隐含在设计中的未来方向暗示。

此评测基准的终极价值，在于它提供了一个可持续使用的“标准化考场”。只需更换随机种子，即可生成全新试题，无需担心AI通过记忆题库作弊，也无需人工标注评判。对于希望追踪多模态AI在结构化视觉理解领域进展的研究者而言，这是一个可随时调用的高效工具。目前最佳完全匹配率仅8.7%，最佳AI前景IoU为0.865，距离“基本解决该问题”仍有相当长的路要走，评测基准远未达到性能饱和。

Q&A

Q1：ShapeCodeBench基准测试主要评估AI的哪种能力？

A：ShapeCodeBench专门用于评估多模态AI模型的“视觉到代码生成”能力。具体而言，是测试模型在接收一张包含圆形和正方形的黑白图片后，能否生成一段可完整复现该图像的绘图程序，并通过运行程序生成的图像与原图进行像素级比对来评分。

Q2：为何传统计算机视觉方法在简单场景下比AI更准确？

A：传统方法通过直接测量图像中独立黑色区域的像素坐标与面积来估算形状参数，当形状互不重叠时，这种测量极为精准。AI模型虽能大致识别形状位置，但在以像素级精度输出坐标数值时，存在几个像素的偏差，导致无法实现完全匹配。简单场景下形状分离，传统方法的直接测量优势得以充分发挥。

Q3：ShapeCodeBench如何防止AI通过记忆题目获得高分？

A：ShapeCodeBench的每道题目均由一个随机数种子动态生成，只需更换种子即可生成全新的、从未出现过的题目集合，整个过程完全自动化，无需人工标注。研究者将这一特性称为“可再生性”，确保任何人都能随时生成全新测试集，从而有效防止AI通过记忆已有题目数据来刷高分数。

来源：https://www.163.com/dy/article/KTD0F6CM0511DTVV.html

上一篇七彩虹618游戏电脑主板直降千元国补价整机套装限时抢购 下一篇宜鼎推出全系列10GbE高速局域网扩展模块搭载英特尔控制器

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。