上海交大团队解析AI数学解题视觉识别错误原因

首页

热心网友

转载

2026-05-14

看到一道几何题或物理图表，我们通常能迅速抓住关键信息。但你是否想过，那些号称“智能”的AI模型，在面对同样的STEM（科学、技术、工程、数学）图像时，为何总会犯一些令人费解的低级错误？

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

上海交通大学团队揭秘：AI为什么总是在数学题上

答案可能比想象中更简单，也更碘伏直觉。一项由上海交通大学、阿里巴巴达摩院Qwen团队等多家机构联合开展的研究，于2025年3月发表在arXiv预印本平台（论文编号：arXiv:2603.10757v1），首次系统性地揭示了问题的核心：AI在STEM领域的失误，主要症结并非“不会推理”，而是“看不清楚”。

这个结论挑战了长期以来的主流认知。过去，研究者们普遍将AI在数理问题上的短板归咎于逻辑推理能力不足，并投入大量资源试图增强其“思考”能力。然而，上海交大的团队通过精巧的实验设计，将视觉感知与逻辑推理过程剥离开来，意外地发现，视觉理解才是真正的瓶颈所在。

基于这一洞察，研究团队提出了一个创新概念——“代码驱动感知”。其思路直指要害：既然用自然语言描述复杂的STEM图像存在天然的模糊性和信息损耗，何不让AI使用更精确的编程语言来“看懂”图像？这相当于为AI配备了一副数学语言的“眼镜”，使其能超越文字描述的局限。

围绕这一理念，团队开发了名为CodePercept的创新框架，并构建了包含100万个图像-文字-代码三元组的大规模数据集ICC-1M。更重要的是，他们建立了一个全新的评测基准STEM2Code-Eval，其核心要求是：AI不仅要“看懂”图像，还必须生成可执行的Python代码来完美复现它。这为评估AI的视觉理解能力提供了一个严格且可验证的新标准。

一、被低估的“视力”问题

理解这项研究的意义，不妨做个类比。诊断一个病人，病因可能在于视力模糊，也可能在于知识匮乏。要找出真相，需要设计隔离变量的实验。

研究团队正是如此操作的。他们设计了两阶段测试：第一阶段让AI描述图像内容（测“视力”），第二阶段基于描述进行解题（测“推理”）。通过分别增强这两个阶段的能力，结果令人惊讶。

当AI模型的参数规模从40亿扩展到320亿时，无论何种配置，增强视觉感知能力带来的性能提升，都远超过单纯增强推理能力。这好比给近视的医生配一副精准的眼镜，其效果远胜于塞给他更多的医学专著。

这一发现在MathVision、MathVista、MathVerse等多个数学视觉推理数据集上得到了反复验证。感知能力提升带来的边际效益始终更高，这强有力地表明，AI在STEM领域的困境，根源确实在于“看不清”，而非“想不通”。

问题的本质在于，自然语言在描述精确的量化、空间和结构关系时，存在先天不足。试图用文字去定义复杂的几何图形、分子构型或物理装置，大量关键信息会在翻译过程中丢失或变得模糊。这就像用散文来描绘工程蓝图，意境或许有了，但精度必然牺牲。

这种“描述性失真”在STEM图像中尤为致命。例如，面对一个由多个几何体构成的复杂立体图，即使用人类语言也难以毫无歧义地阐明每个实体的相对位置、尺寸比例和交互关系。对人类尚且困难，对AI而言更是艰巨挑战。

二、编程语言：为AI定制的“高精度眼镜”

既然自然语言不够用，何不换一种语言？研究团队提出了一个直击要害的思路：让AI用编程语言来理解和表征图像。

这个概念其实非常直观。当程序员需要绘制一个复杂图形时，他会用代码精确指定每个坐标、线条和颜色值。这段代码不仅能完美重现图像，还天然包含了所有必要的、无歧义的数值与关系信息。

基于此，CodePercept框架应运而生。其核心是训练AI不仅能生成图像的自然语言描述，还能生成可复现该图像的Python代码。这相当于教AI用两种“语言”思考同一视觉概念：一种是人类沟通的模糊语言，另一种是计算机执行的精确语言。

可以将其类比为培养一位顶尖的临摹画家。他需要先细致观察原作（感知），再用自己的话描述它（自然语言描述），最后严格遵循技法规范将其重绘出来（代码生成）。只有当这三种能力都具备时，才称得上真正“看懂”。

为实现这一目标，团队构建了规模达100万的ICC-1M数据集。每个数据样本都包含图像、文字描述和对应代码，确保三种表示形式严格对齐。这就像为AI编纂了一部巨型“词典”，每个“词条”都同时给出了视觉、语义和符号化三种定义。

构建ICC-1M本身就是一个系统工程。团队设计了三条并行的数据生成流水线：第一条从现有STEM图像生成对应代码；第二条通过概念抽象与再实例化创造多样化变体；第三条则专门攻克立体几何图像的代码生成难题。在质量控制上，采用了类似食品安全检测的三阶段验证机制，确保每个入库样本在代码质量、图像质量及一致性上都达到高标准。

三、双重训练：从“欣赏”到“复现”的升华

有了高质量数据，如何训练AI？研究团队设计了两种创新的训练任务，它们如同艺术教育的两种路径：一是既教鉴赏也教创作，二是直接训练成为复制大师画作的技工。

第一种方法称为“代码驱动的字幕生成”。传统方法依赖其他AI模型来生成描述标签，这好比让一个可能色盲的老师去教学生辨色。若教师模型本身存在感知偏差或“幻觉”，错误便会传递给学生。

CodePercept的解决之道是，让AI先学会生成能复现图像的代码，再基于这段“绝对正确”的代码来生成文字描述。这个过程确保了描述的准确性有一个客观的“真理锚点”，从根本上避免了传统方法的幻觉传递问题。具体分为三步：生成一个初始（可能不精确）的描述；从对应代码中提取精确的视觉信息；融合两者，产出既自然又准确的最终描述。

第二种方法是“STEM图像到代码翻译”。这项任务要求AI直接将视觉图像转换为可复现它的Python代码，其挑战远超传统的图像描述。代码必须语法正确、逻辑清晰且可执行，这为AI提供了一个明确、可验证的学习目标——成功与否，运行一下便知分晓。

为进一步提升代码生成质量，团队引入了强化学习。他们设计了一个综合奖励系统，同时考量代码的可执行性、生成图像与原始图像的视觉相似度，以及代码本身的质量和可读性。这如同一位严格的导师，从多个维度给出精准反馈，引导AI持续改进。

四、革命性评测：以“重现”能力验明正身

传统AI评测往往只关注最终答案的对错，却无法判断AI是否真的“看懂”了题目。这好比仅凭考试分数判断学生是否理解知识，而忽略了其可能是死记硬背。

为此，团队创建了STEM2Code-Eval基准测试。其核心理念直观而深刻：若AI真正理解了一个STEM图像，它理应能用代码将其完美重现。这就像要求学生不仅要说出《蒙娜丽莎》的特点，还要能画出一幅逼真的仿作。

该基准包含1000个精心筛选的图像-代码对，覆盖数学、物理、化学、电子工程等多个领域。每个样本都经过严格质控，确保其Python代码能精准复现原图。

构建过程犹如制作一套高标准的考卷。团队从六个知名STEM数据集中收集图像，用先进模型生成初始描述与代码，然后进入迭代优化循环：执行代码生成图像，对比与原图的相似度，不足则修正代码。随后，根据重建质量和任务难度排序，筛选出高质量且具挑战性的候选样本。最后，由十位专家从风格、内容、功能三个维度进行五分制评分，仅平均分最高的1000个样本入选，确保了测试的权威性与区分度。

STEM2Code-Eval采用三项指标综合评估：图像评分（视觉相似度）、代码评分（代码质量与结构）、执行成功率（代码可运行性）。这三重检验确保了评估的全面与公正。

五、效果验证：代码训练显著提升AI“智商”

实验数据从多个维度证实了CodePercept的有效性。在传统STEM推理任务上，经CodePercept训练的模型表现出了稳定提升。以40亿参数模型为例，在六个主流数据集上的平均性能提升2.8个百分点。当参数增至80亿时，提升扩大到3.0个百分点。在AI领域，即便是1个百分点的提升也往往意味着巨大的努力。

更引人注目的是，经过训练的80亿参数模型，其表现甚至超越了某些参数量达720亿的模型。这好比一位训练有素的轻量级选手，击败了天赋更高但训练不足的重量级对手。

在专门的视觉感知测试STEM2Code-Eval上，优势更为明显。40亿和80亿参数模型分别实现了15.3和17.2个百分点的巨大提升。这清晰表明，代码驱动训练能实质性增强AI的视觉理解能力。

强化学习阶段的贡献尤为关键。在监督学习的基础上，强化学习为40亿和80亿模型分别带来了额外的6.5和4.0个百分点提升，证明了精心设计的奖励机制能进一步突破性能边界。

对比实验揭示了各组件的作用：三种数据生成策略（图像重现、多样化、立体几何合成）均有益，其中多样化策略贡献最显著；代码驱动字幕生成法比传统方法提升2.0个百分点，验证了“代码作为真理锚点”的核心价值。

六、立体几何：攻坚视觉理解的“硬骨头”

在所有STEM视觉任务中，立体几何图像处理一直是块难啃的骨头。它要求AI理解复杂的三维空间关系、透视变换与几何体交互，难度堪比让一个二维世界的生物理解三维概念。

为此，团队专门设计了立体几何合成流水线。他们创建了一系列参数化代码模板，覆盖了立体几何教学的典型场景：展开与折叠、三视图投影与重建、截面分析、堆叠组合、多面体构造、空间曲线与曲面积分可视化等。

这些模板如同建筑师的制图标准。每个模板定义了一类几何图形的生成逻辑，通过调整参数，可衍生出无数变体。这种基于严格数学原理的方法，从根本上保证了生成图像的几何正确性，解决了AI在生成立体几何代码时常见的错误问题。实验证明，该模块为整体性能带来了额外增益，并为处理更复杂的三维推理任务奠定了基础。

七、训练策略：分阶段锻造“全能型”AI

CodePercept的训练采用两阶段策略，类似于培养通才的教育规划：先夯实基础，再通过实践精进技艺。

第一阶段是监督学习，以Qwen3-VL系列为基础架构，联合优化图像描述生成和图像到代码翻译两个任务。这种设计让AI同时掌握用自然语言和编程语言理解视觉内容，两种表征方式互为补充。训练使用了ICC-1M中的完整三元组数据，自然语言描述帮助理解语义，代码则提供精确的结构与量化信息。

第二阶段引入强化学习，专门针对代码生成任务进行优化。团队采用了群体相对策略优化（GRPO）算法。此阶段的奖励函数设计精妙，包含三个部分：格式奖励（确保代码符合Python语法）、内容奖励（评估代码语义正确性）、执行奖励（验证代码能否成功运行并生成目标图像）。这种多维度奖励机制，如同一个导师团队，从不同角度提供学习信号，确保模型在语法、语义和实用性上均衡发展。

训练过程还融合了混合精度训练、梯度累积、Flash Attention等先进技术以提升效率，并采用余弦学习率调度与适当的权重衰减来保证训练稳定。

八、对比实验揭示的深层规律

一系列精心设计的对照实验，清晰揭示了每个组件的贡献。在数据策略对比中，图像多样化策略效果最显著，强调了数据多样性对AI训练的关键作用。

代码驱动字幕生成与传统方法的对比结果，有力支撑了“代码作为真理锚点”的理念。在STEM图像到代码翻译任务中，直接的视觉-代码映射带来了额外收益，说明代码本身也是一种有价值的视觉表征形式。

强化学习阶段的贡献分析显示，执行奖励（代码可运行）是最强的学习信号。而“先描述再生成代码”的两步法优于直接生成的一步法，这印证了“分解复杂任务”这一普适性设计原则的有效性。

九、实战表现：小模型亦可有大作为

在实际应用场景中，CodePercept的表现令人鼓舞。在MathVision数据集上，40亿参数模型相比基线提升3.4个百分点；320亿参数模型提升3.7个百分点。在更侧重视觉理解的MathVista数据集上，模型也表现出稳定的提升。

在侧重逻辑推理的LogicVista数据集上，提升尤为显著，不同规模的模型分别获得了6.3、4.7和3.1个百分点的进步。这表明，即便在逻辑推理任务中，更好的视觉理解也能带来实质性帮助。

值得注意的是模型的效率优势。经过CodePercept训练的80亿参数模型，在多个数据集上的表现超越了参数量为其九倍的某些大型模型。这对于实际部署意义重大，意味着可以用更少的计算资源获得更优的性能。

在专门的STEM2Code-Eval评测中，CodePercept在图像重建质量、代码质量和执行成功率上均展现出全方位优势，证明了其方法的全面有效性。

十、方法论启示与未来展望

CodePercept的价值远超其在特定任务上的性能提升。它提供了一种全新的方法论框架：利用更精确的符号化表征来增强自然语言的表达能力。这一理念具有广泛的拓展潜力。

从认知科学看，它验证了多模态表征学习的价值。人类理解复杂视觉信息时，会同时运用整体直觉与细节分析。CodePercept通过结合自然语言的语义能力与程序代码的精确性，为AI赋予了类似的多重表征能力。

该方法为缓解AI“幻觉”问题提供了新思路。传统视觉语言模型的描述难以验证，而CodePercept引入可执行代码作为客观标准，建立了一个可验证的“真理锚点”，从根源上减少了幻觉的产生。

对于构建高可靠AI系统，它指明了方向。在安全关键领域，AI输出需具备可验证性。CodePercept展示了如何通过设计可验证的中间表征来增强系统可信度。

在教育科技领域，它开辟了新的可能性。传统AI助教往往只给答案，而CodePercept生成的代码实质上提供了一种既精确又可执行的“解题步骤”表征，为构建更智能的教学系统奠定了基础。

展望未来，这种代码驱动的方法有望拓展至更多需要精确性的领域，如科学研究、工程设计和数据分析。特别是在科学可视化与工程制图领域，若AI能理解并生成精确技术图形，将极大提升专业工作效率。

此外，CodePercept为AI能力评估提供了新标准。STEM2Code-Eval所代表的“重现即理解”的评估哲学，可能影响未来AI评测的设计思路。ICC-1M数据集的构建方法论，也为创建高质量、高精度训练数据提供了范本。

当然，研究团队也坦诚指出了当前局限：代码生成增加了计算复杂度；对于高度艺术化或抽象化的图像，代码可能难以捕捉其神韵。这些正是未来改进的方向。

归根结底，这项研究最大的启示在于它改变了我们看待问题的方式。它告诉我们，有时解决方案不在于更复杂的算法或更大的模型，而在于重新审视问题本质。当意识到AI在STEM视觉任务上的主要障碍是感知而非推理时，答案就变得清晰：给AI更好的“眼镜”，而非更多的“书本”。

这一洞察不仅对AI研究有指导意义，也对教育和认知科学有所启发。它提醒我们，在任何学习过程中，准确的感知都是有效推理的前提。无论是人类还是机器，“看得清”永远是“想得明”的基础。CodePercept的成功，也证明了跨学科思维的价值——答案有时就藏在相邻领域的成熟方法中，关键在于拥有发现并应用它的开放心态。

Q&A

Q1：CodePercept是什么，它解决了什么问题？

A：CodePercept是上海交通大学团队开发的一种新型AI训练框架，旨在提升AI理解数学、物理等STEM图像的能力。它解决的核心痛点是，AI在处理科学图像时经常因“看不清楚”而犯错。传统方法依赖不够精确的自然语言描述，而CodePercept让AI学会用编程代码来理解图像，相当于为其配备了更精确的“视觉工具”。

Q2：为什么用代码比用文字描述图像更有效？

A：关键在于代码无与伦比的精确性与可验证性。用文字描述复杂几何图形时，很难准确传达坐标、角度、比例等量化信息。而Python代码可以精确定义每一个细节，并且这段代码是可执行的，能完美复现原图。这好比用工程图纸与诗歌描述同一座建筑——图纸虽不优美，但绝对准确无误。

Q3：普通人能用到CodePercept技术吗？

A：目前该技术主要处于研究阶段，但其应用前景广阔。未来可能集成到在线教育平台，帮助学生更直观地理解数理概念；也可能用于智能作业批改系统，准确识别学生绘制的图形与解题步骤；甚至可应用于智能设计软件，辅助工程师高效处理技术图纸。随着技术成熟，这种“看图生成代码”的能力有望成为未来AI助手的标配功能之一。

来源:https://www.techwalker.com/2026/0320/3181769.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：新加坡国立大学AI新突破无需训练即可掌握工具使用下一篇：中科院突破AI理解能力让机器更懂人类表达重点