首页 游戏 软件 资讯 排行榜 专题
首页
AI
上海交大团队解析AI数学解题视觉识别错误原因

上海交大团队解析AI数学解题视觉识别错误原因

热心网友
20
转载
2026-05-14

看到一道几何题或物理图表,我们通常能迅速抓住关键信息。但你是否想过,那些号称“智能”的AI模型,在面对同样的STEM(科学、技术、工程、数学)图像时,为何总会犯一些令人费解的低级错误?

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

上海交通大学团队揭秘:AI为什么总是在数学题上

答案可能比想象中更简单,也更碘伏直觉。一项由上海交通大学、阿里巴巴达摩院Qwen团队等多家机构联合开展的研究,于2025年3月发表在arXiv预印本平台(论文编号:arXiv:2603.10757v1),首次系统性地揭示了问题的核心:AI在STEM领域的失误,主要症结并非“不会推理”,而是“看不清楚”。

这个结论挑战了长期以来的主流认知。过去,研究者们普遍将AI在数理问题上的短板归咎于逻辑推理能力不足,并投入大量资源试图增强其“思考”能力。然而,上海交大的团队通过精巧的实验设计,将视觉感知与逻辑推理过程剥离开来,意外地发现,视觉理解才是真正的瓶颈所在。

基于这一洞察,研究团队提出了一个创新概念——“代码驱动感知”。其思路直指要害:既然用自然语言描述复杂的STEM图像存在天然的模糊性和信息损耗,何不让AI使用更精确的编程语言来“看懂”图像?这相当于为AI配备了一副数学语言的“眼镜”,使其能超越文字描述的局限。

围绕这一理念,团队开发了名为CodePercept的创新框架,并构建了包含100万个图像-文字-代码三元组的大规模数据集ICC-1M。更重要的是,他们建立了一个全新的评测基准STEM2Code-Eval,其核心要求是:AI不仅要“看懂”图像,还必须生成可执行的Python代码来完美复现它。这为评估AI的视觉理解能力提供了一个严格且可验证的新标准。

一、被低估的“视力”问题

理解这项研究的意义,不妨做个类比。诊断一个病人,病因可能在于视力模糊,也可能在于知识匮乏。要找出真相,需要设计隔离变量的实验。

研究团队正是如此操作的。他们设计了两阶段测试:第一阶段让AI描述图像内容(测“视力”),第二阶段基于描述进行解题(测“推理”)。通过分别增强这两个阶段的能力,结果令人惊讶。

当AI模型的参数规模从40亿扩展到320亿时,无论何种配置,增强视觉感知能力带来的性能提升,都远超过单纯增强推理能力。这好比给近视的医生配一副精准的眼镜,其效果远胜于塞给他更多的医学专著。

这一发现在MathVision、MathVista、MathVerse等多个数学视觉推理数据集上得到了反复验证。感知能力提升带来的边际效益始终更高,这强有力地表明,AI在STEM领域的困境,根源确实在于“看不清”,而非“想不通”。

问题的本质在于,自然语言在描述精确的量化、空间和结构关系时,存在先天不足。试图用文字去定义复杂的几何图形、分子构型或物理装置,大量关键信息会在翻译过程中丢失或变得模糊。这就像用散文来描绘工程蓝图,意境或许有了,但精度必然牺牲。

这种“描述性失真”在STEM图像中尤为致命。例如,面对一个由多个几何体构成的复杂立体图,即使用人类语言也难以毫无歧义地阐明每个实体的相对位置、尺寸比例和交互关系。对人类尚且困难,对AI而言更是艰巨挑战。

二、编程语言:为AI定制的“高精度眼镜”

既然自然语言不够用,何不换一种语言?研究团队提出了一个直击要害的思路:让AI用编程语言来理解和表征图像。

这个概念其实非常直观。当程序员需要绘制一个复杂图形时,他会用代码精确指定每个坐标、线条和颜色值。这段代码不仅能完美重现图像,还天然包含了所有必要的、无歧义的数值与关系信息。

基于此,CodePercept框架应运而生。其核心是训练AI不仅能生成图像的自然语言描述,还能生成可复现该图像的Python代码。这相当于教AI用两种“语言”思考同一视觉概念:一种是人类沟通的模糊语言,另一种是计算机执行的精确语言。

可以将其类比为培养一位顶尖的临摹画家。他需要先细致观察原作(感知),再用自己的话描述它(自然语言描述),最后严格遵循技法规范将其重绘出来(代码生成)。只有当这三种能力都具备时,才称得上真正“看懂”。

为实现这一目标,团队构建了规模达100万的ICC-1M数据集。每个数据样本都包含图像、文字描述和对应代码,确保三种表示形式严格对齐。这就像为AI编纂了一部巨型“词典”,每个“词条”都同时给出了视觉、语义和符号化三种定义。

构建ICC-1M本身就是一个系统工程。团队设计了三条并行的数据生成流水线:第一条从现有STEM图像生成对应代码;第二条通过概念抽象与再实例化创造多样化变体;第三条则专门攻克立体几何图像的代码生成难题。在质量控制上,采用了类似食品安全检测的三阶段验证机制,确保每个入库样本在代码质量、图像质量及一致性上都达到高标准。

三、双重训练:从“欣赏”到“复现”的升华

有了高质量数据,如何训练AI?研究团队设计了两种创新的训练任务,它们如同艺术教育的两种路径:一是既教鉴赏也教创作,二是直接训练成为复制大师画作的技工。

第一种方法称为“代码驱动的字幕生成”。传统方法依赖其他AI模型来生成描述标签,这好比让一个可能色盲的老师去教学生辨色。若教师模型本身存在感知偏差或“幻觉”,错误便会传递给学生。

CodePercept的解决之道是,让AI先学会生成能复现图像的代码,再基于这段“绝对正确”的代码来生成文字描述。这个过程确保了描述的准确性有一个客观的“真理锚点”,从根本上避免了传统方法的幻觉传递问题。具体分为三步:生成一个初始(可能不精确)的描述;从对应代码中提取精确的视觉信息;融合两者,产出既自然又准确的最终描述。

第二种方法是“STEM图像到代码翻译”。这项任务要求AI直接将视觉图像转换为可复现它的Python代码,其挑战远超传统的图像描述。代码必须语法正确、逻辑清晰且可执行,这为AI提供了一个明确、可验证的学习目标——成功与否,运行一下便知分晓。

为进一步提升代码生成质量,团队引入了强化学习。他们设计了一个综合奖励系统,同时考量代码的可执行性、生成图像与原始图像的视觉相似度,以及代码本身的质量和可读性。这如同一位严格的导师,从多个维度给出精准反馈,引导AI持续改进。

四、革命性评测:以“重现”能力验明正身

传统AI评测往往只关注最终答案的对错,却无法判断AI是否真的“看懂”了题目。这好比仅凭考试分数判断学生是否理解知识,而忽略了其可能是死记硬背。

为此,团队创建了STEM2Code-Eval基准测试。其核心理念直观而深刻:若AI真正理解了一个STEM图像,它理应能用代码将其完美重现。这就像要求学生不仅要说出《蒙娜丽莎》的特点,还要能画出一幅逼真的仿作。

该基准包含1000个精心筛选的图像-代码对,覆盖数学、物理、化学、电子工程等多个领域。每个样本都经过严格质控,确保其Python代码能精准复现原图。

构建过程犹如制作一套高标准的考卷。团队从六个知名STEM数据集中收集图像,用先进模型生成初始描述与代码,然后进入迭代优化循环:执行代码生成图像,对比与原图的相似度,不足则修正代码。随后,根据重建质量和任务难度排序,筛选出高质量且具挑战性的候选样本。最后,由十位专家从风格、内容、功能三个维度进行五分制评分,仅平均分最高的1000个样本入选,确保了测试的权威性与区分度。

STEM2Code-Eval采用三项指标综合评估:图像评分(视觉相似度)、代码评分(代码质量与结构)、执行成功率(代码可运行性)。这三重检验确保了评估的全面与公正。

五、效果验证:代码训练显著提升AI“智商”

实验数据从多个维度证实了CodePercept的有效性。在传统STEM推理任务上,经CodePercept训练的模型表现出了稳定提升。以40亿参数模型为例,在六个主流数据集上的平均性能提升2.8个百分点。当参数增至80亿时,提升扩大到3.0个百分点。在AI领域,即便是1个百分点的提升也往往意味着巨大的努力。

更引人注目的是,经过训练的80亿参数模型,其表现甚至超越了某些参数量达720亿的模型。这好比一位训练有素的轻量级选手,击败了天赋更高但训练不足的重量级对手。

在专门的视觉感知测试STEM2Code-Eval上,优势更为明显。40亿和80亿参数模型分别实现了15.3和17.2个百分点的巨大提升。这清晰表明,代码驱动训练能实质性增强AI的视觉理解能力。

强化学习阶段的贡献尤为关键。在监督学习的基础上,强化学习为40亿和80亿模型分别带来了额外的6.5和4.0个百分点提升,证明了精心设计的奖励机制能进一步突破性能边界。

对比实验揭示了各组件的作用:三种数据生成策略(图像重现、多样化、立体几何合成)均有益,其中多样化策略贡献最显著;代码驱动字幕生成法比传统方法提升2.0个百分点,验证了“代码作为真理锚点”的核心价值。

六、立体几何:攻坚视觉理解的“硬骨头”

在所有STEM视觉任务中,立体几何图像处理一直是块难啃的骨头。它要求AI理解复杂的三维空间关系、透视变换与几何体交互,难度堪比让一个二维世界的生物理解三维概念。

为此,团队专门设计了立体几何合成流水线。他们创建了一系列参数化代码模板,覆盖了立体几何教学的典型场景:展开与折叠、三视图投影与重建、截面分析、堆叠组合、多面体构造、空间曲线与曲面积分可视化等。

这些模板如同建筑师的制图标准。每个模板定义了一类几何图形的生成逻辑,通过调整参数,可衍生出无数变体。这种基于严格数学原理的方法,从根本上保证了生成图像的几何正确性,解决了AI在生成立体几何代码时常见的错误问题。实验证明,该模块为整体性能带来了额外增益,并为处理更复杂的三维推理任务奠定了基础。

七、训练策略:分阶段锻造“全能型”AI

CodePercept的训练采用两阶段策略,类似于培养通才的教育规划:先夯实基础,再通过实践精进技艺。

第一阶段是监督学习,以Qwen3-VL系列为基础架构,联合优化图像描述生成和图像到代码翻译两个任务。这种设计让AI同时掌握用自然语言和编程语言理解视觉内容,两种表征方式互为补充。训练使用了ICC-1M中的完整三元组数据,自然语言描述帮助理解语义,代码则提供精确的结构与量化信息。

第二阶段引入强化学习,专门针对代码生成任务进行优化。团队采用了群体相对策略优化(GRPO)算法。此阶段的奖励函数设计精妙,包含三个部分:格式奖励(确保代码符合Python语法)、内容奖励(评估代码语义正确性)、执行奖励(验证代码能否成功运行并生成目标图像)。这种多维度奖励机制,如同一个导师团队,从不同角度提供学习信号,确保模型在语法、语义和实用性上均衡发展。

训练过程还融合了混合精度训练、梯度累积、Flash Attention等先进技术以提升效率,并采用余弦学习率调度与适当的权重衰减来保证训练稳定。

八、对比实验揭示的深层规律

一系列精心设计的对照实验,清晰揭示了每个组件的贡献。在数据策略对比中,图像多样化策略效果最显著,强调了数据多样性对AI训练的关键作用。

代码驱动字幕生成与传统方法的对比结果,有力支撑了“代码作为真理锚点”的理念。在STEM图像到代码翻译任务中,直接的视觉-代码映射带来了额外收益,说明代码本身也是一种有价值的视觉表征形式。

强化学习阶段的贡献分析显示,执行奖励(代码可运行)是最强的学习信号。而“先描述再生成代码”的两步法优于直接生成的一步法,这印证了“分解复杂任务”这一普适性设计原则的有效性。

九、实战表现:小模型亦可有大作为

在实际应用场景中,CodePercept的表现令人鼓舞。在MathVision数据集上,40亿参数模型相比基线提升3.4个百分点;320亿参数模型提升3.7个百分点。在更侧重视觉理解的MathVista数据集上,模型也表现出稳定的提升。

在侧重逻辑推理的LogicVista数据集上,提升尤为显著,不同规模的模型分别获得了6.3、4.7和3.1个百分点的进步。这表明,即便在逻辑推理任务中,更好的视觉理解也能带来实质性帮助。

值得注意的是模型的效率优势。经过CodePercept训练的80亿参数模型,在多个数据集上的表现超越了参数量为其九倍的某些大型模型。这对于实际部署意义重大,意味着可以用更少的计算资源获得更优的性能。

在专门的STEM2Code-Eval评测中,CodePercept在图像重建质量、代码质量和执行成功率上均展现出全方位优势,证明了其方法的全面有效性。

十、方法论启示与未来展望

CodePercept的价值远超其在特定任务上的性能提升。它提供了一种全新的方法论框架:利用更精确的符号化表征来增强自然语言的表达能力。这一理念具有广泛的拓展潜力。

从认知科学看,它验证了多模态表征学习的价值。人类理解复杂视觉信息时,会同时运用整体直觉与细节分析。CodePercept通过结合自然语言的语义能力与程序代码的精确性,为AI赋予了类似的多重表征能力。

该方法为缓解AI“幻觉”问题提供了新思路。传统视觉语言模型的描述难以验证,而CodePercept引入可执行代码作为客观标准,建立了一个可验证的“真理锚点”,从根源上减少了幻觉的产生。

对于构建高可靠AI系统,它指明了方向。在安全关键领域,AI输出需具备可验证性。CodePercept展示了如何通过设计可验证的中间表征来增强系统可信度。

在教育科技领域,它开辟了新的可能性。传统AI助教往往只给答案,而CodePercept生成的代码实质上提供了一种既精确又可执行的“解题步骤”表征,为构建更智能的教学系统奠定了基础。

展望未来,这种代码驱动的方法有望拓展至更多需要精确性的领域,如科学研究、工程设计和数据分析。特别是在科学可视化与工程制图领域,若AI能理解并生成精确技术图形,将极大提升专业工作效率。

此外,CodePercept为AI能力评估提供了新标准。STEM2Code-Eval所代表的“重现即理解”的评估哲学,可能影响未来AI评测的设计思路。ICC-1M数据集的构建方法论,也为创建高质量、高精度训练数据提供了范本。

当然,研究团队也坦诚指出了当前局限:代码生成增加了计算复杂度;对于高度艺术化或抽象化的图像,代码可能难以捕捉其神韵。这些正是未来改进的方向。

归根结底,这项研究最大的启示在于它改变了我们看待问题的方式。它告诉我们,有时解决方案不在于更复杂的算法或更大的模型,而在于重新审视问题本质。当意识到AI在STEM视觉任务上的主要障碍是感知而非推理时,答案就变得清晰:给AI更好的“眼镜”,而非更多的“书本”。

这一洞察不仅对AI研究有指导意义,也对教育和认知科学有所启发。它提醒我们,在任何学习过程中,准确的感知都是有效推理的前提。无论是人类还是机器,“看得清”永远是“想得明”的基础。CodePercept的成功,也证明了跨学科思维的价值——答案有时就藏在相邻领域的成熟方法中,关键在于拥有发现并应用它的开放心态。

Q&A

Q1:CodePercept是什么,它解决了什么问题?

A:CodePercept是上海交通大学团队开发的一种新型AI训练框架,旨在提升AI理解数学、物理等STEM图像的能力。它解决的核心痛点是,AI在处理科学图像时经常因“看不清楚”而犯错。传统方法依赖不够精确的自然语言描述,而CodePercept让AI学会用编程代码来理解图像,相当于为其配备了更精确的“视觉工具”。

Q2:为什么用代码比用文字描述图像更有效?

A:关键在于代码无与伦比的精确性与可验证性。用文字描述复杂几何图形时,很难准确传达坐标、角度、比例等量化信息。而Python代码可以精确定义每一个细节,并且这段代码是可执行的,能完美复现原图。这好比用工程图纸与诗歌描述同一座建筑——图纸虽不优美,但绝对准确无误。

Q3:普通人能用到CodePercept技术吗?

A:目前该技术主要处于研究阶段,但其应用前景广阔。未来可能集成到在线教育平台,帮助学生更直观地理解数理概念;也可能用于智能作业批改系统,准确识别学生绘制的图形与解题步骤;甚至可应用于智能设计软件,辅助工程师高效处理技术图纸。随着技术成熟,这种“看图生成代码”的能力有望成为未来AI助手的标配功能之一。

来源:https://www.techwalker.com/2026/0320/3181769.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

上海交大研究揭示AI助手延迟响应的潜在安全风险
AI
上海交大研究揭示AI助手延迟响应的潜在安全风险

上海交通大学计算机科学与工程学院研究团队于2026年3月9日在计算机安全顶级期刊上发表了一项突破性研究(论文编号:arXiv:2603 08316v1),首次揭示了一种全新的AI安全威胁。该研究发现,恶意攻击者能够利用特定手段,诱导AI助手在执行任务时故意“拖延时间”,从而严重损害用户体验与系统运行

热心网友
05.14
上海交大联合腾讯优图研发AI自进化学习新方法
AI
上海交大联合腾讯优图研发AI自进化学习新方法

2026年2月,一项由上海交通大学与腾讯优图实验室合作完成的研究在arXiv预印本平台发布,论文编号为arXiv:2602 03075v1。这项研究提出了一种碘伏性的AI训练新范式,让大型语言模型在训练过程中实现了“自我强化”,彻底打破了传统单向训练的局限。 回想一下传统的AI训练,是不是很像一条单

热心网友
05.12
上海交大突破AI绘画技术让机器从模仿走向自主创作
AI
上海交大突破AI绘画技术让机器从模仿走向自主创作

这项由上海交通大学、快手科技和清华大学联合开展的前沿研究,于2026年1月正式发表,论文编号为arXiv:2601 10332v1。 让AI根据文字描述生成图像,听起来非常智能,对吗?但现实情况可能令人有些意外。目前市面上大多数AI绘画工具,本质上仍处于“照葫芦画瓢”的初级阶段。当你输入“红色的苹果

热心网友
05.12
上海交大发布智能代码助手 解决AI编程健忘难题并降本40%
AI
上海交大发布智能代码助手 解决AI编程健忘难题并降本40%

这项由上海交通大学LLMSE实验室、中山大学与抖音集团合作完成的研究,于2026年1月正式发表,论文编号为arXiv:2601 16746v1。随着AI编程助手在开发者群体中日益普及,一个普遍存在的效率瓶颈也随之凸显:这些智能工具在处理复杂软件工程任务时,常常表现出类似“健忘”的行为,需要反复读取相

热心网友
05.12
上海交大团队突破AI长时自主学习瓶颈ML-Master 2.0发布
AI
上海交大团队突破AI长时自主学习瓶颈ML-Master 2.0发布

这项由上海交通大学人工智能学院、Eigen AI、DP Technology及北京航空航天大学计算机学院联合完成的研究,为AI长期自主学习这一核心难题提供了突破性解决方案。其论文(arXiv:2601 10402v1)于2026年1月发布,标志着人工智能在实现“学会学习”的通用能力上迈出了关键一步。

热心网友
05.12

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

2026年USDT交易软件排行榜:安全可靠的平台推荐与选择指南
web3.0
2026年USDT交易软件排行榜:安全可靠的平台推荐与选择指南

本文介绍了2026年主流的USDT交易软件,重点分析了币安、欧易和火币三大平台的特点与优势。内容涵盖平台安全性、交易功能、用户体验及费用结构,旨在为不同需求的用户提供选择参考。文中强调选择平台时应综合考虑资产安全、操作便捷性和交易成本,并提醒注意风险管理与合规操作。

热心网友
05.14
2026年USDT交易软件推荐:十大安全靠谱平台深度评测
web3.0
2026年USDT交易软件推荐:十大安全靠谱平台深度评测

本文介绍了USDT交易的基本概念与主流平台选择。USDT作为稳定币,其交易主要通过加密货币交易所进行。选择平台时需综合考虑安全性、流动性、手续费和用户体验。文中列举了当前市场认可度较高的几类交易平台,并提醒用户注意资产安全与合规操作,建议根据自身需求谨慎选择。

热心网友
05.14
哥本哈根大学新研究探索AI推荐系统如何消除偏见实现公平
AI
哥本哈根大学新研究探索AI推荐系统如何消除偏见实现公平

哥本哈根大学计算机科学系于2026年3月发布了一项具有里程碑意义的研究(论文编号arXiv:2603 12935v1),揭示了当前主流AI推荐系统可能潜藏的社会偏见风险。这项研究同时指出,一种高效且低成本的解决方案——提示工程,或许能成为破解这一难题的关键。 当您使用求职平台或新闻资讯应用时,背后的

热心网友
05.14
港科大团队创新图像修复技术:仅需千张训练图,视频生成模型效果媲美百万数据
AI
港科大团队创新图像修复技术:仅需千张训练图,视频生成模型效果媲美百万数据

照片模糊了、雨滴遮挡了画面、夜晚拍摄噪点过多……这些常见的图像质量问题,往往让人束手无策。传统的解决方案,就像请来一群专科医生:去模糊、去噪点、去雨滴,各有各的专长,但每个“医生”都需要海量的“临床经验”——动辄数百万张训练图片,才能达到可用的修复水平。 然而,一项由香港科技大学、哈尔滨工业大学深圳

热心网友
05.14
UBC与Vector研究院攻克AI资源管理难题 机器人低成本高效运行指南
AI
UBC与Vector研究院攻克AI资源管理难题 机器人低成本高效运行指南

这项由英属哥伦比亚大学(UBC)与Vector人工智能研究院联合主导的前沿研究,于2026年3月以预印本论文(arXiv:2603 12634v1)形式发布。研究团队创新性地提出了“预算感知价值树搜索”(Budget-Aware Value Tree Search,简称BA VT)框架,旨在攻克一个

热心网友
05.14