中科院AI新突破：用绘图验证数学题答案正确性_AI热点日报

中科院AI新突破：用绘图验证数学题答案正确性

类型：热点整理2026-05-12

这项由中科院沈阳计算所、中科院大学、字节跳动以及西湖大学联合完成的研究，于2026年2月发表在arXiv预印本平台（论文编号：arXiv:2602 11731v1），提出了一个颇具启发性的构想：让AI不再仅仅满足于“识别”与“生成”，而是真正掌握“边画边想”的推理能力。如今的AI能力已相当惊人，既

这项由中科院沈阳计算所、中科院大学、字节跳动以及西湖大学联合完成的研究，于2026年2月发表在arXiv预印本平台（论文编号：arXiv:2602.11731v1），提出了一个颇具启发性的构想：让AI不再仅仅满足于“识别”与“生成”，而是真正掌握“边画边想”的推理能力。

中科院让AI学会

如今的AI能力已相当惊人，既能精准识别图像中的文字符号，也能生成精美的画面。然而，当面对需要严密逻辑链条的复杂推理任务时，比如解数学题，一个根本性的矛盾就暴露了出来：AI在“看”的时候可以很精准，在“画”的时候也能很漂亮，但两者之间的逻辑一致性却常常断裂。

这就像一个学生，抄题时字迹工整，画图时线条清晰，可一到实际解题步骤，答案却错了。AI的困境与此类似：它能“看懂”题目中的每一个符号，也能“画出”一幅看起来正确的解答示意图，但生成的图像可能在视觉上合理，其背后表征的数学关系却是错误的。缺乏的，正是那种将视觉信息与逻辑推理严格绑定的能力。

为了攻克这一难题，研究团队提出了一个巧妙的框架，命名为“思维与绘图”（Thinking with Drafting，简称TwD）。其核心思想颇具碘伏性——将AI的视觉理解过程重新定义为“光学解压缩”。就像从压缩包中还原出原始文件一样，AI需要从看似扁平的视觉信息中，主动重建出完整、结构化的逻辑关系。

这里的关键在于“解析即推理”。真正的理解，并非产生一段流畅的自然语言描述，而是能够将模糊的语言或视觉线索，精准地转换为一种形式化的、可验证的结构。好比一位经验丰富的数学教师，其高明之处不仅在于读懂题目，更在于能随手画出严谨的示意图，将抽象关系具象化，从而引导出正确的解题路径。

从“看菜谱”到“边做边尝”：TwD的工作原理

TwD的工作机制，可以用厨师的做菜过程来类比。传统的多模态AI更像一个只会严格对照菜谱的厨师，能识别所有食材和步骤说明，但成品往往火候欠佳、味道偏差。而TwD则像一个会“边做边尝”的大厨：它先根据理解勾勒出一个“草图食谱”，然后依据这张草图来验证每一步操作的合理性，最终才端出确信无误的“菜肴”——也就是答案。

具体而言，TwD使用了一种专门设计的简化图形语言作为它的“草稿本”。这种语言专为表示数学中的条形图模型而优化——这是一种在数学教育中极为常见的可视化工具。就像建筑师动工前必须先有施工图，TwD要求AI在解题前，也必须先画出逻辑结构图。

这套图形语言包含三种基本元素：

实体元素：代表题目中的具体数量或对象，如同用不同长度的积木条来表示不同的数值。

关系元素：表示数量之间的逻辑关系，如相等、大于、小于等，就像用连接线或对齐方式来定义积木条之间的关系。

聚合元素：表示加法、减法等运算操作，类似于用括号或组合框来组织多个积木条，形成整体。

构建“教辅级”数据集：VisAlg

为了有效训练和验证TwD方法，研究团队构建了一个名为VisAlg的高质量数据集。该数据集包含了超过11000个视觉代数问题，涵盖五大主要类型：

比例分配类（占比最大）：涉及“A是B的多少倍”这类问题。

比率百分比类：主要围绕分数和百分比运算。

变化回归类：涉及假设性的状态转移与操作。

总和分割类：处理整体与部分的关系。

差异分析类：专注于比较和差值计算。

数据集的构建过程堪称精益求精，犹如编纂一本权威教辅。团队首先收集了15000个条形图词汇题，利用AI工具生成初步解答草图，随后进行了三轮严格的质量筛查：首轮检查语法正确性，次轮确保信息完整性，末轮统一风格一致性。只有通过全部关卡的高质量样本，才被最终纳入数据集。

效果如何？数据说话

实验结果表明，采用TwD方法训练的AI模型在多项指标上均有显著提升。在代码相似度、图像相似度及逻辑一致性等方面，TwD均超越了当时的先进模型。更值得注意的是，一个经过TwD训练的、参数量为8B的模型，其表现甚至优于某些规模更大的商用模型。这充分说明，性能的提升并非单纯依赖模型体量，训练方法本身的革新至关重要。

人工评估进一步佐证了其有效性：AI生成的结构化草图，与人类专家的评分相关性高达95.75%。这意味着，TwD生成的并非简单的图案模仿，而是真正符合人类逻辑思维的推理过程。

不止于“画图”：逻辑验证的新范式

TwD方法的一个独特价值在于，它重新定义了视觉生成的角色——从追求创意的“输出端”，转变为确保逻辑正确的“验证器”。传统AI绘图旨在生成美观或合理的图像，而TwD生成的草图，首要目的是为了验证推理每一步的严密性。这就像数学老师在黑板上画图，美观与否在其次，核心在于能否清晰、无误地展现解题思路。

这种优势在不同问题类型上得到了具体体现：

对于比例分配问题，TwD通过重复相等长度的单元段来直观表示倍数关系，将抽象的乘法转化为具体的单元重复任务。

对于变化回归问题，它使用配对的增减段来表示假设性转移，并在对齐的后续状态上施加约束条件。

对于差异分析问题，TwD将一个实体设为参考锚点，用明确的偏移段来编码“多于”或“少于”的关系，从而将比较性语言转换为几何结构一致的减法布局。

研究团队还将TwD应用于更复杂的集合论推理任务。结果发现，面对涉及多集合约束的高阶推理时，传统大语言模型容易产生“拓扑幻觉”——生成的维恩图看起来合理，实则违反了布尔逻辑的严格规则。而TwD能够成功地将抽象的集合问题分解为顺序几何操作，通过明确渲染原子交集，有效地可视化了集合代数关系。

意义与展望

这项研究的意义，远不止于提升了AI解数学题的能力。它提供了一条新的技术路径：通过引入结构化的中间表示（即“草图”），来弥合感知与推理之间的鸿沟。这相当于给AI配备了一个“草稿本”，让它能像人类一样，通过画图来整理思绪、推演步骤、验证结论。

当然，目前的方法也存在其局限性。现有的图形语言主要针对条形图代数设计，要扩展到更广泛的科学图表（如函数曲线图、力学图示等），仍需进一步探索。此外，其在数学推理之外的复杂推理任务（如法律条文分析、物理过程推理）上的泛化能力，也有待更多验证。

总而言之，这项研究为多模态AI的发展开辟了新的方向。它揭示出，真正智能的系统，必须超越“看得懂”和“画得出”的表层能力，迈向“想得清”的深层推理。通过让AI学会运用结构化的视觉草图来辅助思考，我们正在向构建更可靠、更可验证、更具解释性的人工智能系统迈出坚实的一步。这种“有图有真相”的推理方式，或许正是通向更高级智能的关键桥梁。

Q&A

Q1：什么是“思维与绘图”（TwD）方法？

A：TwD是一种引导AI在推理过程中进行可视化思考的新方法。它要求AI在解决如数学问题时，先构建出结构化的逻辑草图，再基于此草图进行推演和验证。这模仿了人类学生在解题时画示意图辅助思考的过程，旨在提升AI推理的逻辑严谨性和可解释性。

Q2：VisAlg数据集包含哪些类型的数学题？

A：VisAlg数据集专注于视觉代数问题，主要包含五种类型：比例分配（如倍数关系）、比率百分比（分数与百分比）、变化回归（假设性操作）、总和分割（整体与部分）、差异分析（比较与差值）。数据集经过严格质检，包含超过11000个高质量题目样本。

Q3：TwD方法比传统AI方法好在哪里？

A：TwD的核心优势在于保证了生成图像的逻辑正确性，而非仅视觉合理性。传统方法可能生成“看起来对但数学关系错”的图。TwD通过强制模型使用一套结构化的图形语言进行中间表达，使得每一步推理都有明确的几何对应，相当于为AI的思考过程提供了一个可自我检查的“验算器”，显著提高了推理的准确性与可靠性。

来源：https://www.techwalker.com/2026/0213/3179315.shtml

中科院

延伸阅读

补充最近整理过的热点入口。