韩国大学AI用代码解数学题性能超越百倍大模型

时间：2026-05-19 06:48

韩国研究团队推出THINCAI数学解题框架，其核心是让代码承担全部推理工作，自然语言仅负责初始规划。经三步训练后，40亿参数的小模型在多个数学竞赛评测集上平均准确率达78 1%，超越参数量大近60倍的巨型模型。该方法通过纯代码推理提升准确性与计算效率。

近期，一项由韩国大学与AIGEN Sciences合作的研究在arXiv预印本平台发布（编号：arXiv:2605.07237），为解决AI在数学推理领域的长期难题，提出了一种极具创新性的思路。

数学问题求解一直是人工智能面临的核心挑战之一。其难点并非源于模型智能不足，而在于数学推导对精确性的严苛要求——任何微小的计算失误都可能导致最终答案谬以千里。这类似于进行多位数乘法笔算时，若中间某行数字抄写错误，后续所有步骤都将建立在错误基础上，最终结果自然无法正确。

当前主流的AI数学解题方法主要分为两类。一类是纯自然语言推理，类似于学生完全依赖心算和草稿纸推导；另一类是“工具辅助推理”，即AI结合文字分析与Python解释器调用进行协同计算。后者看似更为合理，但韩国研究团队发现，这种“文字与代码交错”的工作模式存在三个结构性缺陷，制约了AI性能的充分发挥。

为彻底解决这一问题，他们提出了名为THINC（Thinking in Code，即“用代码思考”）的全新框架。其核心理念异常简洁：与其让AI主要依赖文字推导、偶尔借助代码验证，不如让代码本身承担全部推理职责——自然语言仅用于初始阶段的战略规划，后续所有计算步骤与逻辑推导完全交由代码执行。

实验结果令人瞩目。基于40亿参数的小型模型，在五个顶级数学竞赛评测集上取得了平均78.1%的准确率。这一表现不仅超越了所有同类“工具辅助推理”系统，甚至超过了参数量近60倍于它的巨型模型Qwen3-235B-A22B-Thinking。

一、现有方法的三大结构性缺陷

要理解THINC为何有效，首先需要厘清它旨在解决的根本问题。

将AI“文字推理+代码执行”的混合模式类比为工程师与计算器协作的场景，问题便清晰可见。工程师（文字推理模块）先在脑中或纸上完成计算，再将中间结果交由计算器（代码执行模块）验证。这种流程看似稳妥，实则隐藏着三个易被忽视的漏洞。

第一是“事后验证陷阱”。工程师已完成全部心算并得出答案，然后才使用计算器进行“确认”。计算器虽得出相同结果，但并未参与实际推理过程——它仅仅在重复验证一个已预设的结论。若工程师初始计算即存在错误，计算器的验证反而会巩固这一错误。

第二是“错误隐性传递”。工程师在文字推理中计算出某个中间值（例如将500的12%误算为50），随后将这个错误数值直接写入代码供计算器使用。计算器会忠实地基于错误输入继续运算，但无法识别输入值本身的正确性。错误便在无声无息中传递下去，整个过程缺乏纠错机制。

第三在于“角色重叠与资源浪费”。文字推理与代码执行本应各司其职：前者擅长高层次策略规划，后者精于精确数值计算与符号运算。然而在实际混合模式中，文字推理往往详细描述具体解题步骤，相当于用自然语言重述了整个算法；紧随其后的代码块又用编程语言将同一算法重新实现一遍。两者功能高度重叠，文字推理未能发挥其战略价值，反而浪费了宝贵的计算资源。

二、THINC的核心设计：代码主导的推理范式

THINC的解决方案可通过一个直观类比理解：将解题过程视为施工队建造楼房。

在旧模式中，项目经理（文字推理）会对照蓝图口头阐述整个施工流程：第一步如何操作、第二步如何衔接、预计耗时、中间数值是多少……随后工人（代码执行）再依据指令施工。若项目经理口述数字错误，工人便会按错误数字作业，且无人核查指令的准确性。

在THINC模式中，项目经理仅负责最初的关键决策：审视蓝图后简要说明“我们将建造一栋三层钢筋混凝土结构建筑，从地基工程开始”。此后，项目经理便退出具体指挥。所有后续工作——地基开挖、墙体砌筑、管线敷设——均由工人依据工程规范自主完成，每一步结果均以实际测量数据为准，不依赖项目经理的口头描述。

用技术语言表述，THINC的工作流程如下：问题输入后，模型首先生成一段简洁的自然语言规划，阐明解题的整体策略；随后完全切换至代码模式，每个代码块的输出直接作为下一个代码块的输入依据，直至得出最终答案。代码块之间不存在任何自然语言推理段落。

这一结构的精妙之处在于，它从设计源头堵住了前述三个漏洞。代码块成为主动的推导者而非被动的验证者；所有中间数值均由解释器实时生成，杜绝了手动输入错误；自然语言与代码的职责边界清晰，各展所长。

三、从零到精通的系统化训练流程

理解THINC理念后，随之而来的问题是：如何让普通AI模型掌握这种“纯代码思考”能力？

研究团队设计了三阶段训练流程，可类比培养专业厨师：先观摩大师操作（轨迹蒸馏），再系统训练基本功（监督微调），最后通过实战竞赛锤炼技艺（强化学习）。

第一阶段“观摩大师”，即从更强的教师模型中采集符合THINC格式的解题样本。团队选用Qwen3.5-27B作为教师模型，向其展示三道示例题（包含标准THINC格式解题过程），然后让其生成大量竞赛数学题的解题轨迹。每条生成轨迹均需经过严格筛选：答案必须正确、每个代码块可无错运行、至少包含三个独立代码块，且开头的规划部分不得超过总轨迹篇幅的一半。后两个条件确保筛选出的样本真正体现“代码主导”特性。经筛选，最终保留12,200条高质量的代码中心型轨迹，构成THINC-SFT数据集。

第二阶段“基本功训练”，即使用这12,200条轨迹对学生模型进行监督微调。团队选用两个基础模型：Qwen3-1.7B和Qwen3-4B-Thinking-2507，分别训练出THINC-1.7B-SFT和THINC-4B-SFT版本。训练参数包括32K上下文长度、7×10⁻⁵学习率及3个训练轮次。此阶段目标并非立即提升模型性能，而是使其熟练掌握THINC格式——如同新厨师先掌握刀工与火候控制。

事实上，监督微调后的模型表现并不突出：THINC-4B-SFT平均准确率仅为48.1%，甚至略低于基础模型。这完全符合预期——模型刚掌握新的“工作方式”，尚未达到熟练程度。

第三阶段“实战锤炼”，即通过强化学习显著提升模型的解题能力。强化学习逻辑直观：模型尝试解题，若答案正确则获得奖励，错误则无奖励。通过大量“尝试-反馈”循环，模型逐渐学会哪些解题策略真正有效。

团队采用GRPO（Group Relative Policy Optimization）算法，这是一种无需额外“裁判模型”的强化学习方法。训练分为三个阶段，核心差异在于可用计算资源：第一阶段允许最多20次工具调用、16K上下文长度；第二阶段过滤已完全解决的简单题目，专注于挑战性难题；第三阶段大幅扩展资源，允许最多40次工具调用、32K上下文长度，使模型能够处理需要超长推理链的复杂题目。

经过完整强化学习训练，THINC-4B的平均准确率从48.1%跃升至78.1%，提升幅度达29.9个百分点。此阶段才是真正的“能力飞跃期”。

四、性能评测：超越同级，以小博大

研究团队在五个顶级竞赛数学评测集上评估了THINC，包括AIME 2024、AIME 2025、AIME 2026、HMMT 2025 February和BeyondAIME。这些评测集题目难度极高，相当于数学竞赛的最高水平。

评估方式为每道题生成16次解答，计算平均答对率（avg@16）。这种方式比单次生成更能反映模型的真实能力，减少了运气因素的干扰。

在这五个评测集上，THINC-4B平均成绩为78.1%，在四个评测集上位列第一。最直接的对比对象是ASTER-4B——该模型与THINC-4B使用完全相同的基础模型、相似的教师模型容量及强化学习流程，唯一区别在于ASTER采用传统的“文字代码交错”格式。在此最公平的对比条件下，THINC-4B在所有五个评测集上均超越ASTER-4B，平均领先4.1个百分点。更值得注意的是，THINC-4B实现这一成绩所使用的工具调用次数（平均6.1次）比ASTER-4B（11.1次）减少近一半，生成的响应长度（平均13.5K个token）也更短。这意味着THINC不仅更准确，而且更高效。

更具戏剧性的对比来自跨量级比较。Qwen3-235B-A22B-Thinking是目前开源社区中最强的纯文字推理模型之一，参数量高达2350亿（其中220亿为激活参数）。THINC-4B参数量仅40亿，体量差距近60倍。然而在五个评测集中的四个上，THINC-4B得分均超越这一庞然大物，平均领先2.9个百分点。

THINC-4B也超越了其教师模型Qwen3.5-27B（在相同的3-shot提示条件下），平均领先幅度达13.4个百分点——学生全面超越老师在机器学习领域并不常见，但通过监督微调与强化学习的组合确实实现了这一目标。

在更小的1.7B规模上，THINC同样展现出稳定提升。THINC-1.7B平均准确率达到42.8%，超越了Qwen3-1.7B基础模型（32.2%）、被提示使用Python解释器的Qwen3-1.7B（29.8%），以及同量级竞争者CoRT-1.5B（25.7%）。

五、深度解析：模型是否真正“用代码思考”？

一个合理的质疑是：THINC仅是形式上遵循“先规划后代码”的格式，还是真正在用代码进行推理？研究团队通过两个关键指标回答这一问题。

第一个指标是“每条轨迹的代码行数”。THINC-4B平均每条轨迹编写349行代码，远超第二名ReTool（261行）、ASTER（102行）和CoRT（40行）。仅从数量看，THINC确实在大量使用代码。

第二个更具说服力的指标是“代码接地率”——即最终答案有多大比例实际出现在某个代码块的执行输出中，而非由模型直接在文字中生成。该指标衡量答案究竟是“代码计算得出”还是“文字直接给出”。THINC-4B的代码接地率高达99.2%，几乎所有答案均来自解释器的执行输出。相比之下，ReTool为88.4%，rStar2-Agent为74.3%，CoRT与ASTER约为50%，DemyAgent最低仅34.9%。这意味着超过一半情况下，对比模型的最终答案实际由文字推理直接生成，完全绕过了代码解释器——而绕过解释器即意味着放弃了精确计算的保障。

THINC-4B的这一特性由其格式“强制”实现——因为格式规定代码块之间无文字推理空间，答案要么来自代码执行结果，要么无处生成。这种“强制”恰恰成为其核心优势。

六、错误恢复机制：代码执行出错如何应对？

一个自然的担忧是：若代码是唯一推理工具，一旦执行出错，模型是否完全无路可退？在传统“文字代码交错”模式中，代码出错后，模型可在后续文字段落中分析原因、重新规划，如同登山遇阻时可说“此路不通，我们换条路”。THINC无此选项——代码块之间无文字，面对执行错误，模型只能在下一个代码块中直接应对。

研究团队使用“Recovery@k”指标测量此场景下的表现：在前k个代码块全部执行出错的情况下，模型最终仍能答对的概率。k值从1测试至5，覆盖从单次失败到五次连续失败的场景。

结果出人意料：所有传统交错推理系统均随k值增加而性能大幅下滑。ASTER在k=1时恢复率为52.1%，k=5时跌至18.5%；rStar2-Agent在k=1时为39.1%，k=5时直接降至0%；ReTool、DemyAgent和CoRT也呈现类似下降趋势。

THINC-4B的表现截然不同：在k=1、2、3时，恢复率稳定在64%至69%之间，几乎无下滑；k=4时降至54.5%，k=5时降至33.3%。即使在k=5的极端场景下，THINC-4B的恢复率仍是所有交错推理基线中最高值的近两倍。

研究团队进一步分析了这种鲁棒性的来源。仅完成监督微调、未经历强化学习的THINC-4B-SFT，在k=1时恢复率已达42.9%，超过大多数交错推理基线。这表明“代码中心型”格式本身即带来一定鲁棒性——不依赖文字推理消化错误，反而迫使模型在代码层面解决问题。经过强化学习后，这种鲁棒性得到进一步提升，k=1、2、3时分别提升超过20个百分点。

七、实战演示：一道竞赛题的完整求解轨迹

为使上述描述更具体，研究团队在论文中展示了THINC-4B求解AIME 2026第3题的完整轨迹。题目为：找出不超过100的整数中，有多少个可表示为a+b+ab的形式，其中a和b为不同的正整数？（参考答案为70。）

模型的规划段仅完成一件事：将表达式a+b+ab改写为(a+1)(b+1)-1，并说明“直接枚举即可，我将编写代码”。随后无任何多余文字，直接进入代码执行。

第一个代码块：编写双重循环，枚举所有符合条件的(a,b)对，将结果存入集合并去重。输出：70。但模型在代码注释中指出，循环中的`break`语句可能存在逻辑问题——即它在代码执行结束后，通过阅读自身代码发现了潜在漏洞，且这一反思过程完全在代码注释中完成，无任何文字推理段落。

第二个代码块：针对发现的问题重写循环逻辑，修复break条件，并输出所有符合条件的数字完整列表。结果仍为70。

第三个代码块：将这70个数字按奇偶分类，验证无遗漏或重复计算。奇数48个，偶数22个，合计70个，验证通过。

第四个代码块：使用完全不同的数学等价形式（令u=a+1，v=b+1，通过枚举乘积u×v计数）独立重新推导，并明确检验两种方法结果是否一致。结果仍为70，两种方法完全吻合。

第五个代码块：反向验证——找出1至100中所有无法被表示的数字，确认恰好有30个，从而证实可被表示的数字为70个。

最终答案：70。全程无任何文字推理介入，所有自我纠错、结构验证、独立重推均在代码块内部完成。

八、泛化能力验证：在科学领域的应用潜力

研究团队进行了额外测试，将THINC-4B置于GPQA-Diamond评测集进行评估。该评测集并非数学题，而是研究生级别的物理、化学和生物选择题，对AI属于全新领域。

结果显示，THINC-4B在avg@16指标上获得66.48%，略高于基础模型Qwen3-4B-Thinking的66.32%；在best@16（16次尝试中的最佳成绩）指标上达到91.41%，超越ASTER-4B的90.40%，并比基础模型高出7.57个百分点。这一结果表明，代码中心型推理方式并不局限于数学领域，在需要系统性分析与精确计算的科学问题上同样有效。

归根结底，THINC研究回答了一个简单问题：当要求AI在求解数学问题时“少说话、多动手”，会发生什么？答案是：性能更优、效率更高、且容错性更强。

这并非否定文字推理的价值——战略规划仍需语言完成。但具体计算、逻辑推导与验证等任务，代码本就比文字更擅长，强迫两者共存反而制造了障碍。研究团队找到了一种让两者各司其职的方式，成效显著。

当然，该研究也存在局限。目前实验仅在1.7B和4B这两个较小模型规模上进行，在更大规模模型上是否同样有效尚不明确。评测范围也局限于竞赛数学，代码中心型推理是否适用于其他类型问题（如开放式问答或创意写作）仍需进一步探索。

Q&A

Q1：THINC框架与普通的“AI用代码解数学题”有何本质区别？

普通工具辅助推理（TIR）采用文字推理与代码执行交替进行的方式——AI先用文字分析一段，再调用代码计算一段，然后继续文字推理。THINC的核心区别在于：开头仅用文字进行一次战略规划，之后所有推理步骤完全由代码完成，代码块之间无任何文字推理。这使得所有中间结果均由解释器生成，避免了文字推理中的计算错误隐性传递至代码的问题。

Q2：THINC-4B如何以40亿参数击败2350亿参数的大模型？

参数量大并不等同于解题方式更优。Qwen3-235B-A22B-Thinking采用纯文字推理解题，文字计算本身容易出错；而THINC-4B将所有数值计算交由Python解释器完成，从源头上消除了文字计算的不可靠性。加之强化学习训练使模型反复尝试难题、积累有效解题策略，最终在竞赛数学这类对精确计算要求极高的领域，THINC-4B的解题范式比大模型的纯文字推理更具优势。

Q3：THINC在代码执行出错时如何应对？

THINC没有文字推理段落来“解释”执行错误，模型只能在下一个代码块中直接重写逻辑以应对。实验测试显示，这种方式的鲁棒性反而比传统交错推理更强——在前五个代码块全部出错的极端情况下，THINC-4B仍有33.3%的恢复率，而最强的对比模型（ASTER）已跌至18.5%，rStar2-Agent直接降至0%。强化学习阶段让模型大量练习了“遇到错误直接在代码层面修复”的能力。

来源：https://www.163.com/dy/article/KT88QJHQ0511DTVV.html

大模型

上一篇港科大与蚂蚁集团合作研发实时电影导演AI技术 下一篇腾讯吐司与蚂蚁灵光对比评测普通人如何选择AI应用开发工具

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。