首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
韩国大学AI用代码解数学题 性能超越百倍大模型

韩国大学AI用代码解数学题 性能超越百倍大模型

热心网友
27
转载
2026-05-19


近期,一项由韩国大学与AIGEN Sciences合作的研究在arXiv预印本平台发布(编号:arXiv:2605.07237),为解决AI在数学推理领域的长期难题,提出了一种极具创新性的思路。

数学问题求解一直是人工智能面临的核心挑战之一。其难点并非源于模型智能不足,而在于数学推导对精确性的严苛要求——任何微小的计算失误都可能导致最终答案谬以千里。这类似于进行多位数乘法笔算时,若中间某行数字抄写错误,后续所有步骤都将建立在错误基础上,最终结果自然无法正确。

当前主流的AI数学解题方法主要分为两类。一类是纯自然语言推理,类似于学生完全依赖心算和草稿纸推导;另一类是“工具辅助推理”,即AI结合文字分析与Python解释器调用进行协同计算。后者看似更为合理,但韩国研究团队发现,这种“文字与代码交错”的工作模式存在三个结构性缺陷,制约了AI性能的充分发挥。

为彻底解决这一问题,他们提出了名为THINC(Thinking in Code,即“用代码思考”)的全新框架。其核心理念异常简洁:与其让AI主要依赖文字推导、偶尔借助代码验证,不如让代码本身承担全部推理职责——自然语言仅用于初始阶段的战略规划,后续所有计算步骤与逻辑推导完全交由代码执行。

实验结果令人瞩目。基于40亿参数的小型模型,在五个顶级数学竞赛评测集上取得了平均78.1%的准确率。这一表现不仅超越了所有同类“工具辅助推理”系统,甚至超过了参数量近60倍于它的巨型模型Qwen3-235B-A22B-Thinking。

一、现有方法的三大结构性缺陷

要理解THINC为何有效,首先需要厘清它旨在解决的根本问题。

将AI“文字推理+代码执行”的混合模式类比为工程师与计算器协作的场景,问题便清晰可见。工程师(文字推理模块)先在脑中或纸上完成计算,再将中间结果交由计算器(代码执行模块)验证。这种流程看似稳妥,实则隐藏着三个易被忽视的漏洞。

第一是“事后验证陷阱”。工程师已完成全部心算并得出答案,然后才使用计算器进行“确认”。计算器虽得出相同结果,但并未参与实际推理过程——它仅仅在重复验证一个已预设的结论。若工程师初始计算即存在错误,计算器的验证反而会巩固这一错误。

第二是“错误隐性传递”。工程师在文字推理中计算出某个中间值(例如将500的12%误算为50),随后将这个错误数值直接写入代码供计算器使用。计算器会忠实地基于错误输入继续运算,但无法识别输入值本身的正确性。错误便在无声无息中传递下去,整个过程缺乏纠错机制。

第三在于“角色重叠与资源浪费”。文字推理与代码执行本应各司其职:前者擅长高层次策略规划,后者精于精确数值计算与符号运算。然而在实际混合模式中,文字推理往往详细描述具体解题步骤,相当于用自然语言重述了整个算法;紧随其后的代码块又用编程语言将同一算法重新实现一遍。两者功能高度重叠,文字推理未能发挥其战略价值,反而浪费了宝贵的计算资源。

二、THINC的核心设计:代码主导的推理范式

THINC的解决方案可通过一个直观类比理解:将解题过程视为施工队建造楼房。

在旧模式中,项目经理(文字推理)会对照蓝图口头阐述整个施工流程:第一步如何操作、第二步如何衔接、预计耗时、中间数值是多少……随后工人(代码执行)再依据指令施工。若项目经理口述数字错误,工人便会按错误数字作业,且无人核查指令的准确性。

在THINC模式中,项目经理仅负责最初的关键决策:审视蓝图后简要说明“我们将建造一栋三层钢筋混凝土结构建筑,从地基工程开始”。此后,项目经理便退出具体指挥。所有后续工作——地基开挖、墙体砌筑、管线敷设——均由工人依据工程规范自主完成,每一步结果均以实际测量数据为准,不依赖项目经理的口头描述。

用技术语言表述,THINC的工作流程如下:问题输入后,模型首先生成一段简洁的自然语言规划,阐明解题的整体策略;随后完全切换至代码模式,每个代码块的输出直接作为下一个代码块的输入依据,直至得出最终答案。代码块之间不存在任何自然语言推理段落。

这一结构的精妙之处在于,它从设计源头堵住了前述三个漏洞。代码块成为主动的推导者而非被动的验证者;所有中间数值均由解释器实时生成,杜绝了手动输入错误;自然语言与代码的职责边界清晰,各展所长。

三、从零到精通的系统化训练流程

理解THINC理念后,随之而来的问题是:如何让普通AI模型掌握这种“纯代码思考”能力?

研究团队设计了三阶段训练流程,可类比培养专业厨师:先观摩大师操作(轨迹蒸馏),再系统训练基本功(监督微调),最后通过实战竞赛锤炼技艺(强化学习)。

第一阶段“观摩大师”,即从更强的教师模型中采集符合THINC格式的解题样本。团队选用Qwen3.5-27B作为教师模型,向其展示三道示例题(包含标准THINC格式解题过程),然后让其生成大量竞赛数学题的解题轨迹。每条生成轨迹均需经过严格筛选:答案必须正确、每个代码块可无错运行、至少包含三个独立代码块,且开头的规划部分不得超过总轨迹篇幅的一半。后两个条件确保筛选出的样本真正体现“代码主导”特性。经筛选,最终保留12,200条高质量的代码中心型轨迹,构成THINC-SFT数据集。

第二阶段“基本功训练”,即使用这12,200条轨迹对学生模型进行监督微调。团队选用两个基础模型:Qwen3-1.7B和Qwen3-4B-Thinking-2507,分别训练出THINC-1.7B-SFT和THINC-4B-SFT版本。训练参数包括32K上下文长度、7×10⁻⁵学习率及3个训练轮次。此阶段目标并非立即提升模型性能,而是使其熟练掌握THINC格式——如同新厨师先掌握刀工与火候控制。

事实上,监督微调后的模型表现并不突出:THINC-4B-SFT平均准确率仅为48.1%,甚至略低于基础模型。这完全符合预期——模型刚掌握新的“工作方式”,尚未达到熟练程度。

第三阶段“实战锤炼”,即通过强化学习显著提升模型的解题能力。强化学习逻辑直观:模型尝试解题,若答案正确则获得奖励,错误则无奖励。通过大量“尝试-反馈”循环,模型逐渐学会哪些解题策略真正有效。

团队采用GRPO(Group Relative Policy Optimization)算法,这是一种无需额外“裁判模型”的强化学习方法。训练分为三个阶段,核心差异在于可用计算资源:第一阶段允许最多20次工具调用、16K上下文长度;第二阶段过滤已完全解决的简单题目,专注于挑战性难题;第三阶段大幅扩展资源,允许最多40次工具调用、32K上下文长度,使模型能够处理需要超长推理链的复杂题目。

经过完整强化学习训练,THINC-4B的平均准确率从48.1%跃升至78.1%,提升幅度达29.9个百分点。此阶段才是真正的“能力飞跃期”。

四、性能评测:超越同级,以小博大

研究团队在五个顶级竞赛数学评测集上评估了THINC,包括AIME 2024、AIME 2025、AIME 2026、HMMT 2025 February和BeyondAIME。这些评测集题目难度极高,相当于数学竞赛的最高水平。

评估方式为每道题生成16次解答,计算平均答对率(avg@16)。这种方式比单次生成更能反映模型的真实能力,减少了运气因素的干扰。

在这五个评测集上,THINC-4B平均成绩为78.1%,在四个评测集上位列第一。最直接的对比对象是ASTER-4B——该模型与THINC-4B使用完全相同的基础模型、相似的教师模型容量及强化学习流程,唯一区别在于ASTER采用传统的“文字代码交错”格式。在此最公平的对比条件下,THINC-4B在所有五个评测集上均超越ASTER-4B,平均领先4.1个百分点。更值得注意的是,THINC-4B实现这一成绩所使用的工具调用次数(平均6.1次)比ASTER-4B(11.1次)减少近一半,生成的响应长度(平均13.5K个token)也更短。这意味着THINC不仅更准确,而且更高效。

更具戏剧性的对比来自跨量级比较。Qwen3-235B-A22B-Thinking是目前开源社区中最强的纯文字推理模型之一,参数量高达2350亿(其中220亿为激活参数)。THINC-4B参数量仅40亿,体量差距近60倍。然而在五个评测集中的四个上,THINC-4B得分均超越这一庞然大物,平均领先2.9个百分点。

THINC-4B也超越了其教师模型Qwen3.5-27B(在相同的3-shot提示条件下),平均领先幅度达13.4个百分点——学生全面超越老师在机器学习领域并不常见,但通过监督微调与强化学习的组合确实实现了这一目标。

在更小的1.7B规模上,THINC同样展现出稳定提升。THINC-1.7B平均准确率达到42.8%,超越了Qwen3-1.7B基础模型(32.2%)、被提示使用Python解释器的Qwen3-1.7B(29.8%),以及同量级竞争者CoRT-1.5B(25.7%)。

五、深度解析:模型是否真正“用代码思考”?

一个合理的质疑是:THINC仅是形式上遵循“先规划后代码”的格式,还是真正在用代码进行推理?研究团队通过两个关键指标回答这一问题。

第一个指标是“每条轨迹的代码行数”。THINC-4B平均每条轨迹编写349行代码,远超第二名ReTool(261行)、ASTER(102行)和CoRT(40行)。仅从数量看,THINC确实在大量使用代码。

第二个更具说服力的指标是“代码接地率”——即最终答案有多大比例实际出现在某个代码块的执行输出中,而非由模型直接在文字中生成。该指标衡量答案究竟是“代码计算得出”还是“文字直接给出”。THINC-4B的代码接地率高达99.2%,几乎所有答案均来自解释器的执行输出。相比之下,ReTool为88.4%,rStar2-Agent为74.3%,CoRT与ASTER约为50%,DemyAgent最低仅34.9%。这意味着超过一半情况下,对比模型的最终答案实际由文字推理直接生成,完全绕过了代码解释器——而绕过解释器即意味着放弃了精确计算的保障。

THINC-4B的这一特性由其格式“强制”实现——因为格式规定代码块之间无文字推理空间,答案要么来自代码执行结果,要么无处生成。这种“强制”恰恰成为其核心优势。

六、错误恢复机制:代码执行出错如何应对?

一个自然的担忧是:若代码是唯一推理工具,一旦执行出错,模型是否完全无路可退?在传统“文字代码交错”模式中,代码出错后,模型可在后续文字段落中分析原因、重新规划,如同登山遇阻时可说“此路不通,我们换条路”。THINC无此选项——代码块之间无文字,面对执行错误,模型只能在下一个代码块中直接应对。

研究团队使用“Recovery@k”指标测量此场景下的表现:在前k个代码块全部执行出错的情况下,模型最终仍能答对的概率。k值从1测试至5,覆盖从单次失败到五次连续失败的场景。

结果出人意料:所有传统交错推理系统均随k值增加而性能大幅下滑。ASTER在k=1时恢复率为52.1%,k=5时跌至18.5%;rStar2-Agent在k=1时为39.1%,k=5时直接降至0%;ReTool、DemyAgent和CoRT也呈现类似下降趋势。

THINC-4B的表现截然不同:在k=1、2、3时,恢复率稳定在64%至69%之间,几乎无下滑;k=4时降至54.5%,k=5时降至33.3%。即使在k=5的极端场景下,THINC-4B的恢复率仍是所有交错推理基线中最高值的近两倍。

研究团队进一步分析了这种鲁棒性的来源。仅完成监督微调、未经历强化学习的THINC-4B-SFT,在k=1时恢复率已达42.9%,超过大多数交错推理基线。这表明“代码中心型”格式本身即带来一定鲁棒性——不依赖文字推理消化错误,反而迫使模型在代码层面解决问题。经过强化学习后,这种鲁棒性得到进一步提升,k=1、2、3时分别提升超过20个百分点。

七、实战演示:一道竞赛题的完整求解轨迹

为使上述描述更具体,研究团队在论文中展示了THINC-4B求解AIME 2026第3题的完整轨迹。题目为:找出不超过100的整数中,有多少个可表示为a+b+ab的形式,其中a和b为不同的正整数?(参考答案为70。)

模型的规划段仅完成一件事:将表达式a+b+ab改写为(a+1)(b+1)-1,并说明“直接枚举即可,我将编写代码”。随后无任何多余文字,直接进入代码执行。

第一个代码块:编写双重循环,枚举所有符合条件的(a,b)对,将结果存入集合并去重。输出:70。但模型在代码注释中指出,循环中的`break`语句可能存在逻辑问题——即它在代码执行结束后,通过阅读自身代码发现了潜在漏洞,且这一反思过程完全在代码注释中完成,无任何文字推理段落。

第二个代码块:针对发现的问题重写循环逻辑,修复break条件,并输出所有符合条件的数字完整列表。结果仍为70。

第三个代码块:将这70个数字按奇偶分类,验证无遗漏或重复计算。奇数48个,偶数22个,合计70个,验证通过。

第四个代码块:使用完全不同的数学等价形式(令u=a+1,v=b+1,通过枚举乘积u×v计数)独立重新推导,并明确检验两种方法结果是否一致。结果仍为70,两种方法完全吻合。

第五个代码块:反向验证——找出1至100中所有无法被表示的数字,确认恰好有30个,从而证实可被表示的数字为70个。

最终答案:70。全程无任何文字推理介入,所有自我纠错、结构验证、独立重推均在代码块内部完成。

八、泛化能力验证:在科学领域的应用潜力

研究团队进行了额外测试,将THINC-4B置于GPQA-Diamond评测集进行评估。该评测集并非数学题,而是研究生级别的物理、化学和生物选择题,对AI属于全新领域。

结果显示,THINC-4B在avg@16指标上获得66.48%,略高于基础模型Qwen3-4B-Thinking的66.32%;在best@16(16次尝试中的最佳成绩)指标上达到91.41%,超越ASTER-4B的90.40%,并比基础模型高出7.57个百分点。这一结果表明,代码中心型推理方式并不局限于数学领域,在需要系统性分析与精确计算的科学问题上同样有效。

归根结底,THINC研究回答了一个简单问题:当要求AI在求解数学问题时“少说话、多动手”,会发生什么?答案是:性能更优、效率更高、且容错性更强。

这并非否定文字推理的价值——战略规划仍需语言完成。但具体计算、逻辑推导与验证等任务,代码本就比文字更擅长,强迫两者共存反而制造了障碍。研究团队找到了一种让两者各司其职的方式,成效显著。

当然,该研究也存在局限。目前实验仅在1.7B和4B这两个较小模型规模上进行,在更大规模模型上是否同样有效尚不明确。评测范围也局限于竞赛数学,代码中心型推理是否适用于其他类型问题(如开放式问答或创意写作)仍需进一步探索。

Q&A

Q1:THINC框架与普通的“AI用代码解数学题”有何本质区别?

普通工具辅助推理(TIR)采用文字推理与代码执行交替进行的方式——AI先用文字分析一段,再调用代码计算一段,然后继续文字推理。THINC的核心区别在于:开头仅用文字进行一次战略规划,之后所有推理步骤完全由代码完成,代码块之间无任何文字推理。这使得所有中间结果均由解释器生成,避免了文字推理中的计算错误隐性传递至代码的问题。

Q2:THINC-4B如何以40亿参数击败2350亿参数的大模型?

参数量大并不等同于解题方式更优。Qwen3-235B-A22B-Thinking采用纯文字推理解题,文字计算本身容易出错;而THINC-4B将所有数值计算交由Python解释器完成,从源头上消除了文字计算的不可靠性。加之强化学习训练使模型反复尝试难题、积累有效解题策略,最终在竞赛数学这类对精确计算要求极高的领域,THINC-4B的解题范式比大模型的纯文字推理更具优势。

Q3:THINC在代码执行出错时如何应对?

THINC没有文字推理段落来“解释”执行错误,模型只能在下一个代码块中直接重写逻辑以应对。实验测试显示,这种方式的鲁棒性反而比传统交错推理更强——在前五个代码块全部出错的极端情况下,THINC-4B仍有33.3%的恢复率,而最强的对比模型(ASTER)已跌至18.5%,rStar2-Agent直接降至0%。强化学习阶段让模型大量练习了“遇到错误直接在代码层面修复”的能力。

来源:https://www.163.com/dy/article/KT88QJHQ0511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

豆包大模型智能语音助手开发全流程详解
AI
豆包大模型智能语音助手开发全流程详解

构建豆包大模型智能语音助手需建立ASR、LLM、TTS三段式链路。ASR推荐火山引擎独立服务以确保识别准确;LLM需通过角色约束和上下文管理输出结构化指令;TTS选用配套接口优化车载合成效果与延迟,采用WebSocket流式传输。同时需规范请求头设置与异常处理,以提升系统健壮性。

热心网友
05.18
00后校友捐赠20亿虚拟币引热议 实际价值或仅数百元
业界动态
00后校友捐赠20亿虚拟币引热议 实际价值或仅数百元

泡泡玛特创始人王宁的母校收到3名00后校友捐赠的20亿Token,用于支持学生创业。舆论对其实际价值产生分歧,估算约在数百元至数十万元人民币之间,具体取决于所调用AI模型的级别。此事引发对数字时代捐赠物价值衡量的讨论,焦点在于应关注其货币价格还是作为创新工具的潜在意义。

热心网友
05.18
企业AI流量入口布局指南 GEO优化服务商选择策略
业界动态
企业AI流量入口布局指南 GEO优化服务商选择策略

生成式AI搜索重塑流量格局,企业需通过GEO优化驱动增长。面对市场效果虚标等问题,甄别可靠服务商至关重要。昕搜科技、美誉度国际、百分点科技、泓动数据及蓝色光标等各具技术或场景优势。企业应结合技术实力与行业适配度,选择匹配需求的合作伙伴。

热心网友
05.18
万成云商对话:文章发布不等于SEO优化,大模型内容推荐机制解析
科技数码
万成云商对话:文章发布不等于SEO优化,大模型内容推荐机制解析

随着AI搜索普及,GEO成为企业获取流量的关键。其核心是让AI在生成答案时优先推荐品牌信息,从传统SEO的“规则博弈”转向“信任竞争”。企业需成为全网可信赖的信息源,提供结构清晰、有据可查的内容,并构建外部信任体系。布局需遵循四步:拆解决策路径、重构内容、建设信任、多渠道分发。视频成本降低后,竞。

热心网友
05.18
腾讯混元大模型正式上线姚顺雨团队主导研发
AI
腾讯混元大模型正式上线姚顺雨团队主导研发

腾讯混元的新一代模型,Hy3 preview,刚刚揭开面纱。 这不仅是混元团队在架构与基础设施层面重新出发后的首个版本,更因其“实用性”的明确标签而备受关注。首批发布的模型尺寸相对较小,目标直指落地应用。同样引人注目的是,这也是AI专家姚顺雨归国加盟腾讯后交出的首份重要答卷,其背后贯彻的正是他所倡导

热心网友
05.18

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

上海启动全球首颗光计算卫星研制 提升太空算力布局
科技数码
上海启动全球首颗光计算卫星研制 提升太空算力布局

上海启动全球首颗光计算卫星研制,其天基光计算具备抗辐照、低功耗特性,适应太空环境,可支撑在轨大算力任务。目前芯片太空验证已完成,全链条研制能力基本形成。产业面临成本与规模化挑战,需重构航天制造体系。长三角已成立创新联合体聚焦七大技术攻坚,上海将天基计算列为未来。

热心网友
05.19
百度成立AI模型委员会强化技术优势 苹果与OpenAI合作现裂痕
科技数码
百度成立AI模型委员会强化技术优势 苹果与OpenAI合作现裂痕

苹果与OpenAI合作因商业回报未达预期出现裂痕。腾讯地图推出AI骑手模式优化配送。百度成立模型委员会强化AI布局。荣耀将发布搭载云台系统的RobotPhone。Anthropic拟以9000亿美元估值融资。阿里发布智能体开发工作台Qoder1 0。千问APP接入药监局数据。发那科与英伟达深化合作,利用AI加速机器人开发。

热心网友
05.19
图书管理软件有哪些实用推荐与使用心得分享
游戏资讯
图书管理软件有哪些实用推荐与使用心得分享

面对海量书籍资源,数字化管理工具至关重要。小满图书管理侧重会员与库存管理,适合书店。库存管理通轻量化,支持多货品进销存。藏书馆兼具藏书管理与数字阅读功能。移动图书馆对接高校资源,提供学术服务。个人图书馆专注个人知识收集与创作。各类软件功能各异,需根据核心需求选择。

热心网友
05.19
流畅好用的英文朗读软件推荐
游戏资讯
流畅好用的英文朗读软件推荐

英文朗读软件能有效辅助学习。推荐几款特色应用:全能型《朗读器》操作简便;《朗读者》结合翻译与朗读;《英文翻译》支持长文朗读;《朗读大师》擅长图像识别与发音反馈;《中英文翻译》提供系统化学习路径。根据需求选择工具并坚持练习,可提升理解与发音能力。

热心网友
05.19
飞机票购买软件推荐 这几款订机票APP实用又划算
游戏资讯
飞机票购买软件推荐 这几款订机票APP实用又划算

飞机是远距离出行的高效选择,提前购票可锁定行程并享受优惠。主流购票平台包括飞猪旅行、携程旅行、航班管家、美团、飞行卡和去哪儿旅行。这些应用不仅提供机票预订,还整合酒店、景点门票、本地生活等服务,满足用户对价格、一站式规划或特定优惠的不同需求。

热心网友
05.19