游乐游手机版
首页/AI教程/文章详情

SCoT自动调整推理链长度 新架构提升推理能力

时间:2026-06-26 16:48
SCoT框架将推理过程分解为原子步骤,动态生成与问题复杂度匹配的推理结构。AtomThink框架涵盖数据构造、训练、推理和评估,在多个数据集上使模型准确率提升超10%,数据利用效率提升5倍,推理效率提升85 3%,并揭示了推理初期的误差累积现象。

多模态推理领域最近迎来了一项有意思的进展——SCoT(自结构化推理链)框架。简单来说,它把推理过程拆解成最小的语义单元,然后根据问题的复杂度动态生成最合适的推理结构。这样一来,既避免了简单问题上的过度思考,也解决了复杂问题上的推理天花板。

为了让这个想法落地,研究团队还同步推出了一个名为AtomThink的全流程框架,涵盖了数据构造、训练、推理和评估四个关键环节,专门用来提升多模态大模型在复杂推理任务上的表现。

从实验结果来看,SCoT确实展现出了自适应能力——复杂问题的推理链条会自动变长,简单问题的链条则相对精简。在多个公开数据集上,AtomThink框架都显著提升了基线模型的准确率,同时数据利用效率和推理效率同样表现亮眼。更有意思的是,通过原子能力评估,研究人员还发现了多模态模型在不同推理能力上的分布特征,这为理解多模态推理机制提供了一个全新的视角。

这项研究由来自中山大学、香港科技大学、上海交通大学、香港大学、华&为诺亚方舟实验室的研究人员合作完成。接下来,我们展开聊聊具体的技术细节。

SCoT、AtomThink长啥样?

先说说当前结构化与非结构化CoT各自面临的困境。现有的方法,要么依赖固定模板进行结构化推理,要么采用自由形式的非结构化推理。前者的问题是推理行为单一、需要人工设计模板,后者则容易出现计算效率低下、在简单问题上过度思考的毛病。

基于这样的观察,团队提出了两个核心假设:一是不同类型的问题可能需要不同的推理能力;二是推理的复杂性应当与问题本身的难度相匹配。为了给不同复杂度的问题动态生成合适的推理结构,研究人员引入了自结构化思维链(SCoT)以及全程框架AtomThink。

SCoT的核心思路,是把推理过程分解成最小的语义单位——也就是原子步骤。模型每轮只预测一个原子步骤,然后把这个步骤追加到已有的推理链条中,作为下一轮推理的输入。为了防止模型在推理过程中间出现重复或停滞等异常行为,团队还设计了基于规则的过滤机制和温度累积策略,用来增强推理的多样性和流畅性。

AtomThink框架则包含四个关键模块:

数据引擎:通过动态提示策略和短推理增强方法,生成高质量的多步推理路径,构建了一个包含2万道多模态数学问题和12.4万个原子步骤标注的数据集AMATH。
原子步骤微调:采用步骤级掩码训练,迫使模型学会独立推理每个步骤。
策略引导的多轮推理:在过程监督模型的基础上,结合路径搜索和步骤搜索策略(如多数投票、最优候选选择、贪婪算法和束搜索),扩展推理空间。
原子能力评估:基于推理行为聚类和步骤利用率计算,系统评估模型在不同推理能力上的表现。

实验结果如何?

研究团队选取了不同规模的LLaVA1.5-7B和Llama3.2-Vision-11B作为基线模型,利用AMATH-SFT数据集进行微调,然后在MathVista、MathVerse、MathVision和Humanity’s Last Exam四个基准数据集上做评估。实验设置涵盖直接推理、普通CoT、SCoT,以及结合过程奖励模型(PRM)的SCoT推理。

在MathVista、MathVerse和MathVision三个数据集上,AtomThink框架让Llama3.2-Vision-11B模型的准确率分别提升了10.9%、10.2%和7.2%,这个提升幅度已经相当可观。

和现有的结构化CoT方法相比,AtomThink在准确率、数据利用效率和推理效率上都有明显优势。具体来说,在超越LLaVA-CoT准确率的前提下,数据利用效率提升了5倍,推理效率提升了85.3%。

值得关注的是,与结构化方法相比,SCoT生成的推理结构更加多样化,涵盖了图像描述、数据提取、逻辑推理、因果推理等多种能力。模型还能根据问题复杂度自动调整推理链长度——复杂问题推理步骤更长,表现出一种自适应的深度探索能力。

为了更深入地评估模型对不同中间步骤的利用能力,团队还设计了一套全新的评估方法。他们首先通过聚类GPT-4o的推理行为,生成一个包含16种行为的原子步骤分布集合,然后构建历史步骤,通过rollout计算模型对最近步骤的利用效率。

原子能力评估的结果揭示了一个值得警惕的现象:模型在推理过程中存在误差累积效应。尤其是在CoT早期阶段,比如数据提取和图像描述环节,错误继承率较高。这意味着,未来的工作可能需要更关注推理初期的质量控制。

来源:https://www.aiagiai.com/9417.html
上一篇简单几步零代码,小白也能创建专属AI智能体 下一篇Mauns带火MCP 让Claude一句话自动化3D建模
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案
AI教程 · 2026-07-02

内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案

这三年,内网RPA项目接了不下二十个。每次开局都像闯关——断网、缺依赖、多机同步、定时执行、批量分发、源码保护、AI离线化,八个坑一个比一个深。今天把这些实战经验整理出来,希望能帮正在内网搞自动化的兄弟们少踩点雷。 一、内网无网络环境怎么部署RPA流程:先搞清楚什么叫“真离线” 很多工具宣传“支持本

水利工程师用WorkBuddy写洪水报告效率提升3倍
AI教程 · 2026-07-02

水利工程师用WorkBuddy写洪水报告效率提升3倍

WorkBuddy开发者分享季 水利工程师AI提效实战:用WorkBuddy撰写洪水影响评价报告,效率提升3倍 WorkBuddy 效率 人工智能 开发工具 一、我是谁,为什么需要AI 先介绍一下自己——我是一名水利工程师,在湖南长沙的一家小型水利设计公司任职。当前行业环境不太

日志服务数据加工规则洞察仪表盘使用指南
AI教程 · 2026-07-02

日志服务数据加工规则洞察仪表盘使用指南

数据加工诊断仪表盘 想实时掌握日志服务加工功能的运行状态?直接从加工列表页点击那个“规则洞察”按钮,仪表盘就会立刻呈现出来。入口就在那儿,不绕弯子。 跳转后,你可以按作业名称、实例ID或源LogStore来筛选任务状态。比如下边这张图,展示的是当前实例ID(90c9d47714dbb807d47c1

基于RFID的固定资产管理系统技术架构与工程实践
AI教程 · 2026-07-02

基于RFID的固定资产管理系统技术架构与工程实践

固定资产管理难题是众多企事业单位的普遍困扰,资产数量动辄数千件,且广泛分布于不同部门、楼层乃至园区。传统人工盘点方式在工程维度上始终面临三大关键瓶颈:采集效率低下、数据闭环中断、状态同步滞后。使用条码枪逐一扫描标签,识别距离通常不超过30厘米,操作人员需逐个寻找并扫描,盘点效率完全受限于人力。面对5

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效
AI教程 · 2026-07-02

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效

炒股的朋友们想必都深有体会——每天重复盯盘、查行情、分析板块轮动,这一整套流程下来耗费大量精力。手动翻查数据不仅身心俱疲,还很容易错过关键买卖节点。今天我们就来聊聊如何打造一款趁手的盯盘工具,借助AI替你分担这些重复性工作。 背景:盯盘的核心痛点 股民都有同感——每天不只要查询单只股票的实时行情,还