SCoT自动调整推理链长度新架构提升推理能力

时间：2026-06-26 16:48

SCoT框架将推理过程分解为原子步骤，动态生成与问题复杂度匹配的推理结构。AtomThink框架涵盖数据构造、训练、推理和评估，在多个数据集上使模型准确率提升超10%，数据利用效率提升5倍，推理效率提升85 3%，并揭示了推理初期的误差累积现象。

多模态推理领域最近迎来了一项有意思的进展——SCoT（自结构化推理链）框架。简单来说，它把推理过程拆解成最小的语义单元，然后根据问题的复杂度动态生成最合适的推理结构。这样一来，既避免了简单问题上的过度思考，也解决了复杂问题上的推理天花板。

为了让这个想法落地，研究团队还同步推出了一个名为AtomThink的全流程框架，涵盖了数据构造、训练、推理和评估四个关键环节，专门用来提升多模态大模型在复杂推理任务上的表现。

从实验结果来看，SCoT确实展现出了自适应能力——复杂问题的推理链条会自动变长，简单问题的链条则相对精简。在多个公开数据集上，AtomThink框架都显著提升了基线模型的准确率，同时数据利用效率和推理效率同样表现亮眼。更有意思的是，通过原子能力评估，研究人员还发现了多模态模型在不同推理能力上的分布特征，这为理解多模态推理机制提供了一个全新的视角。

这项研究由来自中山大学、香港科技大学、上海交通大学、香港大学、华&为诺亚方舟实验室的研究人员合作完成。接下来，我们展开聊聊具体的技术细节。

SCoT、AtomThink长啥样？

先说说当前结构化与非结构化CoT各自面临的困境。现有的方法，要么依赖固定模板进行结构化推理，要么采用自由形式的非结构化推理。前者的问题是推理行为单一、需要人工设计模板，后者则容易出现计算效率低下、在简单问题上过度思考的毛病。

基于这样的观察，团队提出了两个核心假设：一是不同类型的问题可能需要不同的推理能力；二是推理的复杂性应当与问题本身的难度相匹配。为了给不同复杂度的问题动态生成合适的推理结构，研究人员引入了自结构化思维链（SCoT）以及全程框架AtomThink。

SCoT的核心思路，是把推理过程分解成最小的语义单位——也就是原子步骤。模型每轮只预测一个原子步骤，然后把这个步骤追加到已有的推理链条中，作为下一轮推理的输入。为了防止模型在推理过程中间出现重复或停滞等异常行为，团队还设计了基于规则的过滤机制和温度累积策略，用来增强推理的多样性和流畅性。

AtomThink框架则包含四个关键模块：

数据引擎：通过动态提示策略和短推理增强方法，生成高质量的多步推理路径，构建了一个包含2万道多模态数学问题和12.4万个原子步骤标注的数据集AMATH。
原子步骤微调：采用步骤级掩码训练，迫使模型学会独立推理每个步骤。
策略引导的多轮推理：在过程监督模型的基础上，结合路径搜索和步骤搜索策略（如多数投票、最优候选选择、贪婪算法和束搜索），扩展推理空间。
原子能力评估：基于推理行为聚类和步骤利用率计算，系统评估模型在不同推理能力上的表现。

实验结果如何？

研究团队选取了不同规模的LLaVA1.5-7B和Llama3.2-Vision-11B作为基线模型，利用AMATH-SFT数据集进行微调，然后在MathVista、MathVerse、MathVision和Humanity’s Last Exam四个基准数据集上做评估。实验设置涵盖直接推理、普通CoT、SCoT，以及结合过程奖励模型（PRM）的SCoT推理。

在MathVista、MathVerse和MathVision三个数据集上，AtomThink框架让Llama3.2-Vision-11B模型的准确率分别提升了10.9%、10.2%和7.2%，这个提升幅度已经相当可观。

和现有的结构化CoT方法相比，AtomThink在准确率、数据利用效率和推理效率上都有明显优势。具体来说，在超越LLaVA-CoT准确率的前提下，数据利用效率提升了5倍，推理效率提升了85.3%。

值得关注的是，与结构化方法相比，SCoT生成的推理结构更加多样化，涵盖了图像描述、数据提取、逻辑推理、因果推理等多种能力。模型还能根据问题复杂度自动调整推理链长度——复杂问题推理步骤更长，表现出一种自适应的深度探索能力。

为了更深入地评估模型对不同中间步骤的利用能力，团队还设计了一套全新的评估方法。他们首先通过聚类GPT-4o的推理行为，生成一个包含16种行为的原子步骤分布集合，然后构建历史步骤，通过rollout计算模型对最近步骤的利用效率。

原子能力评估的结果揭示了一个值得警惕的现象：模型在推理过程中存在误差累积效应。尤其是在CoT早期阶段，比如数据提取和图像描述环节，错误继承率较高。这意味着，未来的工作可能需要更关注推理初期的质量控制。

来源：https://www.aiagiai.com/9417.html

上一篇简单几步零代码，小白也能创建专属AI智能体 下一篇Mauns带火MCP 让Claude一句话自动化3D建模

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-02

内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案

这三年，内网RPA项目接了不下二十个。每次开局都像闯关——断网、缺依赖、多机同步、定时执行、批量分发、源码保护、AI离线化，八个坑一个比一个深。今天把这些实战经验整理出来，希望能帮正在内网搞自动化的兄弟们少踩点雷。一、内网无网络环境怎么部署RPA流程：先搞清楚什么叫“真离线” 很多工具宣传“支持本

AI教程 · 2026-07-02

水利工程师用WorkBuddy写洪水报告效率提升3倍

WorkBuddy开发者分享季水利工程师AI提效实战：用WorkBuddy撰写洪水影响评价报告，效率提升3倍 WorkBuddy 效率人工智能开发工具一、我是谁，为什么需要AI 先介绍一下自己——我是一名水利工程师，在湖南长沙的一家小型水利设计公司任职。当前行业环境不太

AI教程 · 2026-07-02

日志服务数据加工规则洞察仪表盘使用指南

数据加工诊断仪表盘想实时掌握日志服务加工功能的运行状态？直接从加工列表页点击那个“规则洞察”按钮，仪表盘就会立刻呈现出来。入口就在那儿，不绕弯子。跳转后，你可以按作业名称、实例ID或源LogStore来筛选任务状态。比如下边这张图，展示的是当前实例ID（90c9d47714dbb807d47c1

AI教程 · 2026-07-02

基于RFID的固定资产管理系统技术架构与工程实践

固定资产管理难题是众多企事业单位的普遍困扰，资产数量动辄数千件，且广泛分布于不同部门、楼层乃至园区。传统人工盘点方式在工程维度上始终面临三大关键瓶颈：采集效率低下、数据闭环中断、状态同步滞后。使用条码枪逐一扫描标签，识别距离通常不超过30厘米，操作人员需逐个寻找并扫描，盘点效率完全受限于人力。面对5

AI教程 · 2026-07-02

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效

炒股的朋友们想必都深有体会——每天重复盯盘、查行情、分析板块轮动，这一整套流程下来耗费大量精力。手动翻查数据不仅身心俱疲，还很容易错过关键买卖节点。今天我们就来聊聊如何打造一款趁手的盯盘工具，借助AI替你分担这些重复性工作。背景：盯盘的核心痛点股民都有同感——每天不只要查询单只股票的实时行情，还