游乐游手机版
首页/AI教程/文章详情

让模型一步步思考显著提升推理能力的原因

时间:2026-06-24 11:51
大模型到底是怎么“思考”的?这个问题从ChatGPT火起来那天起,就没停止过被讨论。科学哲学层面吵了无数轮,但一直缺一个能落地的解释。最近,国内大学的一项研究终于给出了一个比较清晰的答案——题目是《How Chain-of-Thought Works? Tracing Information Flo

大模型到底是怎么“思考”的?这个问题从ChatGPT火起来那天起,就没停止过被讨论。科学哲学层面吵了无数轮,但一直缺一个能落地的解释。

最近,国内大学的一项研究终于给出了一个比较清晰的答案——题目是《How Chain-of-Thought Works? Tracing Information Flow from Decoding, Projection, and Activation》。它回答了一个困扰AI研究者很久的问题:为什么你让模型“一步步思考”,它的推理能力就显著提升了?以前大家都知道思维链(Chain-of-Thought)好用,但到底好在哪、怎么好的,没人说得清。现在,这篇论文通过拆解内部信息流动,给出了硬核答案。

\

研究团队选择了6个不同规模的模型——LLaMA3.2-3B、LLaMA3.1(8B和70B)、Gemma2(2B、9B、27B),在9个数据集上做了全面测试,覆盖算术推理、常识推理和符号推理。他们的核心方法是:从解码、概率投影和神经元激活三个过程,追踪信息流动,来分析CoT的内部机制。

\

核心发现

1. CoT本质是结构化剪枝器

研究告诉我们,CoT并没有赋予模型什么神奇的推理能力。它实际上是通过模板匹配来约束输出空间。当你输入“让我们一步步分析”时,模型并不是在像人类那样推理,而是在执行一套精巧的模仿策略:从提示中学习结构性关键词,从问题中提取具体内容,然后按照固定的推理模板生成答案。

\

论文量化了这种“模仿”的程度,发现结构遵循度与准确率呈强正相关——准确率可以从0.3直接拉升到0.9。有意思的是,模型对不同类型关键词的模仿策略截然不同:时间和动作词汇主要从CoT提示中学习,而数字关键词则主要从输入问题中提取。到了需要常识推理的任务里,模型对问题关键词的模仿显著降低,因为它需要更多依赖内部知识。

\

2. 概率分布的收敛效应

通过分析概率分布,研究者发现了CoT提升性能的另一个核心机制:它让模型的选择变得更加确定——就像漏斗一样,把生成下一个词的概率集中到正确的词上。结果,正确答案的不确定性平均降低了50%到80%。CoT生成的概率分布更加集中,密度峰值提升了数倍,熵更低。这解释了为什么CoT能提高准确性——不是推理变强了,而是选择变准了。

\

3. 与任务相关的神经元激活

最令人意外的发现是,CoT对神经元激活的影响完全取决于任务类型。在开放域任务(比如数学题)中,CoT会减少约4%的神经元激活,主要影响网络后三分之一的层次,像“剪枝器”一样聚焦相关特征。但在封闭域任务(比如选择题)中,情况完全相反:CoT会增加3%到5%的神经元激活,更全面地评估各种选项,像“放大器”一样增强判别能力。

\

性能提升显著

这种机制带来的性能提升是直观的:数学推理任务的准确率提升了200%到300%,选择题任务提升25%到60%,符号推理任务提升超过100%。所有测试的模型都显示出相同的机制模式,说明这些发现具有普遍性。

实际应用启示

这些发现对提示工程有重要的指导意义:

  • 结构比内容更重要:与其纠结推理步骤的逻辑正确性,不如确保格式的一致性。
  • 模板迁移有效:相似结构的CoT提示可以跨任务使用,关键是保持推理模板的完整性。
  • 任务匹配很关键:开放性问题用引导收敛的提示,选择性问题用鼓励全面考虑的提示。

小结

论文也坦诚指出,在LLM这个“黑箱”中建立因果链条极其困难。他们的发现更多是“强相关”而非“确定因果”,结论建立在实证分析而非原理推演上。但无论如何,它用实测数据揭示了CoT可能的工作机制:通过结构化模板引导、token生成概率分布收敛和任务相关的神经元激活,把模型的“猜测”变成了“有根据的推断”。

它不是在模拟人类推理,而是在执行一套精巧的概率优化策略。理解这一点,或许能帮助我们设计出更有效的提示,更好地发挥LLM的能力。

论文:https://arxiv.org/pdf/2507.20758

来源:https://cloud.tencent.com.cn/developer/article/2695512
上一篇扎克伯格首次承认AI自我进化 Meta让人人拥有超级智能 下一篇Anthropic反杀OpenAI,LLM企业市场格局重塑
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网