让模型一步步思考显著提升推理能力的原因

时间：2026-06-24 11:51

大模型到底是怎么“思考”的？这个问题从ChatGPT火起来那天起，就没停止过被讨论。科学哲学层面吵了无数轮，但一直缺一个能落地的解释。最近，国内大学的一项研究终于给出了一个比较清晰的答案——题目是《How Chain-of-Thought Works? Tracing Information Flo

大模型到底是怎么“思考”的？这个问题从ChatGPT火起来那天起，就没停止过被讨论。科学哲学层面吵了无数轮，但一直缺一个能落地的解释。

最近，国内大学的一项研究终于给出了一个比较清晰的答案——题目是《How Chain-of-Thought Works? Tracing Information Flow from Decoding, Projection, and Activation》。它回答了一个困扰AI研究者很久的问题：为什么你让模型“一步步思考”，它的推理能力就显著提升了？以前大家都知道思维链（Chain-of-Thought）好用，但到底好在哪、怎么好的，没人说得清。现在，这篇论文通过拆解内部信息流动，给出了硬核答案。

研究团队选择了6个不同规模的模型——LLaMA3.2-3B、LLaMA3.1（8B和70B）、Gemma2（2B、9B、27B），在9个数据集上做了全面测试，覆盖算术推理、常识推理和符号推理。他们的核心方法是：从解码、概率投影和神经元激活三个过程，追踪信息流动，来分析CoT的内部机制。

核心发现

1. CoT本质是结构化剪枝器

研究告诉我们，CoT并没有赋予模型什么神奇的推理能力。它实际上是通过模板匹配来约束输出空间。当你输入“让我们一步步分析”时，模型并不是在像人类那样推理，而是在执行一套精巧的模仿策略：从提示中学习结构性关键词，从问题中提取具体内容，然后按照固定的推理模板生成答案。

论文量化了这种“模仿”的程度，发现结构遵循度与准确率呈强正相关——准确率可以从0.3直接拉升到0.9。有意思的是，模型对不同类型关键词的模仿策略截然不同：时间和动作词汇主要从CoT提示中学习，而数字关键词则主要从输入问题中提取。到了需要常识推理的任务里，模型对问题关键词的模仿显著降低，因为它需要更多依赖内部知识。

2. 概率分布的收敛效应

通过分析概率分布，研究者发现了CoT提升性能的另一个核心机制：它让模型的选择变得更加确定——就像漏斗一样，把生成下一个词的概率集中到正确的词上。结果，正确答案的不确定性平均降低了50%到80%。CoT生成的概率分布更加集中，密度峰值提升了数倍，熵更低。这解释了为什么CoT能提高准确性——不是推理变强了，而是选择变准了。

3. 与任务相关的神经元激活

最令人意外的发现是，CoT对神经元激活的影响完全取决于任务类型。在开放域任务（比如数学题）中，CoT会减少约4%的神经元激活，主要影响网络后三分之一的层次，像“剪枝器”一样聚焦相关特征。但在封闭域任务（比如选择题）中，情况完全相反：CoT会增加3%到5%的神经元激活，更全面地评估各种选项，像“放大器”一样增强判别能力。

性能提升显著

这种机制带来的性能提升是直观的：数学推理任务的准确率提升了200%到300%，选择题任务提升25%到60%，符号推理任务提升超过100%。所有测试的模型都显示出相同的机制模式，说明这些发现具有普遍性。

实际应用启示

这些发现对提示工程有重要的指导意义：

结构比内容更重要：与其纠结推理步骤的逻辑正确性，不如确保格式的一致性。
模板迁移有效：相似结构的CoT提示可以跨任务使用，关键是保持推理模板的完整性。
任务匹配很关键：开放性问题用引导收敛的提示，选择性问题用鼓励全面考虑的提示。

小结

论文也坦诚指出，在LLM这个“黑箱”中建立因果链条极其困难。他们的发现更多是“强相关”而非“确定因果”，结论建立在实证分析而非原理推演上。但无论如何，它用实测数据揭示了CoT可能的工作机制：通过结构化模板引导、token生成概率分布收敛和任务相关的神经元激活，把模型的“猜测”变成了“有根据的推断”。

它不是在模拟人类推理，而是在执行一套精巧的概率优化策略。理解这一点，或许能帮助我们设计出更有效的提示，更好地发挥LLM的能力。

论文：https://arxiv.org/pdf/2507.20758

来源：https://cloud.tencent.com.cn/developer/article/2695512

其他

上一篇扎克伯格首次承认AI自我进化 Meta让人人拥有超级智能 下一篇Anthropic反杀OpenAI，LLM企业市场格局重塑

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言在 Windows 本地开发环境中，直接安装 RabbitMQ 确实颇为周折：需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是，版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。相比之下，借助 Do

AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年，我们与福建制造企业合作较为频繁，发现一个非常突出的现象：超过80%的企业官网，产品参数仍然存放在PDF或图片中。AI爬虫？根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富，但在AI搜索这一全新战场上，它们几乎处于隐身状态。一、一个正在发生的行业变化 A

AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务，这一服务专为企业与开发者量身打造，定位为AI大模型订阅平台。通过引入Credits作为统一计量单位，将文本生成、图像生成等多模态AI能力纳入单一计费体系，同时无缝兼容主流AI编程工具及智能体（Agent）生态系统。其核心亮点包括：全

AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标，而位置数据的来源本质上是借助设备属性进行上传。换言之，若要让设备上报位置，您需先将其视为一个普通属性进行处理。 1）添加二维位置数据操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据，点击添加，将

AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年，阿里云服务器生态已高度成熟，形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网，还是运营电商平台、进行应用开发，基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维，系统梳理2026年最实用的操作要点，帮助你少走弯路，让网