首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
芝加哥大学研究:AI学会“心里默念”式类人推理

芝加哥大学研究:AI学会“心里默念”式类人推理

热心网友
51
转载
2026-02-13


这项由伊利诺伊大学芝加哥分校计算机科学系团队主导的创新研究,于2026年2月发表在arXiv预印本平台上,论文编号为arXiv:2602.10229v1。研究团队在人工智能推理领域取得了重要突破,开发出了一种名为"潜在思维调优"(Latent Thoughts Tuning, LT-Tuning)的全新方法。有兴趣深入了解完整技术细节的读者可以通过论文编号arXiv:2602.10229v1查询原始论文。

当我们解决复杂数学题时,大脑会在说出答案前进行大量"内心独白"——计算、推测、验证。然而目前的AI大语言模型却像个"想到什么说什么"的急性子,必须把每个推理步骤都用文字表达出来才能工作。这就好比要求一个人在解数学题时必须大声念出每个计算过程,不允许任何"默算"。这种限制不仅效率低下,还会产生冗长的输出文本,增加计算成本。

研究团队发现了一个有趣的现象:人类在思考时会在大脑的"连续空间"中进行推理,而不是逐字逐句地组织语言。基于这一洞察,他们开发了LT-Tuning框架,让AI模型能够在数学向量空间中进行"潜在思考",就像给AI装上了"内心独白"的能力。这种方法让AI能够根据问题难度动态调整思考时间,遇到简单问题时快速作答,面对复杂问题时则进行更深入的"内在思考"。

一、传统AI推理的困境与新思路的萌芽

当前主流的AI推理方式被称为"思维链"(Chain-of-Thought)推理,就像要求学生在考试时必须写出每一步计算过程一样。虽然这种方法让AI获得了强大的推理能力,但也带来了显著问题。AI必须将每个中间思考步骤都转化为具体的文字标记,这就像要求一个人在心算时必须大声说出每个数字操作,既不自然也不高效。

更要命的是,这种方式会产生极长的推理文本。就像OpenAI的o1模型或DeepSeek-R1这样的推理导向模型,它们在解决复杂问题时会产生非常冗长的推理轨迹,大幅增加了计算成本和推理延迟。而且,这种方式将AI的"思维"完全限制在了人类语言的离散词汇空间内,就像要求一个数学家只能用文字而不能用数学符号来思考数学问题。

近期,一些研究开始探索让AI在连续的向量空间中进行推理,这就像是让AI拥有了"内在思考"的能力。然而,这些早期尝试面临两个关键挑战。首先是如何构建良好对齐的潜在表示——这些"思维向量"必须既能表达语义内容,又能与模型的内部工作机制兼容。依赖外部辅助模型的方法容易出现表示不匹配的问题,而纯粹基于模型内部状态的方法则可能因为输入嵌入和输出隐藏状态之间的分布差异而导致不稳定或特征崩溃。

其次是如何动态适配推理成本。大多数现有方法采用静态的推理调度,忽略了步骤难度的变化。这种固定分配往往效率低下,因为它在简单步骤上浪费了计算资源,同时又无法为复杂推理提供足够的深度。就像给所有学生分配相同的考试时间,不管题目是简单的加法还是复杂的微积分。

二、LT-Tuning框架:给AI装上"内心独白"系统

LT-Tuning框架的核心创新是一个叫做"上下文-预测融合"的机制。这个机制就像是给AI的大脑安装了一个双重信息处理系统:一方面从过往的思考历史中提取上下文信息,另一方面从词汇预测中获取语义指导。这两种信息源相互补充,共同构建出高质量的"潜在思维标记"。

整个框架采用了一种渐进式的三阶段训练流程,就像教一个孩子从简单到复杂地学习思考。第一阶段是显式推理热身,让模型掌握基本的逐步推理能力。第二阶段引入动态潜在标记生成,让模型学会根据预测置信度决定何时进行"内心思考"。第三阶段则实现上下文-预测融合,构建真正高质量的潜在推理能力。

在第二阶段,研究团队设计了一个基于置信度驱动的数据构建方法。当模型对某个目标标记的预测置信度低于设定阈值时,系统会在该位置插入特殊的""占位符。这就像给AI设置了一个"犹豫检测器"——当AI感到不确定时,它会自动触发更深入的思考过程。这些""标记不是静态的词汇嵌入,而是动态地从前一步的隐藏状态中派生出来,确保潜在推理专门用于不确定的步骤,避免模型在简单标记上学习虚假模式。

第三阶段是整个框架的技术核心。虽然第二阶段使用原始隐藏状态作为潜在标记嵌入,但这可能导致输出空间和输入空间之间的分布不匹配。为了解决这个问题,研究团队开发了融合机制,结合两个互补的信息源。

预测组件的工作原理类似于Soft-Thinking方法,从模型的输出分布中计算概率加权嵌入。给定前一步的logit分布,系统应用温度缩放和Top-p过滤来聚焦于高置信度预测。在屏蔽""标记并重新归一化后,计算加权嵌入,将模型的预测分布投影到嵌入流形上。

上下文-预测融合将这个预测向量与来自特定层的隐藏状态相结合,以保持上下文历史。融合表示作为""标记的输入嵌入,确保与输入空间的兼容性,同时保留上下文信息。这种设计就像给AI的思维系统装上了"双重导航"——既有基于历史经验的直觉判断,又有基于当前情况的逻辑分析。

三、实验设计与全面验证

研究团队在三种不同规模的模型上进行了全面测试:Llama-3.2-1B、Llama-3.2-3B和Llama-3.1-8B,涵盖了从10亿到80亿参数的范围。所有模型都在GSM8K训练集上进行训练,然后在四个数学推理基准上进行评估,包括GSM8K-NL、ASDiv-Aug、MultiArith和SVAMP。这种多规模、多基准的测试设计确保了方法的普遍适用性和可扩展性。

在实现细节方面,研究团队针对不同模型规模调整了批大小和学习率,以适应GPU内存限制并确保稳定优化。特别值得注意的是,对于输入和输出嵌入矩阵不共享的8B模型,团队添加了轻量级适配器来弥合表示差距。而对于使用绑定输入输出嵌入的1B和3B模型,则无需适配器。整个实验在4块NVIDIA A100 80GB GPU上进行,确保了充足的计算资源。

实验结果令人印象深刻。LT-Tuning在所有模型规模上都取得了最佳平均性能:1B模型达到36.4%,3B模型达到52.4%,8B模型达到68.8%。相比之下,基线方法表现出不一致的行为,缺乏规模鲁棒性。最值得注意的是,Coconut方法在较小模型上表现合理,但在8B规模上严重退化(从50.3%下降到41.5%的平均准确率),甚至低于显式CoT方法。

这种退化反映了研究团队理论动机的正确性:较大的模型如果输入嵌入权重未绑定,当隐藏状态直接循环作为输入时会严重受损。LT-Tuning展现出健康的规模行为,8B模型的准确率几乎是Coconut的两倍。为8B模型添加适配器层进一步将性能提升到70.3%,在MultiArith上取得显著提升(从92.8%到96.1%),证实了显式投影改善了无权重绑定架构中的兼容性。

四、深度分析揭示方法优势

研究团队进行了全面的消融研究,验证了每个组件的贡献。移除第二阶段(无课程学习)会降低平均准确率3.9%(3B)和6.7%(8B),证明了基于置信度的动态分配的重要性。第三阶段和潜在推理同样关键,它们的移除导致实质性的性能下降。

有趣的是,主要瓶颈因规模而异。对于3B模型,完全移除潜在推理(w/o Latent)导致最大退化(-11.3%),表明潜在推理本身在较小规模上最具影响力。相反,对于8B模型,移除第三阶段(融合)造成最严重的下降(-23.5%),而w/o Latent仅降低7.2%。这支持了研究假设:较大模型更容易受到分布不匹配的影响,使得通过融合进行高质量潜在标记构建变得至关重要。

特别值得注意的是,在8B模型上,w/o Latent(61.6%)显著优于w/o Stage 3(45.3%),表明构建不良的潜在标记可能比完全没有潜在推理更糟糕。这个发现强调了上下文-预测融合机制的关键作用。

研究团队还分析了生成动态特性,通过计算输出分布的熵和分配给""标记的注意力比例。结果显示,LT-Tuning能够有效减少生成过程中的不确定性,与使用暂停标记的基线相比,具有更少的不确定性峰值。同时,该方法为潜在""标记分配了大量注意力,远超基线对暂停标记的注意力分配。这表明模型积极利用生成的潜在标记中编码的信息进行推理,而不仅仅是从额外计算时间中受益。

五、特征崩溃的解决与适应性推理

潜在推理中的一个关键挑战是特征崩溃,即来自不同样本的潜在标记表示趋向于相似点,导致模型失去维护样本特定推理信息的能力。为了调查不同方法是否受此问题困扰,研究团队使用主成分分析(PCA)对潜在标记嵌入进行了可视化。

结果显示了方法间的关键区别。Coconut表现出严重的特征崩溃,来自不同样本的潜在标记仅在两个推理步骤后就收敛到几乎相同的点。不使用第三阶段的LT-Tuning在早期位置显示初步探索,但在后续步骤中逐渐崩溃,表明仅依赖隐藏状态是不够的。相比之下,完整的LT-Tuning即使在第六步仍保持语义多样性,证明融合机制有效缓解了特征崩溃。

研究团队还进行了统计分析,检验潜在计算分配与问题复杂性之间的关系。他们使用基于一致性的指标量化"难度",使用Llama-3.1-8B-Instruct对每个问题进行五次采样,将难度分数定义为错误回答的总数。结果显示出明显的正相关关系,特别是在8B模型中,潜在标记的数量随问题难度持续增长。这证明LT-Tuning有效地赋予了模型难度感知的动态潜在标记生成能力,在推理效率和推理鲁棒性之间实现了理想的平衡。

传统的潜在方法选择最后的隐藏状态作为潜在标记的初始输入嵌入。研究团队测试了选择不同层进行上下文提取的影响。结果显示,性能对隐藏层选择相对鲁棒。Llama-3.2-3B在选择不同层时通常显示很少的性能变化,对于Llama-3.1-8B,使用最后一层效果更好。这种鲁棒性也表明第三阶段的融合学习补偿了次优的层选择,在训练框架中发挥更重要的作用。

六、方法比较与实际应用前景

与基于辅助模型的方法(SoftCoT、SemCoT)相比,LT-Tuning显示出更稳定的性能表现。辅助方法表现出不稳定的行为——SemCoT在ASDiv-Aug上达到73.5%,但在MultiArith上对3B模型崩溃到6.6%。这种波动性表明外部生成的表示可能无法与不同任务所需的特定推理模式对齐。相比之下,LT-Tuning的内在方法从模型自身的分布构建潜在标记,避免了此类对齐失败,在所有基准上提供稳定的改进。

研究团队提供了定性示例来说明LT-Tuning的行为。在几个数学推理问题的案例中,可以看到融合潜在标记增强了LLM的推理能力并实现了更高的准确率。例如,在一个关于人口计算的复杂问题中,标准CoT方法由于计算错误得出了错误答案240000,而LT-Tuning通过在关键步骤插入""标记,正确识别了Noah的年龄,最终得出正确答案120000。

在另一个关于农场动物腿数计算的问题中,CoT方法出现了逻辑错误,错误地将牛的腿数计算为30条,最终答案70。而LT-Tuning通过潜在推理正确识别了牛有20头(每头4条腿),鸡有40只(每只2条腿),得出正确答案160条腿。这些例子充分展示了潜在思考机制在处理多步骤推理问题时的优势。

七、技术实现与可扩展性

LT-Tuning框架的一个重要优势是其后训练特性,可以应用于现有的预训练模型而无需从头开始训练。这使得该方法具有很强的实用性,可以直接改进现有的LLM系统。整个训练过程使用AdamW优化器,采用余弦学习率调度,权重衰减设置为0.01。

对于不同模型规模,研究团队制定了相应的超参数配置。1B模型在三个阶段分别使用5e-5的学习率,批大小从32降至16,训练轮数逐步增加。3B模型采用相同的学习率但更小的批大小(16降至8),而8B模型使用更保守的1e-5学习率和4的批大小,以确保在大模型上的训练稳定性。

融合机制的超参数设置也经过精心调优。融合权重α设置为0.6,在上下文信息和预测信息之间取得平衡。温度参数设为1.0,Top-p阈值根据模型规模调整(1B和3B模型为0.8,8B模型为0.9)。对于8B模型,还引入了1024维的轻量级适配器来处理输入输出嵌入不绑定的问题。

说到底,LT-Tuning代表了AI推理能力的一次重要跃进。这项研究成功解决了潜在空间推理中的两个核心难题:如何构建高质量的潜在表示,以及如何实现动态的推理成本适配。通过巧妙的上下文-预测融合机制和渐进式训练策略,研究团队让AI获得了真正的"内心独白"能力。

这种突破对普通人意味着什么呢?未来的AI助手将变得更加高效和智能。它们能够根据问题的复杂程度自动调整思考深度,在处理简单查询时快速响应,面对复杂问题时进行深入思考。这不仅能显著降低AI服务的计算成本,还能提供更准确、更可靠的推理结果。

更重要的是,这项研究为AI的认知架构设计提供了新的思路。就像人类大脑能够在意识层面和潜意识层面同时处理信息一样,未来的AI系统也将具备多层次的思维能力。这将推动AI向更接近人类认知模式的方向发展,最终实现更自然、更高效的人机交互体验。

Q&A

Q1:LT-Tuning潜在思维调优技术是什么原理?

A:LT-Tuning让AI能够在数学向量空间中进行"内心思考",就像给AI装上了"内心独白"能力。它通过上下文-预测融合机制,结合历史思考信息和当前预测指导,让AI根据问题难度动态调整思考深度,不用把每个推理步骤都说出来。

Q2:这种技术比传统AI推理方法好在哪里?

A:传统方法要求AI把每个思考步骤都用文字表达出来,就像要求人做数学题时必须大声念出每个计算过程。LT-Tuning让AI能够"默算",遇到简单问题快速作答,复杂问题深入思考,既提高了效率又减少了计算成本,准确率也明显提升。

Q3:LT-Tuning技术什么时候能在日常AI产品中使用?

A:这项技术已经在实验室环境中得到验证,由于它可以直接应用于现有的预训练模型而无需从头训练,预计很快就能集成到实际的AI产品中。未来的AI助手将变得更智能高效,能够自动调节思考深度来处理不同复杂程度的问题。

来源:https://www.163.com/dy/article/KLLUU3V00511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

蚂蚁武威推理模型范式猜想与未来演进趋势
AI
蚂蚁武威推理模型范式猜想与未来演进趋势

长思维链虽热门,但其高能耗高维特性可能并非最优。未来推理模型需向更稳定、低维的系统发展,高效结合快慢思考。当前模型易错且纠错成本高,而深度思考的潜力在于发现新知识。推理本质是逻辑组合知识以解决新问题,发展应追求“多快好省”与“双商齐备”,并突破目前局限于数学与代码的。

热心网友
05.16
搜索成本仅为推理十分之一却鲜为人知的行业真相
科技数码
搜索成本仅为推理十分之一却鲜为人知的行业真相

OpenClaw的爆火,让众多AI应用开发者第一次直面了高昂的Token账单——一个用户请求可能触发多轮工具调用,每次调用都携带超长上下文,实际的API成本远超预期,甚至可能达到订阅费用的数十倍。如何有效控制Token成本,正成为AI Agent开发者面临的核心挑战与增长瓶颈。 这显然不是可持续的商

热心网友
05.12
EPFL等机构发现大语言模型的内部思维与人类创造性大脑高度同步
科技数码
EPFL等机构发现大语言模型的内部思维与人类创造性大脑高度同步

这项由瑞士洛桑联邦理工学院(EPFL)、意大利卢加诺大学(USI)、韦斯利安大学、巴黎脑研究所(ICM)以及宾夕法尼亚州立大学联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604 03480。对这一交叉领域感兴趣的读者,可以通过该编号在arXiv平台上查阅完整原文。 一、

热心网友
04.22
摩尔线程完成智谱GLM-5.1适配
科技数码
摩尔线程完成智谱GLM-5.1适配

北京商报讯(记者 陶凤 王天逸) 人工智能领域又传来一条振奋人心的消息。4月8日,摩尔线程正式宣布,其旗舰级AI训推一体全功能GPU——MTT S5000,已经成功完成了对智谱新一代旗舰模型GLM-5 1的Day-0极速适配。这意味着,推理部署与训练复现的全部流程,现在都能在这条国产算力路径上获得支

热心网友
04.15
如何利用SQL进行推理
数据库
如何利用SQL进行推理

如何用SQL求解逻辑推理题:经典楼层分配谜题实战 今天我们来探讨一个非常有趣的技术应用:使用SQL来求解逻辑推理题。这听起来或许有些大材小用,但正是这种跨界应用,充分展现了SQL语言的强大灵活性以及开发者分析问题的思维能力。我们将以一个经典的五人楼层分配谜题作为案例,逐步拆解如何用纯粹的SQL找到答

热心网友
04.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

燕云十六声天工地窟身如飞燕宝箱获取全攻略
游戏资讯
燕云十六声天工地窟身如飞燕宝箱获取全攻略

在《燕云十六声》的天工地窟中,“身如飞燕”宝箱的获取是一场对玩家综合探索能力的深度考验。想要成功开启它,不仅需要耐心与观察力,更需掌握系统性的探索策略。 掌握地窟地形与核心布局 进入天工地窟后,首要任务是进行全方位的地形勘察。建议玩家先熟悉主要通道、分支岔路以及所有可能被忽略的角落,建立完整的地图认

热心网友
05.18
2026年家装设计软件推荐:高人气实用工具精选指南
游戏资讯
2026年家装设计软件推荐:高人气实用工具精选指南

装修这件事,说多了都是泪。找施工队像开盲盒,预算表永远在“动态调整”,设计图看得眼花缭乱……投入大量时间和精力,最后的效果可能还是差强人意。说到底,信息不对称和过程不透明,是大多数装修烦恼的根源。 好在,如今有不少专业的数字化工具,能帮我们把控关键环节。今天就来聊聊五款定位清晰、实用性强的装修类应用

热心网友
05.18
燕云十六声山洞奇遇任务全流程攻略与解法详解
游戏资讯
燕云十六声山洞奇遇任务全流程攻略与解法详解

在《燕云十六声》的宏大江湖中,“不见山洞”无疑是一处引人入胜的秘境。这里不仅栖息着珍奇异兽、埋藏着稀世珍宝,更交织着无数待玩家发掘的隐秘故事与特殊事件。若想彻底揭开此地的所有秘密,掌握以下探索技巧至关重要。 进入不见山洞后,首要任务是保持专注,对环境进行细致勘察。洞内的景象暗藏玄机,绝非一目了然。一

热心网友
05.18
骷髅传奇神盾系统玩法详解与获取攻略
游戏资讯
骷髅传奇神盾系统玩法详解与获取攻略

在《骷髅传奇》中,神盾系统是决定角色战力的核心模块,远非一件普通装备可比。它更像是一位能够深度定制、伴随你征战四方的忠实伙伴。本文将为你全面解析神盾系统的获取、培养与实战运用,助你将其从基础配置打造为真正的战力引擎,在游戏中脱颖而出。 获取你的第一面神盾是旅程的起点。游戏内提供了多样化的获取途径:完

热心网友
05.18
和平精英孙悟空皮肤获取与实战技巧全解析
游戏资讯
和平精英孙悟空皮肤获取与实战技巧全解析

天成孙悟空这款限定皮肤,以其独特的视觉设计在战场上脱颖而出。它将中国古典神话中齐天大圣的经典形象,与游戏内的现代美学风格进行了深度结合。标志性的金色毛发、可化为武器的金箍棒特效,以及服饰上精致的云纹与神话元素,共同塑造了一个极具战场辨识度的英雄形象。这种高辨识度本身,在战术层面就具有独特价值——它能

热心网友
05.18