谷歌新发现：DeepSeek推理分裂多重人格，左右脑互搏更聪明

首页

热心网友

转载

2026-01-22

闻乐发自凹非寺
量子位 | 公众号 QbitAI

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

AI变聪明的真相，竟是模型内部正在上演“左右脑互搏”？

谷歌最新研究揭示，DeepSeek-R1这类顶尖推理模型在解题时，其内部会自发“分裂”出不同性格的虚拟人格，比如外向的、严谨的、多疑的……

大模型的解题推理过程，俨然成了这些人格之间一场精彩的社交辩论会；左右脑互搏的情形大致如此：

“这个思路对吗？不如试试这样验证……”
“不对，之前的假设忽略了XX条件”

有趣的是，AI内部的争论越激烈，表现反而越聪明。

研究发现，当遇到GPQA研究生级别科学难题、复杂数学推导这类高难度任务时，这种内部观点冲突会变得更加显著。

相比之下，面对布尔表达式、基础逻辑推理等简单任务，模型的“内心戏”则会明显减少。

模型推理过程就是“左右脑互搏”

团队通过分析DeepSeek-R1和QwQ-32B等模型的思维轨迹发现，它们的推理过程充满了对话感。

内部分裂出来的虚拟角色不仅性格迥异，还能覆盖更多解题视角。

创意型角色擅长提出新颖思路，批判型角色专注挑错补漏，执行型角色负责落地验证……

通过这些人格之间的思想交流，不同观点的碰撞能让模型更全面地审视解决方案。

就连不少网友也表示，自己在深入思考时，脑海里也会出现类似的“左右脑互搏”。

不过，这种多角色互动并非开发人员刻意设计，而是模型在追求推理准确率的过程中自发形成的。

那么实验是如何证明这一点的呢？

团队借助稀疏自编码器SAE，对AI的推理黑盒进行了深度解码，成功“监听”到了模型的内部群聊。

首先，研究者让AI执行复杂的数学或逻辑推理任务。在模型产出思维链的同时，团队同步提取其隐藏层神经元的激活数值。

但此时的数据是由数十亿参数构成的复杂非线性信号，无法直接对应任何语义。

将这些激活数据输入SAE，通过SAE的稀疏约束机制，就可以把杂乱的激活分解为“自问自答”、“切换视角”等独立的对话语义特征；

通过分析这些特征的激活频率以及它们在时间序列上的协同关系，团队成功识别出了不同的内部逻辑实体。

再给上述特征打上“规划者”、“验证者”等虚拟角色的标签，就成功解码了AI内部的多角色对话行为。

“顿悟”能让推理更准确

通过对比DeepSeek-R1与DeepSeek-V3、Qwen-2.5-32B-IT这类普通指令模型的推理轨迹，发现推理模型的对话式行为出现频率显著更高

这里还有个很有意思的发现——

“顿悟”能让推理更准确。

当团队通过激活添加法强化模型的对话特征，放大“顿悟！”这类表达惊讶、转折的话语标记时，模型在Countdown算术推理任务中的准确率直接从27.1%翻倍至54.8%。

更关键的实验证据来自强化学习训练。

研究人员不提供任何对话结构的训练信号，只奖励模型答对题目的行为，结果发现模型会自发学会用对话式思考；

而先通过多智能体对话数据对模型进行微调，再进行推理训练，其进步速度会远快于直接训练推理或使用独白式推理数据微调的模型。

在Qwen-2.5-3B和Llama-3.2-3B两个模型体系中，早期训练阶段对话微调模型的准确率比独白微调模型高出10%以上，Llama-3.2-3B到训练后期差距甚至扩大至22%。

这一发现恰好呼应了人类演化生物学中的著名理论社会脑假说

该假说认为人类大脑的进化主要是为了应对复杂的社交关系和群体互动需求。

如今看来，AI也是一样，为了变聪明，得先学会和不同“人格”社交！

论文地址：
参考链接：

— 完 —

来源:https://www.163.com/dy/article/KJNGITM60511DSSR.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：Bengio斩获AAAI 2026大奖！华人3篇入选5篇杰出论文解析下一篇：方程豹豹7二次OTA推送，升级出行场景及餐厅排队功能

热门推荐

科技数码

海信 E7S Pro RGB-Mini LED 电视发布：4K 180Hz 玲珑真彩背光屏，政企双补价 6999 元起

海信E7S Pro RGB-Mini LED电视发布：4K 180Hz玲珑真彩背光屏，政企双补价6999元起 3月10日，海信正式推出了E7S Pro RGB-Mini LED电视。这款新品最引人注目的亮点，无疑是它那极具竞争力的“政企双补价”——起售价定在了6999元。核心画质：玲珑真彩背光屏与

热心网友

03.31

用docker来安装openclaw

用docker来安装openclaw 前言最近OpenClaw的热度确实居高不下，但它本质上仍是一个处于高速成长期的系统，远未到“成熟稳定”的阶段。这不奇怪，看看开源代码库，一天一个Release算是常态，频繁且快速的迭代正是它活力的体现。随之而来的，自然是各种意料之外的Bug、与第三方插件的兼

热心网友

03.31

web3.0

Chainbase (C币) 是什么？如何获取空投？C代币经济学、价格预测介绍

加密货币世界正在产生比以往任何时候都都多的数据。面对数百条区块链、数千种代币以及源源不断涌现的新型去中心化应用，驾驭这一复杂格局对于投资者、开发者和分析师而言都极具挑战性。可靠、实时的区块链数据对于做出明智的决策和驱动下一代加密产品至关重要。这正是 Chainbase (C) 试图解决的难题。这个

热心网友

03.31

iphone

学生8684元网购iPhone 16 激活日期显示1978年：比我妈都大

15岁学生花8684元网购苹果iPhone 16，激活日期竟显示1978年最近一起网购纠纷，听起来有点魔幻。一位15岁的初二学生，攒钱买了台新款iPhone，激活后一看购买日期，居然是1978年。这到底是怎么回事？背后又藏着一个怎样的消费陷阱？事情发生在江苏苏州。初二学生小金（化名）向媒体反映了

热心网友

03.31

业界动态

听劝：微软将停止向 Teams 用户自动发送“会议录制过期提醒”邮件

听劝：微软将停止向 Teams 用户自动发送“会议录制过期提醒”邮件 3月11日，微软公布了一项“听劝”的政策调整：将取消默认通过邮件自动发送 Teams 会议录制过期提醒。这意味着，自6月1日起，当会议录制内容即将被永久删除时，多数用户的收件箱将能保持清净，不会再收到系统发来的提醒邮件。这一调整

热心网友

03.31