首页 游戏 软件 资讯 排行榜 专题
首页
AI
微软研究发现:AI越聊越笨,复杂对话可靠性骤降

微软研究发现:AI越聊越笨,复杂对话可靠性骤降

热心网友
91
转载
2026-02-22

你是否发现,当我们与AI聊天机器人进行长对话时,它们似乎会变得越来越“笨”?IT之家2月20日消息,如今这种感觉有了科学依据。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

Windows Central今日报道称,微软研究院与赛富时联合发布的一项研究证实,即使是目前最先进的大语言模型,在多轮对话中的可靠性也会急剧下降。

微软:AI聊天机器人越聊越“笨”,复杂对话中不可靠性增长112%

研究人员对包括GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在内的15款顶尖模型进行了超过20万次模拟对话分析,揭示出一种被称为“迷失会话”的系统性缺陷。

数据显示,这些模型在单次提示任务中的成功率可达90%,但当同样的任务被拆解成多轮自然对话后,成功率骤降至约65%。

研究指出,模型的“智能”本身并未显著下降——其核心能力仅降低约15%——但“不可靠性”却飙升了112%。也就是说,AI大模型仍然具备解决问题的能力,但在多轮对话中变得高度不稳定,难以持续跟踪上下文。

报告指出,当前大多数模型主要在“单轮”基准测试下进行评估,即一次性接收全部指令的理想实验环境。但现实世界中的人类交流通常是渐进式的,信息在多轮互动中逐步补充。研究发现,一旦任务被“拆分”到多个回合中,即使是最先进的模型,也容易出现系统性失误。

研究人员进一步分析了造成性能下降的行为机制。

首先是“过早生成”:模型往往在用户尚未完整说明需求前就尝试给出最终答案。一旦在早期回合中形成错误假设,模型后续便会在该错误的基础上继续推理,而不是随着新信息的加入进行修正,从而导致错误逐步放大。

其次是“答案膨胀”。在多轮对话中,模型的回复长度比单轮对话增加了20%至300%。更长的回答往往包含更多假设与“幻觉”,这些内容随后被纳入对话的持续上下文,从而进一步影响后续推理的准确性。

令人意外的是,即便是配备了额外“思考词元”的新一代推理模型,如OpenAI o3 和 DeepSeek R1,也未能显著改善在多轮对话中的表现。研究还发现,将模型温度参数设置为0——这一常用于确保一致性的技巧——对此类对话衰减几乎没有防护作用。

微软:AI聊天机器人越聊越“笨”,复杂对话中不可靠性增长112%

这一发现对当前AI行业的评估方式提出了质疑。研究人员指出,现有的基准测试主要基于理想的单轮场景,忽略了模型在真实世界中的行为。对于依赖AI构建复杂对话流程或智能体的开发者而言,这一结论意味着严峻挑战。

微软:AI聊天机器人越聊越“笨”,复杂对话中不可靠性增长112%

目前最有效的应对方式反而是减少多轮往返交流,将所有必要数据、约束条件和指令一次性在单个完整提示中提供,以提高输出一致性。

来源:https://tech.ifeng.com/c/8quLSxKgPdX
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

古尔曼披露:苹果Apple Intelligence在中国意外上线后下线
礼仪与书信
古尔曼披露:苹果Apple Intelligence在中国意外上线后下线

3月31日,苹果于今日凌晨开始分批推送国行Apple Intelligence Beta版,需升级至iOS 26 4及以上系统方可体验。彭博社记者马克·古尔曼今日发文称Apple Intellig

热心网友
03.31
当DeepSeek崩溃10小时,梁文锋称是为V4冲击波做准备
AI
当DeepSeek崩溃10小时,梁文锋称是为V4冲击波做准备

DeepSeek网页和App在连崩10多个小时后终于恢复了。这件事给梁文锋提了个醒,网上都说4月份就要发布DeepSeek-V4了,到时候DeepSeek面临的压力会比现在大得多。怎样让服务器在峰值

热心网友
03.30
杨植麟等共话AI大模型趋势:未来12个月将走向何方?
AI
杨植麟等共话AI大模型趋势:未来12个月将走向何方?

财联社3月29日讯2026年,一只“红色小龙虾”在科技圈引发广泛关注。OpenClaw的爆火,不仅是一次技术产品的出圈,也在中关村论坛期间掀起了关于AI开源生态与智能体未来的深层讨论,杨植麟、张鹏、

热心网友
03.30
苹果认清现实:错失大模型AI机遇后,重回硬件赛道
AI
苹果认清现实:错失大模型AI机遇后,重回硬件赛道

库克手持iPhone 17 Pro 北京时间3月30日,据彭博社报道,苹果准备开放Siri等AI战略大调整表明,该公司正在重新致力于其核心商业模式:销售硬件和服务,依靠硬件搭建起类似于App Sto

热心网友
03.30

最新APP

你说我猜
你说我猜
休闲益智 03-31
史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29

热门推荐

S17斯卡加斯实战教学:金铲铲之战技能全面解析
游戏攻略
S17斯卡加斯实战教学:金铲铲之战技能全面解析

金铲铲之战S17中,科加斯为1费卡,羁绊为暗星、斗士。技能是对当前目标造成魔法伤害并永久增加自身生命值,若击杀目标则叠加更多生命值,未完成击杀也可叠层数。金铲铲之战S17大虫子科加

热心网友
03.31
解锁《燕云十六声》濒灭版成就:食物相关指南
游戏资讯
解锁《燕云十六声》濒灭版成就:食物相关指南

在燕云十六声的滹沱版本中,食物相关成就不仅有趣,还能深度体验游戏的丰富元素。食材收集达人要解锁众多食物成就,首先得成为食材收集达人。在游戏世界里,仔细探索各个角落。村庄的农田是关键

热心网友
03.31
macOS 15开发者预览版Beta发布:新功能抢先体验
娱乐
macOS 15开发者预览版Beta发布:新功能抢先体验

IT之家 3 月 31 日消息,苹果今日向 Mac 电脑用户推送了 macOS 26 5 开发者预览版 Beta 更新(内部版本号:25F5042g),本次更新距离上次发布 Beta RC 间隔

热心网友
03.31
MagicPad+3 Pro平板选购指南:荣耀新品上市值不值?
礼仪与书信
MagicPad+3 Pro平板选购指南:荣耀新品上市值不值?

  【CNMO科技消息】3月31日,荣耀平板与IOT产品领域总经理“荣耀平板利用哥”发文称,恭喜所有提前半年购买荣耀平板MagicPad 3 Pro的小伙伴,早享受半年,还节省一大笔钱。现在下单还不

热心网友
03.31
AI千问自曝造假?新功能引证不正经一面
业界动态
AI千问自曝造假?新功能引证不正经一面

3月31日消息,近日,阿里千问上线了一项“引证”新功能,可对新闻时事、政策动态等需要引用外部信源的回答内容,进行二次事实核查,目前该功能处于测试阶段。实际测试中,引证按钮并非始终显示,仅当用户提问涉

热心网友
03.31