摩根大通研究揭示提问技巧如何有效降低AI错误率

首页

热心网友

转载

2026-05-13

这项由J.P.Morgan人工智能研究院主导的研究，于2026年2月发表在arXiv预印本平台（论文编号：2602.20300v1），为我们理解AI的“幻觉”问题提供了一个全新的视角。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

J.P.Morgan研究院发现：让AI少出错的秘密竟然藏在问题的说话方式里

你是否遇到过这样的情况：向ChatGPT提问，得到的答案听起来头头是道，仔细一查却发现是错的？这种AI“信口开河”的现象，被研究者们形象地称为“幻觉”。J.P.Morgan的团队没有选择直接改造模型，而是另辟蹊径：既然无法完全杜绝AI犯错，那么，能否通过优化我们提问的方式，来降低它出错的概率呢？

为了找到答案，研究团队投入了大量精力，分析了来自13个不同问答数据集的近37万个真实用户提问。结果发现，问题的“说话方式”对AI回答的可靠性有着惊人的影响力。这就像同一道数学题，用不同的问法，可能得到质量截然不同的解答。

传统观点通常将AI幻觉归咎于模型缺陷或解码策略。但这项研究从经典语言学理论中获得启发，提出了一个关键洞见：听者（包括AI模型）的回应，在很大程度上会受到问题形式本身的塑造。为此，他们开发了一套包含17个维度的“语言体检”系统，用以分析每个问题的句子结构复杂度、词汇稀有度、代词指代、否定句使用、可回答性及意图明确程度等特征。

一、问题的“风险地貌”：哪些说话方式让AI更容易犯错

通过对海量数据的分析，一幅清晰的“风险地貌图”被绘制出来。它直观地揭示了不同提问方式与AI出错概率之间的关联。

某些语言特征被证实会显著增加风险。首当其冲的是“缺乏具体性”。一个模糊的问题，好比让AI在茫茫大海中寻找灯塔。例如，“告诉我关于特斯拉的信息”——AI可能困惑于你指的是公司、汽车、股票还是发明家本人，这种不确定性极易诱发编造。反之，“总结特斯拉公司2024年第四季度财报的五个要点”这样目标明确的问题，能大幅降低AI出错的几率。

句子结构的复杂性是另一大风险因素。层层嵌套的从句，就像俄罗斯套娃，容易让AI迷失真正的询问重点。例如，“如果试验成功的话，根据那份泄露的备忘录，哪些监管机构会首先批准它？”这类包含多重条件和修饰的问题，增加了AI误解的可能性。

否定句的使用也会推高风险。处理否定信息本身就需要额外的认知资源，这对AI而言同样困难。当问题中间出现“不是”、“没有”、“并非”等词语时，AI在逻辑推理上更容易出现偏差。

一个有趣的发现是，一些对人类而言棘手的语言特征，如罕见词汇或复杂否定，对AI的影响反而相对较小。这提示我们，人类与AI的“困难点”并不完全重合。

二、什么样的问题让AI更可靠

研究也揭示了哪些特征能成为AI可靠性的“保护伞”。意图明确的问题如同给了AI一张清晰的地图。在问题中直接使用“总结”、“比较”、“提取”、“分类”等动词，能帮助AI更精准地把握你的需求。

“可回答性”是另一个关键因素。那些基于现有信息有明确答案的问题，比如“《路》这本书的作者是谁？”或“17×19等于多少？”，AI几乎不会出错。相反，需要主观判断或预测未来的问题，如“我应该搬到纽约吗？”，则更容易引发不可靠的回答。

此外，句子长度和结构复杂性之间存在一种微妙的平衡。适度的长度和复杂度，实际上能提供更丰富的上下文，反而有助于AI理解。这就像烹饪中的调料，用量恰到好处才能提鲜，过多或过少都会影响味道。

三、不同任务类型的风险模式

研究团队分析了三种主要任务类型，发现了截然不同的风险模式。

提取式任务（如从文中找特定信息）风险最低。由于有明确的参考材料，AI很少产生幻觉，大多数问题都属于“安全”级别。

选择题任务处于中等风险水平。虽然选项本身构成了约束，但干扰项的存在确实会提高AI选错的概率。

抽象式任务（如总结、分析）风险最高，高达44.5%被标记为“高风险”。这类任务缺乏外部锚点，完全依赖AI的内部知识，更容易导致其“天马行空”。

更细致的数据显示，问题长度的影响因任务而异：在抽象式任务中，问题越长，风险越高；而在提取式任务中，长度的影响微乎其微。

四、语言特征的相互关系网络

深入分析发现，这17个语言特征并非孤立存在，它们形成了复杂的关联网络，大致可分为几个群组：

语法复杂性群组（如问题长度、从句数量）与幻觉风险呈负相关，表明适度的复杂性可能通过提供更多上下文而有益。

语义基础群组（如意图明确性、可回答性）则与较低的幻觉风险强相关，证实了语义清晰的重要性。

模糊性群组（如缺乏具体性、多义词）中的特征常常同时出现，共同推高AI犯错的风险。

五、实用的问题优化策略

基于以上发现，研究团队提炼出三条简单易行的提问优化原则：

1. 增加消歧约束：在问题中明确时间、地点、实体。例如，将“告诉我关于Ja va的信息”优化为“解释Ja va编程语言的主要特性”。

2. 明确表达意图：使用“总结”、“比较”、“验证”等明确动词。这好比给厨师一份详细的菜谱，而非笼统地说“做点好吃的”。

3. 预先解决多义性：对可能产生歧义的词汇提前澄清。例如，问“比较Python和Ja va在Web开发中的优劣”，而非“Python和Ja va哪个更好”。

实践证明，应用这些策略重写高风险问题，能显著降低幻觉概率。关键在于，这些优化完全由用户端掌控，无需改动AI模型本身。

六、跨数据集的稳定性验证

为确保结论可靠，团队采用了“留一数据集”交叉验证法。结果令人鼓舞：缺乏具体性、句子复杂性等风险因素，以及可回答性、意图明确性等保护因素，在不同数据集上表现出了高度一致性。这种稳定性表明，所发现的“风险地貌”具有普遍意义，而非特定数据集的偶然现象。

七、模型校准和预测能力

团队开发的风险预测模型展现出优秀的校准能力。例如，当模型预测某问题有70%的风险时，其实际风险值确实接近70%。这种准确性为开发实时风险预警工具奠定了基础，使得系统能在AI回答前评估问题风险，并针对高风险问题采取额外验证或引导用户重述等措施。

八、领域特异性的有趣发现

一个反直觉的发现关乎领域特异性。通常认为专业领域问题风险更高，但研究表明，这很大程度上取决于AI对该领域的熟悉程度。在训练数据充足的领域（如计算机科学），专业问题风险较低；而在训练数据较少的领域，专业性则会增加风险。这提醒我们，评估AI回答的可靠性时，需考虑其知识储备的深度与广度。

九、未来应用前景

这项研究为开发更智能的交互系统铺平了道路，潜在应用包括：

实时风险评估：如同一个“问题顾问”，在提问前预警答案的可靠性。

自动问题重写：不仅能识别风险，还能主动建议更清晰、具体的表达方式。

智能问题路由：根据风险等级，将问题分配给最合适的处理方式（如直接回答、检索增强或人工审核）。

归根结底，这项研究揭示了一个朴素而深刻的道理：与AI有效对话的艺术，不仅在于问什么，更在于怎么问。清晰、具体、目的明确的表达，总能获得更高质量的回应。随着AI日益融入工作与生活，掌握这种“提问的艺术”将成为一项关键技能。研究团队的工作证明，有时解决复杂技术难题的钥匙，恰恰隐藏在我们日常语言使用的细微之处。