ChatGPT科学推理能力存疑自相矛盾频繁发生的问题

时间：2026-06-05 17:26

先来看一组数字：一项新研究让ChatGPT去判断数百个科学假设的真假，表面上它的正确率高达80%。但如果你以为这意味着它真的理解了这些假设，那可能就想多了——当研究人员排除掉随机猜测的成分后，这个数字大幅缩水了。更让人头疼的是，同一个问题问它两遍，得到的答案很可能自相矛盾。核心发现：看似高分的背后

先来看一组数字：一项新研究让ChatGPT去判断数百个科学假设的真假，表面上它的正确率高达80%。但如果你以为这意味着它真的理解了这些假设，那可能就想多了——当研究人员排除掉随机猜测的成分后，这个数字大幅缩水了。更让人头疼的是，同一个问题问它两遍，得到的答案很可能自相矛盾。

ChatGPT科学推理能力存疑，自相矛盾频发

核心发现：看似高分的背后

某机构教授带领的研究团队，从科学论文里提取出大量假设，然后反复测试ChatGPT，看它能否分辨哪些主张得到了研究支持——说白了，就是判断真假。总共涉及700多个假设，每个假设都重复提问10次，目的是评估答案的一致性。

第一次实验是2024年，ChatGPT正确率是76.5%；到了2025年，这个数字小幅提升到80%。听起来还行是吧？但剔除纯粹的随机猜测因素之后，结果就不那么让人乐观了：AI的真实表现只比瞎猜好大约60%。这个水平如果换算成考试成绩，大概就是“D”级，离“靠谱”两个字还有不小的距离。

尤其值得注意的是，这套系统最难识别的是虚假陈述——正确识别率只有16.4%。更糟糕的是它极度不稳定：即便面对完全相同的提示，反复提问10次，它给出统一答案的概率也仅有大约73%。

自相矛盾的AI：当同一问题得到不同答案

“我们谈的不只是准确性，还有不一致性。因为同一个问题反复问，每次得到的答案都不一样。”该研究的主要作者直言不讳，“10次提问，一模一样的提示，所有条件完全相同。它可能这次答‘真’，下一次就说‘假’。真、假、假、真……好几个案例里都出现了五次‘真’、五次‘假’的情况。”

这其实把一个问题摆到了台面上：AI看起来说话流畅自信，但它在真正理解概念方面，可能比你想象的更接近“瞎猜”。

流畅表达≠深度理解

研究结果指向了一个关键结论——在依赖AI做重要决策，尤其是那些需要复杂推理的判断时，必须打起十二分精神。生成式AI固然能输出流畅、有说服力的语言，但它距离真正的概念理解还差得远。

研究者认为，这些结果说明一个残酷的现实：能真正“思考”的通用人工智能，可能比很多人预期的要遥远得多。“现在的AI工具并不像人类一样理解世界——它们没有‘大脑’，”一位研究者说，“它们本质上是在‘记忆’，可以给你一些见解，但对自己在说什么完全没有概念。”

研究方法与设计细节

团队使用了2021年以来发表在商业期刊上的719个科学假设。这类问题往往牵涉到不少细微差别，多个因素会共同影响假设是否成立。把如此复杂的判断简化成简单的“真”或“假”，本身就要求相当细致的推理能力。

研究人员分别在2024年和2025年测试了免费版AI模型及其更新版本。两个版本的整体表现差不多。排除50%的随机猜对概率后，AI在两个年份的有效性都只比随机水平高出约60%。

AI推理的关键软肋

这个结果暴露了大型语言模型AI系统的一个根本性局限：它们能说会道，但在真正需要动脑子推理的复杂问题上，大概率会掉链子。回答可能听起来很有道理，但实际可能是错的——这正是我们必须警惕的地方。

商业场景中的谨慎之道

基于这些发现，研究人员给出了一些很实在的建议：商业领导者必须亲自验证AI生成的信息，保持应有的怀疑态度。同时，组织内部也需要加强培训，让大家都清楚AI能做什么、不能做什么。

虽然这次研究重点放在ChatGPT上，但其他AI工具的类似实验也呈现出可比的结果。这些工作其实也是在延续早先就有的呼声：别被AI的炒作牵着鼻子走。

“永远保持怀疑，”研究者最后说，“我不是反对AI，我自己也在用。但你必须非常小心。”

来源：https://cloud.tencent.com.cn/developer/article/2675327

科学

上一篇OpenClaw智能助理六大核心场景跨服务器部署方法 下一篇WorkBuddy Agent模式重构全栈研发，代码苦力变指挥官

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-06-30

CapCut AI Docker 一键部署：镜像拉取、端口映射与数据目录配置教程

CapCutAI容器化部署需先确认镜像来源与授权范围，再完成环境准备、镜像拉取、端口映射、数据目录挂载和启动验证，适合本地试用、团队内网演示与轻量化AI剪辑服务管理。

AI教程 · 2026-06-30

CapCut AI Windows本地安装配置2026最新版含下载与环境要求

CapCutAI与剪映AI在Windows端适合短视频、口播、课程和营销素材剪辑，安装前需确认系统、显卡、存储与网络条件，优先选择官方渠道下载，并完成账号、素材目录、硬件加速和导出参数配置。

AI教程 · 2026-06-30

Veo新手保姆级安装教程：从下载到首次运行

Veo适合用文字生成短视频，新手应先确认官方入口、准备账号与设备环境，再按网页或应用方式完成启用。首次运行重点在提示词、参数、素材合规与结果保存，避免使用非官方安装包。

AI教程 · 2026-06-30

Veo本地模型运行下载路径设置与性能优化指南

Veo本地模型部署需先确认模型来源与硬件条件，再完成下载校验、目录规划、路径配置和推理参数优化。重点关注显存占用、依赖版本、缓存位置、授权范围与常见报错处理。

AI教程 · 2026-06-30

Veo安装失败解决指南：常见报错与日志排查及升级回滚方案

Veo安装失败通常与系统环境、依赖版本、网络源、权限和缓存有关。排查时应先确认版本要求，再查看安装日志，按报错类型处理，并提前备份项目，确保升级与回滚可控。