游乐游手机版
首页/AI教程/文章详情

ChatGPT科学推理能力存疑 自相矛盾频繁发生的问题

时间:2026-06-05 17:26
先来看一组数字:一项新研究让ChatGPT去判断数百个科学假设的真假,表面上它的正确率高达80%。但如果你以为这意味着它真的理解了这些假设,那可能就想多了——当研究人员排除掉随机猜测的成分后,这个数字大幅缩水了。更让人头疼的是,同一个问题问它两遍,得到的答案很可能自相矛盾。 核心发现:看似高分的背后

先来看一组数字:一项新研究让ChatGPT去判断数百个科学假设的真假,表面上它的正确率高达80%。但如果你以为这意味着它真的理解了这些假设,那可能就想多了——当研究人员排除掉随机猜测的成分后,这个数字大幅缩水了。更让人头疼的是,同一个问题问它两遍,得到的答案很可能自相矛盾。

ChatGPT科学推理能力存疑,自相矛盾频发

核心发现:看似高分的背后

某机构教授带领的研究团队,从科学论文里提取出大量假设,然后反复测试ChatGPT,看它能否分辨哪些主张得到了研究支持——说白了,就是判断真假。总共涉及700多个假设,每个假设都重复提问10次,目的是评估答案的一致性。

第一次实验是2024年,ChatGPT正确率是76.5%;到了2025年,这个数字小幅提升到80%。听起来还行是吧?但剔除纯粹的随机猜测因素之后,结果就不那么让人乐观了:AI的真实表现只比瞎猜好大约60%。这个水平如果换算成考试成绩,大概就是“D”级,离“靠谱”两个字还有不小的距离。

尤其值得注意的是,这套系统最难识别的是虚假陈述——正确识别率只有16.4%。更糟糕的是它极度不稳定:即便面对完全相同的提示,反复提问10次,它给出统一答案的概率也仅有大约73%。

自相矛盾的AI:当同一问题得到不同答案

“我们谈的不只是准确性,还有不一致性。因为同一个问题反复问,每次得到的答案都不一样。”该研究的主要作者直言不讳,“10次提问,一模一样的提示,所有条件完全相同。它可能这次答‘真’,下一次就说‘假’。真、假、假、真……好几个案例里都出现了五次‘真’、五次‘假’的情况。”

这其实把一个问题摆到了台面上:AI看起来说话流畅自信,但它在真正理解概念方面,可能比你想象的更接近“瞎猜”。

流畅表达≠深度理解

研究结果指向了一个关键结论——在依赖AI做重要决策,尤其是那些需要复杂推理的判断时,必须打起十二分精神。生成式AI固然能输出流畅、有说服力的语言,但它距离真正的概念理解还差得远。

研究者认为,这些结果说明一个残酷的现实:能真正“思考”的通用人工智能,可能比很多人预期的要遥远得多。“现在的AI工具并不像人类一样理解世界——它们没有‘大脑’,”一位研究者说,“它们本质上是在‘记忆’,可以给你一些见解,但对自己在说什么完全没有概念。”

研究方法与设计细节

团队使用了2021年以来发表在商业期刊上的719个科学假设。这类问题往往牵涉到不少细微差别,多个因素会共同影响假设是否成立。把如此复杂的判断简化成简单的“真”或“假”,本身就要求相当细致的推理能力。

研究人员分别在2024年和2025年测试了免费版AI模型及其更新版本。两个版本的整体表现差不多。排除50%的随机猜对概率后,AI在两个年份的有效性都只比随机水平高出约60%。

AI推理的关键软肋

这个结果暴露了大型语言模型AI系统的一个根本性局限:它们能说会道,但在真正需要动脑子推理的复杂问题上,大概率会掉链子。回答可能听起来很有道理,但实际可能是错的——这正是我们必须警惕的地方。

商业场景中的谨慎之道

基于这些发现,研究人员给出了一些很实在的建议:商业领导者必须亲自验证AI生成的信息,保持应有的怀疑态度。同时,组织内部也需要加强培训,让大家都清楚AI能做什么、不能做什么。

虽然这次研究重点放在ChatGPT上,但其他AI工具的类似实验也呈现出可比的结果。这些工作其实也是在延续早先就有的呼声:别被AI的炒作牵着鼻子走。

“永远保持怀疑,”研究者最后说,“我不是反对AI,我自己也在用。但你必须非常小心。”

来源:https://cloud.tencent.com.cn/developer/article/2675327
上一篇OpenClaw智能助理六大核心场景跨服务器部署方法 下一篇WorkBuddy Agent模式重构全栈研发,代码苦力变指挥官
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
CapCut AI Docker 一键部署:镜像拉取、端口映射与数据目录配置教程
AI教程 · 2026-06-30

CapCut AI Docker 一键部署:镜像拉取、端口映射与数据目录配置教程

CapCutAI容器化部署需先确认镜像来源与授权范围,再完成环境准备、镜像拉取、端口映射、数据目录挂载和启动验证,适合本地试用、团队内网演示与轻量化AI剪辑服务管理。

CapCut AI Windows本地安装配置2026最新版含下载与环境要求
AI教程 · 2026-06-30

CapCut AI Windows本地安装配置2026最新版含下载与环境要求

CapCutAI与剪映AI在Windows端适合短视频、口播、课程和营销素材剪辑,安装前需确认系统、显卡、存储与网络条件,优先选择官方渠道下载,并完成账号、素材目录、硬件加速和导出参数配置。

Veo新手保姆级安装教程:从下载到首次运行
AI教程 · 2026-06-30

Veo新手保姆级安装教程:从下载到首次运行

Veo适合用文字生成短视频,新手应先确认官方入口、准备账号与设备环境,再按网页或应用方式完成启用。首次运行重点在提示词、参数、素材合规与结果保存,避免使用非官方安装包。

Veo本地模型运行下载路径设置与性能优化指南
AI教程 · 2026-06-30

Veo本地模型运行下载路径设置与性能优化指南

Veo本地模型部署需先确认模型来源与硬件条件,再完成下载校验、目录规划、路径配置和推理参数优化。重点关注显存占用、依赖版本、缓存位置、授权范围与常见报错处理。

Veo安装失败解决指南:常见报错与日志排查及升级回滚方案
AI教程 · 2026-06-30

Veo安装失败解决指南:常见报错与日志排查及升级回滚方案

Veo安装失败通常与系统环境、依赖版本、网络源、权限和缓存有关。排查时应先确认版本要求,再查看安装日志,按报错类型处理,并提前备份项目,确保升级与回滚可控。