先来看一组数字:一项新研究让ChatGPT去判断数百个科学假设的真假,表面上它的正确率高达80%。但如果你以为这意味着它真的理解了这些假设,那可能就想多了——当研究人员排除掉随机猜测的成分后,这个数字大幅缩水了。更让人头疼的是,同一个问题问它两遍,得到的答案很可能自相矛盾。

核心发现:看似高分的背后
某机构教授带领的研究团队,从科学论文里提取出大量假设,然后反复测试ChatGPT,看它能否分辨哪些主张得到了研究支持——说白了,就是判断真假。总共涉及700多个假设,每个假设都重复提问10次,目的是评估答案的一致性。
第一次实验是2024年,ChatGPT正确率是76.5%;到了2025年,这个数字小幅提升到80%。听起来还行是吧?但剔除纯粹的随机猜测因素之后,结果就不那么让人乐观了:AI的真实表现只比瞎猜好大约60%。这个水平如果换算成考试成绩,大概就是“D”级,离“靠谱”两个字还有不小的距离。
尤其值得注意的是,这套系统最难识别的是虚假陈述——正确识别率只有16.4%。更糟糕的是它极度不稳定:即便面对完全相同的提示,反复提问10次,它给出统一答案的概率也仅有大约73%。
自相矛盾的AI:当同一问题得到不同答案
“我们谈的不只是准确性,还有不一致性。因为同一个问题反复问,每次得到的答案都不一样。”该研究的主要作者直言不讳,“10次提问,一模一样的提示,所有条件完全相同。它可能这次答‘真’,下一次就说‘假’。真、假、假、真……好几个案例里都出现了五次‘真’、五次‘假’的情况。”
这其实把一个问题摆到了台面上:AI看起来说话流畅自信,但它在真正理解概念方面,可能比你想象的更接近“瞎猜”。
流畅表达≠深度理解
研究结果指向了一个关键结论——在依赖AI做重要决策,尤其是那些需要复杂推理的判断时,必须打起十二分精神。生成式AI固然能输出流畅、有说服力的语言,但它距离真正的概念理解还差得远。
研究者认为,这些结果说明一个残酷的现实:能真正“思考”的通用人工智能,可能比很多人预期的要遥远得多。“现在的AI工具并不像人类一样理解世界——它们没有‘大脑’,”一位研究者说,“它们本质上是在‘记忆’,可以给你一些见解,但对自己在说什么完全没有概念。”
研究方法与设计细节
团队使用了2021年以来发表在商业期刊上的719个科学假设。这类问题往往牵涉到不少细微差别,多个因素会共同影响假设是否成立。把如此复杂的判断简化成简单的“真”或“假”,本身就要求相当细致的推理能力。
研究人员分别在2024年和2025年测试了免费版AI模型及其更新版本。两个版本的整体表现差不多。排除50%的随机猜对概率后,AI在两个年份的有效性都只比随机水平高出约60%。
AI推理的关键软肋
这个结果暴露了大型语言模型AI系统的一个根本性局限:它们能说会道,但在真正需要动脑子推理的复杂问题上,大概率会掉链子。回答可能听起来很有道理,但实际可能是错的——这正是我们必须警惕的地方。
商业场景中的谨慎之道
基于这些发现,研究人员给出了一些很实在的建议:商业领导者必须亲自验证AI生成的信息,保持应有的怀疑态度。同时,组织内部也需要加强培训,让大家都清楚AI能做什么、不能做什么。
虽然这次研究重点放在ChatGPT上,但其他AI工具的类似实验也呈现出可比的结果。这些工作其实也是在延续早先就有的呼声:别被AI的炒作牵着鼻子走。
“永远保持怀疑,”研究者最后说,“我不是反对AI,我自己也在用。但你必须非常小心。”
