游乐游手机版
首页/AI教程/文章详情

AI或可拥有常识但仍有局限

时间:2026-07-01 16:15
大语言模型虽通过多项考试,但在常识推理上仍显不足,易被简单谜题迷惑。现有基准测试多为选择题,难以衡量真实世界中的物理直觉与社交语境。机器常识需融合认知科学、哲学等学科,并开发理论驱动的评估方法,以区分知识与推理能力。

自从2022年ChatGPT横空出世,大语言模型(LLM)的发展可以说是一日千里、突飞猛进。

不少专家和研究者猜测,这些模型的问世,意味着我们向“通用人工智能”(AGI)迈出了决定性的一步——仿佛人工智能领域70年来的探索终于要画上句号了。而这条路上一个关键的里程碑,就是机器能够展现出“常识”。

对人类来说,常识就是那些关于人和日常生活的“显而易见的事情”。比如,我们从经验中知道玻璃是易碎的,给吃素的朋友端上一盘肉是不礼貌的。但在这一点上,即便是当今最先进、最强大的LLM,也常常让人大跌眼镜。

一名机器人艺术家在2022年英国Glastonbury音乐节上为表演者作画

LLM非常擅长在涉及记忆的测试中拿高分——GPT-4最亮眼的成绩之一,就是通过了美国的医生和律师执业考试。但它依然很容易被简单的谜题绕晕。如果你问ChatGPT“Riley很痛苦,之后她会感觉如何?”,它可能会从一堆选项里挑出“觉察”(aware)作为最佳答案,而不是对人类来说再明显不过的“痛苦”(painful)。

为了弥补这方面的缺陷,很多这类选择题被纳入流行的基准测试,用来衡量AI对常识的掌握。然而,这些问题很少能真正反映现实世界——包括人类对物理定律的直觉理解,以及在社交互动中的背景和语境。所以,要量化LLM有多“类人”,依然是一个悬而未决的问题。

反过来看人类认知,差别就很有意思了。首先,人类善于处理不确定和模糊的情景,满足于一个“令人满意但未必最佳”的答案,很少会消耗大量认知资源去死磕最优解。其次,人类可以在“直觉推理”和“深思熟虑”之间灵活切换,从而更好地应对小概率的突发状况。

AI能不能实现类似的认知能力?我们又怎么确切地知道AI系统是否正在获得这种能力?这就不光是AI或计算机科学的问题了,还需要涉足发展心理学、认知哲学等学科,同时我们也需要对人类认知过程的生物基础有更深入的了解,才能设计出更好的指标来评估LLM的表现。

AI发展出常识,从何时开始?

机器常识的研究,还是要追溯到深度学习领域那个不得不提的时间点——1956年,新罕布什尔州达特茅斯的那场暑期研讨会。那次会议把当时顶尖的AI研究人员聚在一起,随后诞生了基于逻辑的符号框架,用字母或逻辑运算符来描述对象和概念之间的关系,用于构建关于时间、事件和物理世界的常识知识。

举个例子,一系列“如果发生……那么就会发生……”的语句可以被手动编程到机器中,用来教会一个常识性事实,比如“不受支持力的物体会因为重力而下落”。这类研究确立了机器常识的愿景:构建能够像人类一样高效地从经验中学习的计算机程序。从技术角度定义,这个目标就是制造一台机器,在给定一组规则的情况下,“根据已知内容和信息,自行推断出范围足够广泛的直接结果”。

在加州举行的机器人挑战赛中,一个人形机器人向后摔倒

因此,机器常识不仅限于有效学习,还包括自我反思和抽象等能力。从本质上讲,常识需要事实知识,也需要利用知识进行推理的能力。光是记住大量事实是不够的,从现有信息中推断出新信息同样重要,这样才能在新的或不确定的情况下做出决策。

到了20世纪80年代,研究人员开始做早期尝试,希望赋予机器常识和决策能力,主要手段是创建结构化的知识数据库,比如CYC、ConceptNet等项目。CYC的名字来源于“百科全书”(encyclopedia),它不仅包含了事物间的关系,还尝试用关系符号来整合上下文相关的知识。所以,凭借CYC,机器能够区分事实知识(例如“美国第一任总统是乔治·华盛顿”)和常识知识(例如“椅子是用来坐的”)。ConceptNet项目原理类似,也是把关系逻辑映射到一个由三元词组构成的庞大网络(比如“苹果”—“用来”—“吃”)。

然而,无论是CYC还是ConceptNet,都不具备推理能力。常识推理的挑战性在于模糊性——提供更多信息后,情况或问题反而会变得更难确定。比如,要回答“Lina和Michael正在节食,他们来做客时我们要准备蛋糕吗?”这个问题,如果再加上“他们有cheat days”这个事实,答案就变得复杂且难以抉择了。基于符号和规则的逻辑无法处理这种模糊性,甚至靠概率生成下一个token的LLM也无济于事,因为引入关于“cheat days”的额外信息不仅会降低确定性,还会完全改变语境。

AI系统如何应对这种未见的、不确定的情况,将直接决定机器常识进化的速度。我们要做的,就是开发出更好的评估方法来跟踪相关进展。但“衡量常识”这个任务,并没有看起来那么容易。

LLM有常识吗?这很难评

目前评估AI系统常识推理能力的80多项著名测试中,至少75%是多项选择测验。但从统计角度看,这种测验最多也只能给出模棱两可的结果。向LLM提出一个相关领域的问题,并不能揭示模型是否拥有更广泛的事实知识,因为LLM在响应特定查询时,并不会以统计学上有意义的方式从知识库中采样。比如,即使向LLM提出两个非常相似的问题,也可能会得到截然不同的答案。

不涉及多项选择题的测试(比如为图像生成合适的标题)同样很难完全探测到模型的多步骤和常识性推理能力。因此,机器常识相关的测试方案和方法仍需发展,以便更清楚地区分“知识”和“推理”。

有一种方法可以改进当前测试:要求AI解释给出当前答案的理由。比如,一杯咖啡放在室外会变凉,这是常识,但其中的推理过程涉及热传递、热平衡等物理概念。

尽管LLM可能会生成正确的答案(“因为热量逸散到周围的空气中”),但基于逻辑的响应需要逐步的推理过程来解释原因。如果LLM能够用CYC项目开创的那种符号语言复现出正确的原因揭示,我们就更有理由认为,模型不仅仅是通过参考训练语料来查找答案,而是确实发展出了常识推理能力。

另一类开放式测试,就是考察LLM的计划或战略规划能力。想象一个简单的游戏:能量令牌随机分布在棋盘上,玩家需要在棋盘上移动20次,收集尽可能多的能量并将其放到指定的地方。人类不一定能找到最佳解决方案,但常识推理足以支持我们拿到合理的分数。那LLM呢?研究人员测试后发现,模型的表现远远低于人类。从LLM的行为来看,它似乎理解了游戏规则——它可以在棋盘上移动,有时也能找到能量令牌并收集起来,但会犯各种看似愚蠢的错误,比如把能量令牌丢在错误的位置。鉴于LLM会犯这种有常识的人都不会犯的错误,我们很难期待这种模型在解决更混乱的现实规划问题时,能有更出色的表现。

下一步怎么走

为了系统地奠定机器常识的基础,可以考虑采取以下几步:

“把盘子做大”

研究人员需要超越单纯的AI或计算机科学领域的经验,涉足认知科学、哲学和心理学等学科,找出关于人类如何学习、如何应用常识的关键原理。这些原则应该能够指导我们创建能够进行类人推理的AI系统。

拥抱理论

与此同时,研究人员需要设计全面的、理论驱动的基准测试,反映广泛的常识推理技能,比如理解物理特性、社交互动和因果关系。这些基准测试的目标,必须是量化AI系统跨领域概括常识知识的能力,而不是专注于一组狭窄的任务。

超越语言的思考

夸大LLM能力的风险之一,就是夸大了语言的重要性,这让我们与另一个重要愿景脱节——构建能在混乱现实环境中感知、导航的具身系统。DeepMind联合创始人Mustafa Suleyman就认为,实现“有能力”的AI(capable)可能是比AGI更切实可行的里程碑。至少在人类基本水平上,如果要构建具有物理能力的人工智能,具体化的机器常识是十分必要的。然而,目前的AI似乎仍处于获取幼儿水平身体智力的早期阶段。

令人欣喜的是,研究人员已经在以上所有方面取得了进展,但仍有很长的路要走。随着人工智能系统,尤其是LLM成为各种应用的主流,理解人类推理的能力将在医疗保健、法律决策、客服和自动驾驶等领域产生更可靠、更值得信赖的结果。例如,具有社交常识的客服机器人将能够推断出用户的沮丧情绪,即使对方没有明确表达出来。从长远来看,也许机器常识领域的最大贡献,将是让人类更深入地了解自己。

来源:https://www.aiagiai.com/5551.html
上一篇前投资人向月之暗面创始人提起仲裁被指反悔 下一篇清华刘嘉教授提出大模型是一个生命新物种
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
RAG四标融合企业知识资产体系四库协同GEO优化实践
AI教程 · 2026-07-01

RAG四标融合企业知识资产体系四库协同GEO优化实践

生成式AI正在彻底改写信息检索的底层逻辑。传统SEO依赖关键词堆砌和外链建设的策略,在大模型的内容采信规则下已经基本失效。取而代之的,是生成式引擎优化(GEO)。它不再关注外链数量,而是重点衡量你的知识是否结构化、证据链是否坚实、信源是否可靠——这些维度才是RAG(检索增强生成)架构真正看重的核心指

一个普通上班人分享WorkBuddy使用心得与真实体验
AI教程 · 2026-07-01

一个普通上班人分享WorkBuddy使用心得与真实体验

前言 最近我开始使用WorkBuddy——这是腾讯推出的一款AI办公工作台。差不多用了一周时间,趁印象还新鲜,把真实的使用感受记录下来,给还在犹豫的朋友做个参考。不吹不黑,只说实际体验。 初印象:不只是聊天机器人 之前用过不少AI工具,大多数就是个对话框,你问它答,答完就结束了。WorkBuddy不

AI幻觉变真功能实战教程:App Inventor 2视频录制拓展一周开发实录
AI教程 · 2026-07-01

AI幻觉变真功能实战教程:App Inventor 2视频录制拓展一周开发实录

先讲一个颇具戏剧性的开端。 这件事的开端颇显荒诞——有用户前来咨询,称AI Pro版的介绍中提到我们有一款“视频录制拓展”。团队全体成员都感到困惑,翻遍产品列表,发现根本不存在该组件。AI那种“一本正经胡说八道”的能力,这次确实让我们陷入尴尬。 按常理,此事到此便可结束——一句“抱歉,暂时没有这个拓

别再混淆OLAP和SQL-on-Hadoop两者查询本质不同
AI教程 · 2026-07-01

别再混淆OLAP和SQL-on-Hadoop两者查询本质不同

OLAP和SQL-on-Hadoop虽都使用SQL查询数据,但本质不同。SQL-on-Hadoop负责海量数据批量计算与ETL,查询速度秒级至分钟级;OLAP通过预聚合实现毫秒级多维分析,适合BI报表。两者在数据平台分工协作,前者是后厨加工,后者是前台快速服务。

GEO优化深度解析:AI偏好FAQ还是长文内容?
AI教程 · 2026-07-01

GEO优化深度解析:AI偏好FAQ还是长文内容?

在GEO优化中,AI对内容形式无统一偏好:FAQ在简单查询中引用率41%,长文在复杂查询中达58%。内容应基于用户意图选择形式,FAQ适配简单事实类问题,长文建立主题权威,两者互补而非替代。