DeepMind新论文给出颠覆性答案：AI智能究竟存不存在_AI热点日报

DeepMind新论文给出颠覆性答案：AI智能究竟存不存在

类型：热点整理2026-07-01

说实话，现在再回头看那场人机围棋大战，已经能看出不一样的味道了。AlphaGo击败李世石的那一幕，当年确实让全世界为之一震——“人工智能”这个词，从此不再是科幻小说的专属。但Google DeepMind最近扔出来的一篇新论文，恰恰给这个“智能”打上了问号。论文标题叫《Agency Is Frame

说实话，现在再回头看那场人机围棋大战，已经能看出不一样的味道了。AlphaGo击败李世石的那一幕，当年确实让全世界为之一震——“人工智能”这个词，从此不再是科幻小说的专属。但Google DeepMind最近扔出来的一篇新论文，恰恰给这个“智能”打上了问号。论文标题叫《Agency Is Frame-Dependent》，核心观点是：AI的“智能体性”并不是它自带的天赋，而是取决于我们用什么视角来看待和评估它。

等等，“智能体性”是个啥？“框架”又是什么？别急，咱们慢慢聊。关键点在于，这篇论文不只是哲学层面上的思辨，它对理解AI，乃至通用人工智能的未来，都有极其深远的影响——甚至可能会碘伏你对“智能”这两个字的理解。

别再执迷“客观智能”了！

一直以来，我们都在找一个“客观”的、统一的AI智能标准。从图灵测试到中文房间，各种思想实验层出不穷，都是想搞清楚AI到底“理解”了什么。但DeepMind的研究告诉我们：压根没有所谓“客观智能”这回事儿。

“中文房间”与GPT-4：AI真的“懂”中文吗？

先回顾一下那个经典的“中文房间”思想实验。哲学家约翰·塞尔假设了一个场景：一个只会英语的人被关在一个封闭房间里，手里有一本规则手册，告诉他怎么根据收到的中文符号来输出对应的中文符号。就算他把规则执行得滴水不漏，给出了让人信服的中文回复，他能算作是“理解”中文了吗？

答案显然是否定的。塞尔认为这不过是符号操作，跟真正的理解八竿子打不着——因为那个人缺乏把符号和真实世界经验连接起来的机制。他就像台按程序跑的机器，不知道自己在干嘛。

这个思想实验在国内讨论得也挺多的。拿中文来说，“理解”不光是要看懂字面意思，还涉及意境、情感、文化背景这些复杂因素。那么，轮到GPT-4了。它的表现惊艳全球，在各种语言任务上都能对答如流，甚至能写诗、写代码。它真的理解中文了吗？

按“中文房间”的逻辑看，GPT-4本质上还是一套符号操作系统。它从海量文本数据里学会了符号之间的关联规则，但这些规则是基于统计的，不是基于语义的。不信可以试试让它解释一下“火钳刘明”——它大概率一本正经地给你分析“火钳”和“刘明”的含义，完全不知道这只是“火前留名”的谐音梗。

再比如让它翻译一首古诗，它能把每个字都翻译出来，但意境和韵味基本传不出来。因为它缺少对中国传统文化的理解，也缺少对诗人情感的共鸣。就像一个没有灵魂的翻译机器，字字对应，却丢了灵魂。

“图灵测试”的陷阱：我们可能一直被AI“骗”了？

既然“理解”这么难定义，那能不能通过“行为”来判断AI有没有智能？图灵测试就是这么来的。它的核心是：如果一台机器能跟人类对话，让对方分不清它是机器还是真人的话，那就可以认为它有智能了。

问题是，AI真能通过图灵测试吗？或者说，通过了图灵测试的AI，就真有智能了吗？恐怕没那么简单。近年来越来越多的研究表明，图灵测试有很多局限性。

一方面，AI越来越擅长“骗人”了。2014年一个叫“尤金·古斯特曼”的聊天机器人，就成功让33%的评委相信它是一个13岁的乌克兰男孩。另一方面，我们也越来越容易把AI的“行为”表现和“理解”能力混为一谈——只要AI的回答看起来像人，我们就倾向于觉得它有智能。

更离谱的是，这几年出现了“逆向图灵测试”的现象——也就是说，人类反而需要证明自己不是AI了！一项研究发现，人类识别AI的准确率只有60%左右，而人类证明自己“不是AI”的通过率也只有63%。这意味着图灵测试的门槛已经越来越低，AI越来越容易过，人类却越来越难证明自己是人类。甚至，有人为了通过逆向图灵测试，会主动模仿AI的说话方式，故意犯拼写错误或用生硬的表达。这简直是对人类智力的侮辱了。

DeepMind的“灵魂拷问”：AI的“智能体性”是什么？

面对这些争议，DeepMind的研究人员换了个角度：与其争论“智能”本身，不如关注“智能体性”。

什么是“智能体性”？

DeepMind把它定义为：“系统朝向目标引导结果的能力”。这个定义包含四个关键要素，缺一不可：

个体性：系统必须有个明确的边界，把自己和外部环境区别开来。就像人的皮肤一样，把“我”和“非我”分开。
行动源：系统的行为必须是自主产生的，不是完全由外部环境决定的。就像我的手，是我让它动，不是风吹动的。
规范性：系统必须有一个目标，或者说有套规范来指导行为。就像下棋，目标是赢。
适应性：系统必须能根据环境变化调整自己的行为，来更好地实现目标。就像开车，遇到红灯要停，遇到障碍要绕。

这四个要素构成了一套完整的“智能体”框架。只有同时满足它们，一个系统才能算是有“智能体性”。

“框架”：决定AI“智能”的“隐形眼镜”

但DeepMind的研究人员进一步指出：这四个要素的判断，全都有赖于一个“框架”。如果说四个要素是“硬件”，那“框架”就是“软件”——它是我们观察和评估AI的“视角”或“参考系”，直接决定了我们怎么看待AI，怎么定义它的“智能”。

框架包含下面四个要素：

边界定义：怎么界定AI系统的边界？是整个系统，还是某个模块？比如自动驾驶汽车，你可以把它看成一个整体，也可以只关注感知模块或决策模块。边界不同，对智能体性的判断就不一样。
因果变量选择：把AI的行为归因给什么？是内部算法，还是外部数据？比如自动驾驶的行为是归因给车载计算机，还是归因给训练数据和路况？
目标识别原则：怎么判断AI的目标？是设计者给的，还是AI自己产生的？比如自动驾驶的目标是安全到达目的地，还是遵守交规，还是最大化燃油效率？
适应性标准：怎么衡量AI的适应性？看它在特定任务上的表现，还是在不同环境下的泛化能力？

DeepMind用“隐形眼镜”来比喻框架。戴上不同的眼镜，看到的AI就会呈现不同的智能形态。同一个AI系统，在不同框架下，完全可能得出完全相反的“智能体性”判断。

拿自动驾驶来举个例子更清楚：

参考系要素	框架A（系统级）	框架B（模块级）
边界	包含所有传感器、计算单元、执行机构	仅感知模块（摄像头、激光雷达等）
因果变量	车载计算机的决策	传感器接收到的环境信息
目标	安全、高效地到达目的地	准确识别道路、车辆、行人
适应性	应对复杂路况、突发事件	对不同光照、天气条件的鲁棒性
智能体性判定	具备	可能不具备

看到了吗？同一个自动驾驶系统，在不同框架下，既可能被认为是“智能”的，也可能被认为是“不智能”的。就像罗生门，每个人看到的都只是真相的一部分。

换个“角度”看AlphaGo：它真的“无敌”吗？

AlphaGo毫无疑问是AI发展史上的一个里程碑。在围棋领域战胜人类顶尖棋手，确实展现出了惊人的“智能”。但如果我们从“框架依赖性”的角度来看，它的“智能”又是什么样子的呢？

如果把AlphaGo看作一个整体，它无疑有很强的“智能体性”：能在复杂的棋局里自主决策，目标是赢，而且还能通过学习不断提升棋力。但如果把框架缩小到AlphaGo内部的神经网络，那它就是一个复杂的函数，根据输入的棋盘状态输出一个落子位置——行为完全由参数决定，谈不上什么自主性。

再对比一下AlphaGo Zero和AlphaZero，会发现它们的“智能体性”也有微妙差异。AlphaGo的训练依赖大量人类棋谱，而AlphaGo Zero完全从零开始，通过自我对弈来学习。AlphaZero更进一步，把这种自我学习的能力推广到了国际象棋、将棋等其他棋类游戏。从这个角度看，后两者比AlphaGo更有“自主性”——不依赖人类先验知识，靠自身探索来构建理解，其智能体性还具备“可迁移性”。

重新定义AI“智能”：从“客观”到“主观”

DeepMind的框架依赖性理论，给AI研究带来了深刻启示。它告诉我们，AI的“智能”不是客观存在，而是我们主观建构的产物。

AGI的“N种可能”：没有最好，只有最适合

框架依赖性意味着不存在一个绝对客观的通用人工智能标准。我们对AGI的理解和评估，始终是相对的、主观的。不同框架会对AGI提出不同要求。比如有人可能更看重实际任务表现，不太在意它有没有意识或情感；有人可能更倾向于可解释性强的方案，哪怕性能差一些；还有人可能更强调安全可控，哪怕牺牲一部分“智能”表现。

所以未来的AGI发展可能会呈现出多样化趋势。不同的AGI，会在不同框架下展现出不同的“智能”形态。也许未来的AGI真的会像个变形金刚，能根据不同任务和场景切换形态。

AI评估的“新标尺”：实用、可解释、可控

框架依赖性也要求我们重新思考AI的评估标准。传统的图灵测试太强调AI的“拟人性”，忽略了其他方面的价值。未来的AI评估应该更全面、更灵活。除了智能表现，还应该关注实用性、可解释性和可控性。

实用性：AI能不能在真实世界里解决问题？效率怎么样？成本怎么样？
可解释性：AI的决策过程是不是透明的？我们能不能理解它的行为？
可控性：AI是不是安全可靠的？我们能不能控制它，防止它造成危害？

这三个维度构成了AI评估的“新标尺”。不同的应用场景里，它们的权重可能完全不同——比如医疗诊断领域，可解释性可能比实用性更重要；自动驾驶领域，可控性可能是第一位的。

人机“共情”：建立理解和信任的桥梁

框架依赖性还对人机关系提出了新挑战。如果我们不能真正理解AI的“智能”，怎么跟它建立信任？怎么跟它有效沟通协作？未来的AI应该具备“共情”能力，能理解人类情感并做出回应——虽然AI的共情基于对人类行为和语言的分析，而不是自身感受，但这仍然有助于建立信任和理解。

比如一个具有共情能力的聊天机器人，可以根据用户的语气和措辞判断情绪状态并做出回应，增强互动体验。近年来这方面的研究进展很快，比如斯坦福大学开发的HAILEY系统，能实时分析人类语言和行为并提供反馈，帮助人类更好地表达共情。实验表明，HAILEY系统能把人类的共情表达提升19.6%，困难案例中更是提升了38.9%。

DeepMind的研究人员也在探索让AI具备“框架感知”能力——让AI能理解人类对它的“智能”的看法，并根据人类框架调整自己的行为。这都说明，AI的共情能力不仅取决于技术水平，还取决于我们怎么设计和使用它。未来的AI，或许更像一个“善解人意”的伙伴，而不是冷冰冰的工具。

“框架依赖性”的伦理拷问

框架依赖性理论不光对技术发展提了新要求，也对AI伦理提出了新挑战。如果AI的“智能”是主观的、相对的，那我们应该怎么界定AI的“责任”？如果AI在不同框架下会做出不同决策，怎么确保AI的决策符合人类价值观？

比如自动驾驶系统在“安全框架”下，可能选择牺牲车内乘客来保护更多行人；但在“公平框架”下，这种选择可能是不道德的。那我们该怎么选择框架？更关键的是，如果AI的偏见不可避免，该怎么应对？用于招聘的AI系统可能因为训练数据中的偏见而对某些群体产生歧视，怎么消除？如果AI的价值观可以被塑造，怎么引导它形成正确的价值观？生成新闻的AI可能因为数据倾向性而产生虚假报道，怎么确保信息真实客观？

这些问题都是框架依赖性理论带给我们的伦理拷问。DeepMind的论文没有给出答案，但它提醒我们：AI的发展不只是技术问题，更是伦理问题、社会问题。我们需要在设计、开发、应用的各个环节充分考虑框架依赖性的影响，确保AI的发展符合人类的利益和价值观。

框架依赖性理论为我们理解AI“智能”提供了一面全新的镜子。它告诉我们，AI的“智能”不是一个固定、客观的属性，而是一个动态、主观的建构。未来的AI研究，应该更加关注AI的“智能体性”，关注它在不同框架下的表现，关注它与人类的互动和协作。也许未来的AI不再是“人工智能”，而是“增强智能”，甚至是“共生智能”。

只有这样，我们才能真正理解AI的“智能”，并让它更好地服务于人类。而这，或许才是“智能”的真谛。未来的世界不是人类与AI的对决，而是人类与AI的共舞。在这场共舞中，框架依赖性理论可能会催生出全新的AI开发范式——“框架工程”，专门研究如何设计、选择、评估和优化AI系统的框架，实现人类与AI的深度融合。而我们，能否驾驭这场未知的舞蹈，将决定人类文明的走向。

来源：https://www.53ai.com/news/LargeLanguageModel/2025022495813.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。