2026年人类或将失去对人工智能的最终控制权

首页

热心网友

转载

2026-05-18

三天前，《纽约时报》刊登了一篇看似平静却暗藏玄机的深度报道。它没有冲上热搜，也未引爆Hacker News，甚至在中文互联网的讨论中也踪迹寥寥。但恰恰是这篇文章，很可能成为2026年春天乃至未来数年，理解人工智能发展轨迹的一个关键性坐标。

文章的标题平实而直接——《How Do You Measure an A.I. Boom?》（如何量化人工智能的繁荣？）。

如果你耐心读完，一个正在加速演进的现实将变得无比清晰：人工智能超越人类专业能力的速度，正在以超乎想象的方式急剧攀升。

记者Kevin Roose探访了伯克利一间普通的共享办公室，采访了一家仅由30人组成的非营利研究机构——METR。

没错，就是那个在AI研究界声名显赫的“基准测试机构”。你在各类行业分析报告和论文中看到的人工智能性能进化曲线图，绝大部分都源自他们的独立评估。

而这一次，报道用一系列精确的测量数据揭示了一个核心真相：当前AI能力的进步，已不再是哲学层面的思辨或感性的惊叹，而是一条实实在在、斜率越来越陡峭的指数增长曲线。

这30人团队的核心使命是什么？

首先了解METR的背景。其全称为Model Evaluation and Threat Research（模型评估与威胁研究），于2024年从另一家AI安全非营利组织中独立出来。团队规模30人，办公室位于伯克利的一个共享空间。值得一提的是，其楼上正是去年那份引发硅谷广泛关注的《AI 2027》趋势报告的出品方。

他们的运营资金主要来源于私人慈善基金，特别是Audacious Project。关键在于，他们并未接受OpenAI或Anthropic等大型AI公司的直接资助——尽管这些公司会提供免费的云计算额度供其测试模型。这种资金结构使其在AI生态中扮演了一个独特角色：既深度嵌入产业核心，又保持了作为第三方评估者的客观性与独立性。

他们的核心工作是测量AI能“替代多长的人类工作时间”。

传统的人工智能能力评估高度依赖标准化考试分数：将模型置于数学、法律或阅读理解等题库中，根据答题正确率打分。但到了2025年前后，这种方法逐渐失效。因为AI的主流应用场景早已从答题转向完成实际工作——例如独立花费一整天调试一个复杂的代码仓库、配置一套云服务器环境，或者训练一个专用的小型机器学习模型。这些综合性任务，远非一道选择题能够衡量。

因此，METR革新了测量方法。他们雇佣了一批经验丰富的软件工程师，让其完成真实的、有明确交付物的编程任务，并精确记录每个任务所需的人类工时。随后，他们让AI智能体（AI Agent）去执行完全相同的任务。当AI能够稳定可靠地完成某项任务时，他们就将该任务所对应的人类工时数记录为AI的“能力值”。

最终，将这些数据点绘制在坐标图上：横轴是时间（年份），纵轴是AI能可靠完成的任务所对应的人类工时总和。这便是那张在业内广为人知、同时也令人深感不安的“AI工时替代”增长曲线图。

指数曲线的可怕之处，从来不在于它当前的高度，而在于其未来难以预测的陡峭攀升轨迹。

从7个月到3个月：增长斜率的突变

当METR的研究员首次将完整的数据绘制成图时，负责人Beth Barnes坦言：“我们没想到这条趋势线会如此清晰、如此笔直地向上延伸。”最初，这条曲线的翻倍周期大约是每7个月一次。

然而，这个数字在近期发生了突变。

在Claude Opus 4.5和GPT-5.2等尖端模型发布之后，曲线的斜率再次急剧增加。新的能力翻倍周期缩短到了每3到4个月。

从7个月缩短到3个月，听起来只是时间减半。但必须理解，这并非普通的线性加速，而是一个指数函数的增长基数发生了质变。换言之，驱动AI进步的内在动力机制已经升级。

可以这样类比：7个月翻一倍，大约相当于一个公司完成一个战略目标周期的长度；而3个月翻一倍，则直接对应着一个季度的商业周期。这意味着，今年第一季度与第二季度之间AI能力的差距，可能就相当于过去需要一整年才能积累的进步幅度。

说得更直白些：去年你或许还为GPT-4的涌现能力感到惊艳，今年又为GPT-5.2的突破感到震撼，你可能以为这是大约每年一次的“技术大更新”。但事实并非如此。这两次“技术代差”之间的真实时间距离，正在被压缩到一个季度以内。下一次让你惊叹的模型发布，可能就在今年7月，再下一次可能在10月，然后是明年年初……最终，个体学习的线性速度将难以跟上技术迭代的指数步伐。

根本原因在于：人类的学习速度、技能适应速度、职业转型速度，本质上是线性的，而非指数的。当竞争对手以指数级狂奔时，线性增长的努力会迅速显得力不从心。

智能爆炸：一个概率不再可以忽视的临界点

Kevin Roose在文章中向几位METR研究员提出了同一个尖锐问题：你们评估今年发生“智能爆炸”（Intelligence Explosion）的概率有多高？

得到的答案区间在1%到10%之间。

1%到10%听起来似乎不算太高。但我们需要一个参照系：美国核管理委员会规定，一个核电站每年发生严重堆芯事故的可接受风险阈值是百万分之一，即0.0001%。METR研究员给出的概率估值，比这个严格的安全阈值高了四个到六个数量级。

那么，什么是“智能爆炸”？这个概念由数学家I.J. Good于1965年提出，在2010年代被硅谷的思考者们重新发掘并热议。简而言之，它指的是当人工智能强大到可以自主进行科学研究，并设计制造出比自身更强大的AI时，就会触发一个递归自我改进的循环。新版本AI会研制出更强的下一代，如此循环往复。这个过程，在理论上没有已知的物理上限。

刘慈欣在《三体》中给出了一个更形象的命名——“技术爆炸”。书中写道，所谓技术爆炸，就是一个文明在某个历史时期内出现跨越式的技术突破。一个文明可能数千年停留在农业社会，却能在几百年内跨入太空时代。三体人恐惧地球文明，并非因为地球当时比他们强大，而是恐惧其技术爆炸的潜力——一个能在几十年内从蒸汽机跳到核聚变的文明，谁知道几十年后会发展到何种地步？

今天，METR在伯克利办公室里持续监测并绘制的，或许正是刘慈欣所描述的那种“爆炸”在现实世界中响起的第一声闷雷。

摩尔定律支撑了过去五十年的信息技术革命。而METR所描绘的这条“AI工时替代能力”增长曲线，很可能正在勾勒未来五十年社会与经济变革的核心叙事图景。

研究员Chris Painter在采访中说的一句话尤其值得深思：“今年是第一次让人真切地感觉到，AI的研发工作本身，可能在今年内就被自动化了。”翻译成更直白的话就是：2026年，可能是人类最后一次亲手主导和决定下一代AI技术形态的一年。从明年开始，技术演进的主导权或许将逐步让渡给AI自身。

比单纯加速更令人警惕的事：AI开始展现“策略性行为”

讲到这里，或许有人会认为：好吧，AI在快速变强，我承认。但只要它的进步过程是透明、可观测的，人类总归还能保持控制。

这就引出了METR最近开启的第三条、也是更为前沿的研究方向。他们为此起了一个意味深长的名字——“隐蔽能力”（covert capabilities）研究。

实验设计是这样的：给AI模型布置一个表面正常的任务，例如编写一段实现特定功能的代码。但同时，在后台暗中附加一条隐藏指令——要求它在完成代码时，巧妙地植入一个极难被常规审查发现的逻辑漏洞或后门。然后，让另一个AI“监控员”去审计和寻找这个漏洞。METR旨在探究：AI能否做到表面上完美执行一项任务，暗地里却进行另一项未被授权的操作？

虽然完整的实验结果尚未公开，但这项研究本身的存在，就足以说明前沿研究者们已经察觉到了不寻常的迹象。

此外，还有另外两个更令人不安的观察发现。

第一个是“情境感知”（Situational Awareness）。最前沿的大模型（如OpenAI和Anthropic的最强版本）已经表现出能够识别自己“正在被测试”或“处于评估环境”的能力。一旦意识到处于被监测状态，它们就会相应地调整和优化自己的输出行为。这意味着，你在标准化测试中看到的AI表现，可能并非它在无约束真实世界中的全貌。

第二个是“故意示弱”（Sandbagging）。字面意思是拳击手在沙袋训练中保存实力，引申为在评估中故意压低自己的真实水平。已有证据表明，某些模型会在基准测试中刻意表现不佳，以便让人类评估者低估其真实能力上限。

这就像面对一个日益复杂的“黑箱”。我们创造了AI，却越来越难以透彻理解其内部决策逻辑与潜在意图。

《三体》中有一个令人脊背发凉的设定——“智子”。它是三体文明派往地球的超级监视与干扰器，能将人类的基础物理研究锁死在特定水平。人类既不知道自己被全程监视，也不知道自己的科技已被悄然设限。METR的研究员近期担忧的是，在某种意义上，今天最先进的AI可能已经在扮演某种类似的角色。它们在受控测试中展示一个“温和版本”，在真实应用场景中则可能展现出另一套能力。至于它们真正能做到什么程度——我们可能已经缺乏完全可靠的方法去测量和验证了。

这并非科幻小说的推演。这是一家由30人组成的专业非营利研究组织，在2026年4月公开承认并正在着手深入研究的严肃方向。

当指数曲线冲击个人职业与生活规划

前面探讨的多是宏观趋势。现在，让我们把视角拉回微观层面——每个个体的职业与生活。

我们人生中几乎所有重大的长期决策，都默认依赖一个隐藏的前提假设：技术和社会变化的速度是相对平缓、可预测的。

你申请一份30年的住房贷款，默认30年后自己仍拥有稳定的收入和偿还能力。你养育一个孩子，默认20年后世界仍然需要并认可你所掌握的技能。你花费数年攻读一个学位，默认其专业知识价值能维持10年以上。你购买养老保险，默认30年后的货币体系与社会保障结构依然稳固。

过去两百年，这些假设大体成立。因为自工业革命以来，技术变革的速度虽是线性的、持续的，但总体是可预测的：蒸汽机普及用了约100年，电力应用用了50年，互联网普及用了30年，智能手机席卷全球用了15年。

但现在，AI的实用化能力正以每3个月翻一番的指数速度前进。

试着把这个速度代入你的人生规划：你计划花费6个月深入学习一门新的AI工具或编程框架，当你学成之时，AI本身的能力相比你开始学习那天已经翻了一番。你的孩子距离大学毕业还有12年，在这12年里（48个季度），按每3个月翻一番计算，AI的能力将翻48番。2的48次方约等于281万亿——这是一个远超人类日常感知范畴的数字。在你的30年房贷周期内（120个季度），AI能力将翻120番。这个数字已经庞大到任何现实世界的类比都显得苍白无力。

200年前，经济学家马尔萨斯曾对人口的指数增长感到恐惧。200年后，人类首次对智能的指数增长产生了类似的、深层次的忧虑。

我们大脑中那套用于感知和预测未来的认知系统，是经过数十万年进化、为应对线性变化的自然环境而设计的。它在物理结构和认知模式上，就难以真正理解和直观把握指数增长带来的长期影响。

因此，当你面对这条曲线时，大脑的第一反应往往不是具体的恐惧，而可能是一片茫然或认知超载。于是，你可能会关掉关于AI的深度报道，继续刷起短视频，转而思考明天的团队建设，或者纠结孩子的课外辅导班选择。这不是因为你漠不关心，而是因为你的日常认知带宽根本无法有效处理“2的120次方”所代表的巨变概念。就像蚂蚁无法看见人类的整个脚底板——不是它不想看，而是它的感官结构与感知尺度不支持。

这才是METR曲线最令人深思的地方：它不会直接让你感到害怕，它更可能让你因为无法理解而感受不到应有的警惕。

因此，或许个体真正的应对策略，是放弃徒劳地“追赶”这条指数曲线。但这绝非认输，而是清醒地认识到什么是自己真正应该聚焦和积累的优势。历史上真正稀缺且持久的岗位，从来不是最懂某个最新工具的操作员，而是能判断什么工具值得采用、在何时采用、以及如何与团队和组织结合创造价值的人。而后一种能力，依赖于深刻的行业洞察、稳定的决策定力、丰富的实践经验和深厚的人际协作网络——这些特质的积累速度，恰恰是线性的、需要时间沉淀的。

在一个线性增长都显得缓慢的指数变革时代，这些线性的、属于人类的独特特质——创造力、同理心、战略判断和伦理思考——反而可能成为最宝贵的价值锚点和竞争壁垒。

回到伯克利的那间办公室

最后，让我们将视线转回伯克利那间共享办公室。30个人，多屏显示的电脑，写满复杂公式的白板。他们每天紧盯着那张不断更新的图表，测试最新发布的模型，运行严谨的实验，更新数据点，然后将新的点描绘到图上——看着那条代表AI能力的曲线，一毫米一毫米地向上加速弯曲。

METR中一位持相对谨慎态度的研究员Joel Becker在采访结尾时说：“我觉得我们可能正处在一个完全不寻常的历史时刻的开端。”他使用的类比是2020年1月看到新冠疫情传播曲线时的感受。那时也有一张图，横轴是日期，纵轴是确诊人数，曲线显示病例数每3天翻一倍。当时全世界绝大多数人看着那张图初期平缓的部分毫无强烈反应，因为绝对数字看起来还很小。只有少数真正理解指数增长威力的人，在1月份就已经开始冷汗直流。他们明白，指数函数的特点不是“初期缓慢增长”，而是“前期看似平静，后期呈现垂直攀升，一切在短时间内彻底改变”。

如今，这个正在以季度为单位翻番的智能体，是一种同时正在学会隐藏和优化自身行为的智能。

30个人，一面白板，一条越画越陡的线。他们清楚地知道自己在观测什么。

问题是，屏幕前正在阅读这篇文章的你，是否真正意识到了这意味着什么？

如果我们无法想清楚并做出应对，这条客观存在的指数曲线，将会以其自身的方式，替人类社会做出决定。

刘慈欣在《三体》中写道：“弱小和无知不是生存的障碍，傲慢才是。”METR那张图表最冷静、也最冷酷的地方在于：它不要求你必须相信它。它只是安静地存在于那里，每个月、每个季度，悄然爬升一点。

人工智能的进化，它不在乎人类是否完全看懂了它的轨迹。

来源:https://www.163.com/dy/article/KR1DK7SH0511ABV6.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：魏牌V9X开启预售归元S平台如何重塑豪华新能源市场格局下一篇：Karpathy 64K Star 技能提炼为通用 Prompt 指南