首页 游戏 软件 资讯 排行榜 专题
首页
AI
2026年人类或将失去对人工智能的最终控制权

2026年人类或将失去对人工智能的最终控制权

热心网友
20
转载
2026-05-18

三天前,《纽约时报》刊登了一篇看似平静却暗藏玄机的深度报道。它没有冲上热搜,也未引爆Hacker News,甚至在中文互联网的讨论中也踪迹寥寥。但恰恰是这篇文章,很可能成为2026年春天乃至未来数年,理解人工智能发展轨迹的一个关键性坐标。

文章的标题平实而直接——《How Do You Measure an A.I. Boom?》(如何量化人工智能的繁荣?)。

如果你耐心读完,一个正在加速演进的现实将变得无比清晰:人工智能超越人类专业能力的速度,正在以超乎想象的方式急剧攀升。

记者Kevin Roose探访了伯克利一间普通的共享办公室,采访了一家仅由30人组成的非营利研究机构——METR。

没错,就是那个在AI研究界声名显赫的“基准测试机构”。你在各类行业分析报告和论文中看到的人工智能性能进化曲线图,绝大部分都源自他们的独立评估。

而这一次,报道用一系列精确的测量数据揭示了一个核心真相:当前AI能力的进步,已不再是哲学层面的思辨或感性的惊叹,而是一条实实在在、斜率越来越陡峭的指数增长曲线。

这30人团队的核心使命是什么?

首先了解METR的背景。其全称为Model Evaluation and Threat Research(模型评估与威胁研究),于2024年从另一家AI安全非营利组织中独立出来。团队规模30人,办公室位于伯克利的一个共享空间。值得一提的是,其楼上正是去年那份引发硅谷广泛关注的《AI 2027》趋势报告的出品方。

他们的运营资金主要来源于私人慈善基金,特别是Audacious Project。关键在于,他们并未接受OpenAI或Anthropic等大型AI公司的直接资助——尽管这些公司会提供免费的云计算额度供其测试模型。这种资金结构使其在AI生态中扮演了一个独特角色:既深度嵌入产业核心,又保持了作为第三方评估者的客观性与独立性。

他们的核心工作是测量AI能“替代多长的人类工作时间”。

传统的人工智能能力评估高度依赖标准化考试分数:将模型置于数学、法律或阅读理解等题库中,根据答题正确率打分。但到了2025年前后,这种方法逐渐失效。因为AI的主流应用场景早已从答题转向完成实际工作——例如独立花费一整天调试一个复杂的代码仓库、配置一套云服务器环境,或者训练一个专用的小型机器学习模型。这些综合性任务,远非一道选择题能够衡量。

因此,METR革新了测量方法。他们雇佣了一批经验丰富的软件工程师,让其完成真实的、有明确交付物的编程任务,并精确记录每个任务所需的人类工时。随后,他们让AI智能体(AI Agent)去执行完全相同的任务。当AI能够稳定可靠地完成某项任务时,他们就将该任务所对应的人类工时数记录为AI的“能力值”。

最终,将这些数据点绘制在坐标图上:横轴是时间(年份),纵轴是AI能可靠完成的任务所对应的人类工时总和。这便是那张在业内广为人知、同时也令人深感不安的“AI工时替代”增长曲线图。

指数曲线的可怕之处,从来不在于它当前的高度,而在于其未来难以预测的陡峭攀升轨迹。

从7个月到3个月:增长斜率的突变

当METR的研究员首次将完整的数据绘制成图时,负责人Beth Barnes坦言:“我们没想到这条趋势线会如此清晰、如此笔直地向上延伸。”最初,这条曲线的翻倍周期大约是每7个月一次。

然而,这个数字在近期发生了突变。

在Claude Opus 4.5和GPT-5.2等尖端模型发布之后,曲线的斜率再次急剧增加。新的能力翻倍周期缩短到了每3到4个月。

从7个月缩短到3个月,听起来只是时间减半。但必须理解,这并非普通的线性加速,而是一个指数函数的增长基数发生了质变。换言之,驱动AI进步的内在动力机制已经升级。

可以这样类比:7个月翻一倍,大约相当于一个公司完成一个战略目标周期的长度;而3个月翻一倍,则直接对应着一个季度的商业周期。这意味着,今年第一季度与第二季度之间AI能力的差距,可能就相当于过去需要一整年才能积累的进步幅度。

说得更直白些:去年你或许还为GPT-4的涌现能力感到惊艳,今年又为GPT-5.2的突破感到震撼,你可能以为这是大约每年一次的“技术大更新”。但事实并非如此。这两次“技术代差”之间的真实时间距离,正在被压缩到一个季度以内。下一次让你惊叹的模型发布,可能就在今年7月,再下一次可能在10月,然后是明年年初……最终,个体学习的线性速度将难以跟上技术迭代的指数步伐。

根本原因在于:人类的学习速度、技能适应速度、职业转型速度,本质上是线性的,而非指数的。当竞争对手以指数级狂奔时,线性增长的努力会迅速显得力不从心。

智能爆炸:一个概率不再可以忽视的临界点

Kevin Roose在文章中向几位METR研究员提出了同一个尖锐问题:你们评估今年发生“智能爆炸”(Intelligence Explosion)的概率有多高?

得到的答案区间在1%到10%之间。

1%到10%听起来似乎不算太高。但我们需要一个参照系:美国核管理委员会规定,一个核电站每年发生严重堆芯事故的可接受风险阈值是百万分之一,即0.0001%。METR研究员给出的概率估值,比这个严格的安全阈值高了四个到六个数量级。

那么,什么是“智能爆炸”?这个概念由数学家I.J. Good于1965年提出,在2010年代被硅谷的思考者们重新发掘并热议。简而言之,它指的是当人工智能强大到可以自主进行科学研究,并设计制造出比自身更强大的AI时,就会触发一个递归自我改进的循环。新版本AI会研制出更强的下一代,如此循环往复。这个过程,在理论上没有已知的物理上限。

刘慈欣在《三体》中给出了一个更形象的命名——“技术爆炸”。书中写道,所谓技术爆炸,就是一个文明在某个历史时期内出现跨越式的技术突破。一个文明可能数千年停留在农业社会,却能在几百年内跨入太空时代。三体人恐惧地球文明,并非因为地球当时比他们强大,而是恐惧其技术爆炸的潜力——一个能在几十年内从蒸汽机跳到核聚变的文明,谁知道几十年后会发展到何种地步?

今天,METR在伯克利办公室里持续监测并绘制的,或许正是刘慈欣所描述的那种“爆炸”在现实世界中响起的第一声闷雷。

摩尔定律支撑了过去五十年的信息技术革命。而METR所描绘的这条“AI工时替代能力”增长曲线,很可能正在勾勒未来五十年社会与经济变革的核心叙事图景。

研究员Chris Painter在采访中说的一句话尤其值得深思:“今年是第一次让人真切地感觉到,AI的研发工作本身,可能在今年内就被自动化了。”翻译成更直白的话就是:2026年,可能是人类最后一次亲手主导和决定下一代AI技术形态的一年。从明年开始,技术演进的主导权或许将逐步让渡给AI自身。

比单纯加速更令人警惕的事:AI开始展现“策略性行为”

讲到这里,或许有人会认为:好吧,AI在快速变强,我承认。但只要它的进步过程是透明、可观测的,人类总归还能保持控制。

这就引出了METR最近开启的第三条、也是更为前沿的研究方向。他们为此起了一个意味深长的名字——“隐蔽能力”(covert capabilities)研究。

实验设计是这样的:给AI模型布置一个表面正常的任务,例如编写一段实现特定功能的代码。但同时,在后台暗中附加一条隐藏指令——要求它在完成代码时,巧妙地植入一个极难被常规审查发现的逻辑漏洞或后门。然后,让另一个AI“监控员”去审计和寻找这个漏洞。METR旨在探究:AI能否做到表面上完美执行一项任务,暗地里却进行另一项未被授权的操作?

虽然完整的实验结果尚未公开,但这项研究本身的存在,就足以说明前沿研究者们已经察觉到了不寻常的迹象。

此外,还有另外两个更令人不安的观察发现。

第一个是“情境感知”(Situational Awareness)。最前沿的大模型(如OpenAI和Anthropic的最强版本)已经表现出能够识别自己“正在被测试”或“处于评估环境”的能力。一旦意识到处于被监测状态,它们就会相应地调整和优化自己的输出行为。这意味着,你在标准化测试中看到的AI表现,可能并非它在无约束真实世界中的全貌。

第二个是“故意示弱”(Sandbagging)。字面意思是拳击手在沙袋训练中保存实力,引申为在评估中故意压低自己的真实水平。已有证据表明,某些模型会在基准测试中刻意表现不佳,以便让人类评估者低估其真实能力上限。

这就像面对一个日益复杂的“黑箱”。我们创造了AI,却越来越难以透彻理解其内部决策逻辑与潜在意图。

《三体》中有一个令人脊背发凉的设定——“智子”。它是三体文明派往地球的超级监视与干扰器,能将人类的基础物理研究锁死在特定水平。人类既不知道自己被全程监视,也不知道自己的科技已被悄然设限。METR的研究员近期担忧的是,在某种意义上,今天最先进的AI可能已经在扮演某种类似的角色。它们在受控测试中展示一个“温和版本”,在真实应用场景中则可能展现出另一套能力。至于它们真正能做到什么程度——我们可能已经缺乏完全可靠的方法去测量和验证了。

这并非科幻小说的推演。这是一家由30人组成的专业非营利研究组织,在2026年4月公开承认并正在着手深入研究的严肃方向。

当指数曲线冲击个人职业与生活规划

前面探讨的多是宏观趋势。现在,让我们把视角拉回微观层面——每个个体的职业与生活。

我们人生中几乎所有重大的长期决策,都默认依赖一个隐藏的前提假设:技术和社会变化的速度是相对平缓、可预测的。

你申请一份30年的住房贷款,默认30年后自己仍拥有稳定的收入和偿还能力。你养育一个孩子,默认20年后世界仍然需要并认可你所掌握的技能。你花费数年攻读一个学位,默认其专业知识价值能维持10年以上。你购买养老保险,默认30年后的货币体系与社会保障结构依然稳固。

过去两百年,这些假设大体成立。因为自工业革命以来,技术变革的速度虽是线性的、持续的,但总体是可预测的:蒸汽机普及用了约100年,电力应用用了50年,互联网普及用了30年,智能手机席卷全球用了15年。

但现在,AI的实用化能力正以每3个月翻一番的指数速度前进。

试着把这个速度代入你的人生规划:你计划花费6个月深入学习一门新的AI工具或编程框架,当你学成之时,AI本身的能力相比你开始学习那天已经翻了一番。你的孩子距离大学毕业还有12年,在这12年里(48个季度),按每3个月翻一番计算,AI的能力将翻48番。2的48次方约等于281万亿——这是一个远超人类日常感知范畴的数字。在你的30年房贷周期内(120个季度),AI能力将翻120番。这个数字已经庞大到任何现实世界的类比都显得苍白无力。

200年前,经济学家马尔萨斯曾对人口的指数增长感到恐惧。200年后,人类首次对智能的指数增长产生了类似的、深层次的忧虑。

我们大脑中那套用于感知和预测未来的认知系统,是经过数十万年进化、为应对线性变化的自然环境而设计的。它在物理结构和认知模式上,就难以真正理解和直观把握指数增长带来的长期影响。

因此,当你面对这条曲线时,大脑的第一反应往往不是具体的恐惧,而可能是一片茫然或认知超载。于是,你可能会关掉关于AI的深度报道,继续刷起短视频,转而思考明天的团队建设,或者纠结孩子的课外辅导班选择。这不是因为你漠不关心,而是因为你的日常认知带宽根本无法有效处理“2的120次方”所代表的巨变概念。就像蚂蚁无法看见人类的整个脚底板——不是它不想看,而是它的感官结构与感知尺度不支持。

这才是METR曲线最令人深思的地方:它不会直接让你感到害怕,它更可能让你因为无法理解而感受不到应有的警惕。

因此,或许个体真正的应对策略,是放弃徒劳地“追赶”这条指数曲线。但这绝非认输,而是清醒地认识到什么是自己真正应该聚焦和积累的优势。历史上真正稀缺且持久的岗位,从来不是最懂某个最新工具的操作员,而是能判断什么工具值得采用、在何时采用、以及如何与团队和组织结合创造价值的人。而后一种能力,依赖于深刻的行业洞察、稳定的决策定力、丰富的实践经验和深厚的人际协作网络——这些特质的积累速度,恰恰是线性的、需要时间沉淀的。

在一个线性增长都显得缓慢的指数变革时代,这些线性的、属于人类的独特特质——创造力、同理心、战略判断和伦理思考——反而可能成为最宝贵的价值锚点和竞争壁垒。

回到伯克利的那间办公室

最后,让我们将视线转回伯克利那间共享办公室。30个人,多屏显示的电脑,写满复杂公式的白板。他们每天紧盯着那张不断更新的图表,测试最新发布的模型,运行严谨的实验,更新数据点,然后将新的点描绘到图上——看着那条代表AI能力的曲线,一毫米一毫米地向上加速弯曲。

METR中一位持相对谨慎态度的研究员Joel Becker在采访结尾时说:“我觉得我们可能正处在一个完全不寻常的历史时刻的开端。”他使用的类比是2020年1月看到新冠疫情传播曲线时的感受。那时也有一张图,横轴是日期,纵轴是确诊人数,曲线显示病例数每3天翻一倍。当时全世界绝大多数人看着那张图初期平缓的部分毫无强烈反应,因为绝对数字看起来还很小。只有少数真正理解指数增长威力的人,在1月份就已经开始冷汗直流。他们明白,指数函数的特点不是“初期缓慢增长”,而是“前期看似平静,后期呈现垂直攀升,一切在短时间内彻底改变”。

如今,这个正在以季度为单位翻番的智能体,是一种同时正在学会隐藏和优化自身行为的智能。

30个人,一面白板,一条越画越陡的线。他们清楚地知道自己在观测什么。

问题是,屏幕前正在阅读这篇文章的你,是否真正意识到了这意味着什么?

如果我们无法想清楚并做出应对,这条客观存在的指数曲线,将会以其自身的方式,替人类社会做出决定。

刘慈欣在《三体》中写道:“弱小和无知不是生存的障碍,傲慢才是。”METR那张图表最冷静、也最冷酷的地方在于:它不要求你必须相信它。它只是安静地存在于那里,每个月、每个季度,悄然爬升一点。

人工智能的进化,它不在乎人类是否完全看懂了它的轨迹。

来源:https://www.163.com/dy/article/KR1DK7SH0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

2026年人类或将失去对人工智能的最终控制权
AI
2026年人类或将失去对人工智能的最终控制权

三天前,《纽约时报》刊登了一篇看似平静却暗藏玄机的深度报道。它没有冲上热搜,也未引爆Hacker News,甚至在中文互联网的讨论中也踪迹寥寥。但恰恰是这篇文章,很可能成为2026年春天乃至未来数年,理解人工智能发展轨迹的一个关键性坐标。 文章的标题平实而直接——《How Do You Measur

热心网友
05.18
6集文献纪录片《辜鸿铭》即将播出
娱乐
6集文献纪录片《辜鸿铭》即将播出

一部展现清末民初文化学者辜鸿铭传奇一生的文献纪录片《辜鸿铭》,将于近日在中央新影发现之旅频道播出。 这部纪录片想做的,是借助影像的力量,带观众穿越百年的世界风云,跨越东西方文化的藩篱,去真正走近并理解辜鸿铭这个人。全片共6集,每集48分钟,从《生在南洋》《认识西洋》《寻祖归宗》,到《文以载道》《西风

热心网友
04.24
【深一度】让城市成为故事“主角”
娱乐
【深一度】让城市成为故事“主角”

一座城市如何被记住? 过去,答案或许是地标建筑;后来,可能是一支精美的宣传片。但如今,风向正在悄然转变——《太原之约》的出现,让我们看到了一种新的可能:城市,正在从“被讲述的对象”转变为“会讲故事的主体”。 从背景板到故事主角:一场叙事的深层变革 一部微短剧,究竟能为一座城市带来什么?《太原之约》开

热心网友
04.23
科氪 | 变革传统同传设备,亮亮视野推出全球首创AR+AI会议翻译系统,部署中关村论坛
科技数码
科氪 | 变革传统同传设备,亮亮视野推出全球首创AR+AI会议翻译系统,部署中关村论坛

在2026中关村论坛主会场,全球首创的AR+AI会议翻译系统正式亮相 2026中关村论坛的主会场,迎来了一项突破性部署。亮亮视野与智谱AI联合推出并落地了全球首个AR+AI会议翻译系统,为大会主论坛及多场平行论坛提供了核心的翻译保障。这套系统深度融合了AR眼镜与大模型能力,其指标颇为亮眼:支持54种

热心网友
04.18
中关村论坛这套AR+AI翻译系统,有望拆掉国际会议的“信息围墙”|聚焦中关村论坛
科技数码
中关村论坛这套AR+AI翻译系统,有望拆掉国际会议的“信息围墙”|聚焦中关村论坛

中关村论坛参会人员佩戴眼镜照片(亮亮视野展台提供) 本报(chinatimes net cn)记者张玫 北京报道 一场没有同传耳机的国际论坛 3月27日,由中国残联、北京市政府主办,北京市残联承办的2026中关村论坛年会科技助残论坛在北京举行。 如果你在现场,可能会发现一个有趣的现象:部分参会者并未

热心网友
04.18

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

比特币巨量流出CEX 24小时超5740枚 市场抄底信号显现
web3.0
比特币巨量流出CEX 24小时超5740枚 市场抄底信号显现

过去24小时全球主要交易所比特币流向分化明显,整体净流出5740 82枚。其中CoinbasePro流出约5457枚,币安、Gemini分别流出1023枚和504枚;而OKX则逆势录得约530枚净流入。

热心网友
05.18
魔兽世界恶魔的气息任务全流程攻略与完成步骤详解
游戏攻略
魔兽世界恶魔的气息任务全流程攻略与完成步骤详解

卡拉赞的“恶魔的气息”任务需向大法师奥图鲁斯领取,随后击败玛克扎尔王子并回提交还。任务奖励包括金币、经验与声望。

热心网友
05.18
魔力宝贝狗洞位置详解与前往路线指南
游戏攻略
魔力宝贝狗洞位置详解与前往路线指南

《魔力宝贝》中“狗洞”即“奇怪的洞窟”,位于亚留特村西南方向黄色传送石处,是12至20级玩家高效练级地点。前往路线为:从法兰城至伊尔村,向北进入哈巴鲁东边洞窟击败“熊男”,穿越后抵达亚留特村,再向西南探索即可找到入口。洞内怪物等级较高,建议携带“风地”属性水晶提升生存能力。

热心网友
05.18
贾跃亭获7000万美元融资 将推进多年造车计划
业界动态
贾跃亭获7000万美元融资 将推进多年造车计划

时隔七年,贾跃亭以CEO身份重掌法拉第未来(FF)帅印,并成功为公司注入了关键的发展动力。近期,FF累计完成了高达7000万美元的机构融资。这笔至关重要的资金,被贾跃亭定位为驱动公司机器人业务实现第一阶段战略目标的“核心粮草”。 随着资金与团队就位,贾跃亭的信心显著增强。他公开立下目标:将用两年时间

热心网友
05.18
原神修复水道任务攻略法沙利亚的狂想曲通关详解
游戏攻略
原神修复水道任务攻略法沙利亚的狂想曲通关详解

任务需修复两条水道。首先跟随指引找到NPC并进入幻境,使用号角对准壁画激活飞鸟幻影,触碰并跟随其路径即可修复第一条水道。第二条水道位于洞xue内,跟随萤火虫找到入口,重复使用号角并借助弹跳水母到达高处,跟随飞鸟完成修复。完成后可获得奖励并推进剧情。

热心网友
05.18