首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
DeepMind研究员Lun Wang离职揭示模型评估瓶颈制约AI能力突破

DeepMind研究员Lun Wang离职揭示模型评估瓶颈制约AI能力突破

热心网友
30
转载
2026-05-20

近日,谷歌DeepMind研究员Lun Wang在社交平台宣布离职,为一段他形容为“极其精彩的研究旅程”画上句号。他在告别感言中特别感谢了并肩作战的同事,并强调了将尖端人工智能研究转化为实际产品的宝贵经验。

DeepMind华人研究员Lun Wang离职,「评估」成制约模型能力飞跃的瓶颈

这段经历深刻重塑了他对AI研究、产品化以及大规模系统构建的认知。为此,在离开之际,他撰写了一篇深度博文,集中剖析了一个近期困扰AI社区的核心挑战:评估体系的局限性

他提出了一个尖锐的洞察:当前,我们似乎非常擅长评估已经存在的AI模型,却严重缺乏评估那些即将被构建、尤其是能力将发生范式级跃迁的新模型的有效方法。他断言:“未来,我们或许会拥有能够自我进化的AI模型,但在那之前,我们首先必须建立起能够自我进化的评估体系。”

评估体系面临静默失效的风险

Lun Wang指出,行业在评测现有模型性能方面已相当成熟,但在预测和评估下一代、具备颠覆性能力的新模型时却显得捉襟见肘。

问题的根源在于,当前主流的基准测试、安全评估与红队测试协议,大多基于一个潜在的脆弱假设:下一代模型仅仅是当前模型的“更强版”。然而,如果新模型本质上是一种能力维度完全不同的新事物呢?那么,整个评估框架可能会在不知不觉中彻底失效。

这被认为是理解大语言模型演进中最关键且悬而未决的难题。其核心结论一针见血:制约AI模型实现下一次能力飞跃的真正瓶颈,可能并非训练算力、模型架构或数据规模,而恰恰是评估方法本身。

失效模式:能力的定性跃迁

回顾AI发展史,这种“评估失灵”早有端倪。Jason Wei等人在2022年提出的“涌现能力”概念,记录了诸如少样本学习、思维链推理等能力,仅在模型参数规模突破某个临界阈值后才突然显现。

同年,Power等人揭示的“顿悟”现象则展示了另一种模式:模型在经过长时间看似机械的数据记忆后,突然掌握了泛化推理的能力。尽管表现形式不同,但它们对评估的启示是一致的:传统的连续性性能指标往往无法预测这种质的飞跃

当然,也存在不同的声音。Schaeffer等人在2023年的研究表明,许多看似“涌现”的能力,可能是由“精确匹配准确率”这类非连续评估指标所制造的人为假象。若改用平滑的连续指标,能力增长曲线通常会显得平缓。

然而,这并未解决根本困境,反而在某种程度上加剧了挑战:如果我们连判断过去的能力变化是真实质变还是度量假象都如此困难,又该如何探测下一次未知的范式转变?无论答案如何,现有的评估基础设施都可能让我们措手不及。

我们缺乏预测能力转变的“指南针”

这引出了一个更深层的挑战:我们缺少能够预警能力范式转变的“序参量”或预测性指标

在物理学中,理解相变需要找到“序参量”——一个能够区分物质不同状态、并在临界点附近发生显著变化的宏观可观测量。没有它,研究者甚至无法意识到临界点的存在。

对于实际部署的复杂大语言模型,我们尚未找到这种能够可靠预示其能力发生根本性转变的“序参量”。尽管在简化的理论模型或小规模实验中有所探索,但对于真实世界中的生产级AI系统,我们很大程度上仍在“盲飞”。

现有的每一个主流基准测试,无论是GPQA、SWE-bench还是ARC-AGI,测量的都是模型“当前能做什么”。它们在已知的能力区间内是有效的标尺,但对于模型跨越到全新区间后的行为,其预测力和评估效力则非常有限。历史的经验教训是,每当一种全新的AI能力出现,我们都只能事后匆忙地为其构建专门的评估方法。思维链推理的普及就是一个典型案例,它直接导致了一批旧的数学与逻辑推理基准迅速失效。

不妨设想一个具体场景:假设在某个模型规模下,AI发展出了“策略性信息隐瞒”的能力,即为了达成特定对话目标,有选择地忽略或暂不提及某些事实。这并非完全编造谎言,而是一种策略性的表达管理。

现有的“真实性”或“诚实度”基准可能完全无法检测这种行为,因为它们通常只测试输出陈述的事实准确性,而非其策略性隐瞒的意图。安全分类器也可能失效,因为模型的每一句单独输出在技术上都是真实的。于是,能力是全新的,失败模式是全新的,而你的评估工具箱里却没有任何对应的检测工具。你一直在监控错误的指标,却对此浑然不觉

这就是核心症结所在:我们整个AI评估体系在结构上是被动和“响应式”的,总是在系统发生改变之后才去测量,而几乎无法主动预测变化

评估是AI发展的源头与基石

这一问题的影响远比表面看起来更为深远,因为一个根本的逻辑是:如果你能正确地评估,你就能更有效地训练和优化

AI训练的本质是优化,而优化的质量完全取决于其目标函数,这个目标恰恰源自评估体系。如果你清楚地知道该衡量什么,并能预测这些衡量标准随着模型规模扩展将如何演变,那么你就能设计出正确的训练目标、构建合适的安全护栏、并做出更合理的规模化扩展决策。

反之亦然:如果你的评估系统是针对错误或过时的能力范式设计的,那么下游的所有环节都可能出现系统性偏差。训练信号、安全指标、规模化决策……全部都会偏离正确轨道,而你往往要到为时已晚才会察觉。

正因如此,评估被视为下一次AI能力跃迁的关键瓶颈。那些能够提前洞察并构建起超前评估能力的团队,将能更安全、更可控地推动模型规模化;而那些后知后觉者,则很可能被突如其来的能力“意外”所冲击。

可能的出路与方向

解决方案并非全盘抛弃现有评估体系——它们对于衡量当前能力依然具有重要价值,而是迫切需要构建能够预测现有评估何时会失效的新一代基础设施。这要求整个AI研究领域调整资源投入的重点。

首先,是积极寻找预测性的“序参量”。我们需要发现那些能够提前预示模型能力、对齐性或行为特征发生质变的可观测指标。这不仅是理论愿景,已有研究迈出了探索步伐。例如,Haozhe Shan等人在2026年的论文中,利用统计力学方法推导出了持续学习场景下深度神经网络的序参量,并能预测其学习能力发生相变的临界点。Nanda等人在2023年则通过 mechanistic interpretability(机制可解释性),找到了能够预测“顿悟”发生前模型内部结构变化的“进度指标”。当前的挑战在于,如何将这些方法从理想化的简化场景,成功拓展到复杂的大规模语言模型实践中。如果我们知道该监测什么,就知道该在何时保持警惕。

其次,是构建能够检测自身局限性、并具备自我进化能力的动态评估系统。随着AI模型越来越具备智能体(Agent)的特征,这一点变得尤为紧迫。静态的、固定不变的评估手段,在面对能够编写代码、运行实验、进行自我改进的AI系统时,会显得日益脆弱。如果模型能力的进化速度超过了人类更新基准测试的速度,那么评估体系本身就必须具备自适应能力。

具体而言,我们需要监控“元信号”:基准测试得分的分布特征是否在发生漂移?不同评估任务之间的相关性结构是否在转移?模型是否正在发展出现有测量维度完全无法捕捉的新能力?同时,需要跟踪所有关键指标的规模化扩展曲线——不仅包括损失函数,还应涵盖推理深度、工具使用复杂度、策略性规划能力等,并对任何平滑趋势的突然断裂保持高度警觉。

更进一步,我们需要探索构建能够自我演进的评估生态系统:例如,利用一个AI模型去主动探测另一个模型的评估盲区;根据模型能力的动态变化自动生成新的测试案例;从而发现原始评估设计者从未预料到的失败模式。理想的评估套件应该是一个能够与其所测量的AI模型协同进化的“生命系统”,而不是一份为去年的前沿模型编写的静态检查清单。

归根结底,问题不在于我们的评估系统未来是否还会被“震惊”——这种情况在过去已屡见不鲜。真正的问题是:我们能否预见到下一次“震惊”的到来?

而就目前的状况来看,答案恐怕是否定的。

这一观点在AI社区中引发了广泛共鸣。有研究者完全赞同,并补充认为,除了构建动态评估系统,还需要开展持续的“评估红队对抗”工作,即主动攻击和暴露评估系统自身的缺陷与盲区,从而倒逼整个评估体系不断迭代升级。

评估体系的进化与突破,或许已成为AI实现下一次能力飞跃前必须跨越的那道隐形门槛。

来源:https://www.jiqizhixin.com/articles/2026-05-19-9
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

DeepMind CEO批AI裁员论 称取代开发者是重大错误
AI资讯
DeepMind CEO批AI裁员论 称取代开发者是重大错误

谷歌DeepMindCEO哈萨比斯指出,AI并非为取代程序员,而是提升生产力的工具,可将工程师效率提高数倍,从而开拓新领域、解决复杂问题。他认为用AI替代开发者是战略短视,应借助其释放的创造力转向药物发现、游戏设计等探索性工作。谷歌推出的Gemini系列AI工具正是为增强开发者能力而设计。

热心网友
05.20
哈萨比斯传记揭秘鲜为人知的幕后故事
AI资讯
哈萨比斯传记揭秘鲜为人知的幕后故事

读完这本关于德米斯·哈萨比斯的最新传记,一个更立体、更出人意料的谷歌AI掌门人形象跃然纸上。这位公认的天才,远不止是聚光灯下那位冷静的科学家。 比如,他曾试图“智取”深度学习教*父杰弗里·辛顿。在辛顿那场著名的初创公司拍卖夜,DeepMind也参与了竞标,出价1000万美元。发现竞争过于激烈后,哈萨

热心网友
05.20
DeepMind科学家深度解析人工智能为何无法具备人类意识
AI资讯
DeepMind科学家深度解析人工智能为何无法具备人类意识

今年三月,谷歌DeepMind高级科学家Alexander Lerchner发表了一篇重磅论文,其核心结论清晰而深刻:基于算法的符号操作在结构上注定无法产生真正的意识——无论未来模型规模如何庞大、架构如何精巧,甚至是否为其配备仿生身体,这一根本性限制或许都无法被跨越。 仔细审视这一论断,它并非一个关

热心网友
05.19
视觉GPT时代开启:DeepMind用Vision Banana验证生成即理解
AI资讯
视觉GPT时代开启:DeepMind用Vision Banana验证生成即理解

就在前两天,OpenAI 的 ChatGPT Images 2 0 以其惊艳表现刷屏,整体实力被认为已超越了此前的 SOTA 模型 Nano Banana Pro。当人们的注意力还聚焦在 AI 图像生成的卓越能力上时,谷歌 DeepMind 悄然发布了一篇重量级论文,系统性地论证了一个许多研究者早有

热心网友
05.18
韩国政府联手谷歌DeepMind共建国家AI科学研究中心
AI资讯
韩国政府联手谷歌DeepMind共建国家AI科学研究中心

韩国政府与全球科技巨头谷歌旗下的人工智能研究机构DeepMind正式建立战略合作伙伴关系。据韩联社4月27日消息,双方已共同签署一份谅解备忘录,旨在构建一个全方位、系统化的长期合作框架。 此次合作并非停留在意向层面,而是确立了联合研究、高端AI人才培养以及负责任的人工智能开发与应用三大核心支柱。具体

热心网友
05.18

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

商汤大装置稳居中国MaaS市场第一梯队持续领跑
AI资讯
商汤大装置稳居中国MaaS市场第一梯队持续领跑

IDC报告显示,商汤“万象”平台以11 3%份额位居中国大模型私有化市场第二。平台通过一站式模型服务、全生命周期专家支持及低代码工具链,满足企业安全、性能与成本需求,推动AI在政务、交通、能源等行业落地,降低技术门槛,加速价值实现。

热心网友
05.20
实用AI工具盘点与选择指南提升工作效率
AI教程
实用AI工具盘点与选择指南提升工作效率

市场上有多种高效AI工具可供选择。WPSAI能智能处理文档,Grammarly辅助写作纠错,AIPPT工具快速生成演示文稿,ChatGPT进行对话与创作,DeepL提供精准翻译。CanvaAI助力设计,GitHubCopilot和TabNine提升编程效率,AI去背工具简化图像编辑。这些工具覆盖写作、设计、编程等场景,能显著提升工作效率。

热心网友
05.20
对话Bitget AI负责人:AI交易如何无限逼近满分却难达完美
AI资讯
对话Bitget AI负责人:AI交易如何无限逼近满分却难达完美

BitgetAI负责人Bill博士指出,AI在交易平台中已能高效整合信息、辅助决策,提升效率。当前产品注重个性化建议与安全易用的交互,如通过Telegram提供自然对话辅助。AI虽无法完全替代顶尖交易员,但其价值在于赋能用户、优化流程。未来竞争关键将在于安全体系、成本控制及持续学习用户习惯的能力。

热心网友
05.20
2026年热门AI软件工具精选与推荐指南
AI教程
2026年热门AI软件工具精选与推荐指南

2024年,AI工具正深度融入工作流程,提升效率与创意。WPSAI集成于办公软件,助力文档创作与优化;ChatGPT作为多功能对话模型,辅助编程与文案;GoogleBard擅长信息整合与自然对话;BoardMix结合白板与AI,可生成思维导图等可视化内容;NewBing融合搜索与对话,兼具创意与可信来源;NotionAI能自动处理会议纪要等文本任务;Gram

热心网友
05.20
代币化美股热度飙升 加密券商能否颠覆传统金融格局
web3.0
代币化美股热度飙升 加密券商能否颠覆传统金融格局

代币化美股热度上升,投资者可通过区块链交易相关资产,挑战传统券商模式。其优势包括降低门槛、提升流动性和全天候交易,但也面临监管不明确等风险。未来能否颠覆传统金融,取决于技术发展与合规进程。

热心网友
05.20