吴恩达:图灵测试已过时,AGI专用评测设计思路
鹳羽 发于凹非寺
量子位 | 公众号 QbitAI
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新的一年,AI领域又有了新气象!知名专家吴恩达最近公布了面向2026年的目标:
他将推出一项全新的图灵测试,并称之为“图灵-AGI测试”。
顾名思义,这项测试正是为评估通用人工智能(AGI)而量身打造的。

回顾过去一年,AGI无疑是技术浪潮中备受瞩目的焦点。吴恩达在其年度总结中也曾表示:
2025年或许将被铭记为人工智能工业时代的开端,由创新驱动模型性能达到新的高度。AI驱动的应用变得不可或缺,顶尖企业的人才争夺激烈,基础设施建设推动社会生产总值的增长。
学术界与工业界频繁提及AGI概念,硅谷的各家公司也纷纷为抢占AGI先机而设定季度目标。
然而,关于AGI的定义至今尚未形成统一标准,现有的基准测试又常常误导公众,使其高估了当前AI的实际水平。
吴恩达注意到了这一趋势,于是新的图灵测试应运而生,旨在填补这一空白。

正如网友所言:
要衡量智能,首先得定义智能。

图灵-AGI测试设想
传统的图灵测试在AGI时代显然已不够用。
它由艾伦·图灵在上世纪五十年代提出,主张通过人机对话来测试机器的智能水平。
在测试过程中,人类评估者需要确定他们是在与人还是与机器交谈。如果机器能够成功骗过评估者,那么就算通过了测试。
但如今的AI显然不再满足于简单的对话交互,而是要构建起对经济有用的系统,因此亟需一个能够衡量AI工作能力的测试。
而这正是图灵-AGI测试的核心:要让AI像人类一样智能,并完成大部分的知识型工作。
测试对象将会是AI系统或专业人士,他们将获得一台可以访问互联网并配备浏览器和Zoom等软件的计算机。

裁判将通过计算机为测试对象设计一个多日的体验任务,比如作为客服,会先被培训一段时间,然后要求执行接听电话的任务,并提供持续的反馈。
只要AI能够像人类一样熟练完成工作任务,就会被认为通过了测试。
该测试将聚焦AGI的经济性和实际产出,更接近普世意义下对AGI的初始定义——可用于工作和生产场景的智能。
它将比基准测试更考验AI的通用能力
现在几乎所有的AI基准测试,如GPQA、AIME、SWE-bench等,都会预先确定一个测试集。这意味着AI团队都会直接针对已发布的测试集来调整他们的模型。
这就导致很多AI模型榜单排名靠前,但在真实物理世界中能力却不足。
去年闹得沸沸扬扬的Llama 4刷榜丑闻就是其中一个典型,明明数据看起来都很不错,但用户真正上手后却傻眼了。

此外,固定测试集只能衡量AI在某一狭窄领域的能力。相比之下,图灵测试可以由评委自由提出任意问题,没有提前限定范围,更能判断系统在通用任务上的表现。
在改进的图灵-AGI测试中,延续了这一设定,裁判可以任意设计体验任务,而受测的AI或人类测试者均不会事先知道任务内容,这将比基准测试更能判断AGI水平。
同时,为了校准社会对AI的期望,吴恩达表示,或许他将举办一场图灵-AGI测试,让所有AI参与其中。
即便最后的结果是所有AI系统均未能达到标准,也能平息长期以来对AGI的过度炒作。
这种降温将为AI领域创造更稳健的环境,让行业重新聚焦于非AGI级别的实际进步,比如开发有实用价值的应用,而不是沉溺于实现AGI的营销噱头。
从长期来说,图灵-AGI测试也会为AI团队设定一个具体的努力目标,而非模糊地实现人类级智能。
倘若真有某一家公司能够通过测试,其成果也必定具备真实价值,图灵-AGI测试将为真正的AGI突破提供可信的判定依据。
所以接下来,只需拭目以待。
相关攻略
4599 元起售,MacBook Neo 来袭雷军呼吁:不要过度依赖辅助驾驶林俊旸提出离职后,阿里高管紧急答疑英伟达将在本月举行 AI 大会特斯拉无人出租车 Cybercab 或迎大规模生产AMD
机器人前瞻(公众号:robot_pro)作者 许丽思编辑 漠影机器人前瞻2月11日报道,今天,RoboScience机器科学宣布完成数亿元Pre-A轮融资。本轮融资由普华资本领投,达晨财
新智元报道编辑:LRST【新智元导读】松鼠Ai创始人栗浩洋在达沃斯论坛展示了一条教育普惠新路径:AI把名师课程成本削减百倍,让优质教育触手可及。松鼠Ai已服务6万所公立学校,在全国开设3000多家A
新智元报道编辑:元宇【新智元导读】一边踩油门冲刺AGI,一边按喇叭预警:小心前面悬崖!Anthropic创始人Dario Amodei曾因预言「未来5年内AI可能消灭近一半初级白领岗位」而被贴上「末
“我相信今年可能是AI for Science的一个爆发年,因为很多能力大大提升,我们可以做更多的事情。”在昨日举行的AGI-Next前沿峰会上,清华大学教授、智谱首席科学家唐杰这样说道。据了解,该
热门专题
热门推荐
PChome 3月31日消息,OPPO官微官宣,OPPOx哈苏影像新品联合发布会将于4月21日晚19:00在成都举办,Find X9s Pro、Find X9 Ultra等新品将至。据了解,OPPO
小红书网页版登录入口为https: www xiaohongshu com explore,支持扫码、手机号验证码及微信三种登录方式,首页默认瀑布流展示热门笔记,具备多维度内容检
两年前,谢添天发现自己的声音被一款APP“盗”走——用户输入文本,即可用他的音色生成以假乱真的AI声音。维权半年,因举证难度太高,最终以和解和对方致歉了结。两年后,一场大规模的联合发声,将AI盗声侵
来源:央广网3月28日至29日,以“发挥主流媒体引领力 激发多元主体创造力——共创繁荣网络内容生态”为主题的2026中国网络媒体论坛在河南郑州举行。网络媒体因技术而诞生,凭创新而繁荣。面对新一轮科技
当大语言模型与AgenticAI(智能体)从试验场进入企业级生产环境,SaaS行业的底层价值逻辑正面临系统性重估。这一轮变革的核心,正指向“AI CRM 2 0”的全面到来——它不再是传统CRM的功





