沃顿教授警告:老板已用AI赚钱,你还在做17页PPT?

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新智元报道
编辑:peter东 KingHZ
【新智元导读】AI已经不只会「答题」,开始下场「挣钱」了。但它也可能顺手给你产出17份PPT,把你淹没在电子垃圾里。下一代AI也许真能赢过专家,可更刺激的问题是:它会替你上班,还是让你转职为「AI监工」?
悄然之间,人工智能跨越了一个关键门槛:它们现在已能完成具有实际经济价值的工作。
但当你把一份企业备忘录交给Claude,让它做个 PPT,结果它一口气生成了17个版本。
面对这种「用力过猛」的 AI,你可能会怀疑:它真的具有实用性和经济价值吗?
对此,宾夕法尼亚大学沃顿商学院教授Ethan Mollick给出了他的回答。

智能体能完成特定任务
但无法取代工作
考虑到开发新AI所投入的天量资源,无论是字面意义还是象征意义上,我们却在精确衡量AI「智能」程度这件事上意外地捉襟见肘。
目前,最普遍的做法是将AI视作人类,通过标准化测试来统计其答对题目的数量。
这类被称为「基准测试」的评估体系多达数十种,已成为衡量AI能力演进的核心标尺。

但AI真的实用性?有经济价值吗?
要回答这个问题,不能光靠感觉,得看数据。
OpenAI发布了一个名叫GDPVAL的新基准测试。它不像以往的数学或常识测试,而是专门考察大模型在现实工作场景中能否创造经济价值。
这一次,考得很「实战」。
OpenAI组了个高端局:
出题人:来自金融、法律、零售等行业的资深专家(平均14年经验)。
题目难度:人类专家平均需要4-7小时才能完成的真实业务任务。
评测方式:AI和人类专家同台竞技,由第三方专家进行盲测打分。
然后,OpenAI让各家的大模型和其他专家亲自完成这些任务。第三组专家对结果进行评分,评分的专家不知道哪些答案来自AI,哪些来自人类,每个问题的评分时间大约需要一小时。
测试结果非常耐人寻味:人类专家赢了,但是赢得很难(勉强获胜)。

图1:GDPVAL中,不同模型在对应任务上和人类具有相同或更好水平的比例。
同时,测试发现AI进步极快:较新的模型得分远超旧模型。
输在哪?有趣的是,大模型输给人类,并不是因为「幻觉」或「胡说八道」,主要是因为格式排版不好或没能精确遵循指令——而这些恰恰是最容易修复的短板。

图2:不同领域中,大模型的表现好坏差异较大
如果当前趋势持续,下一代人工智能模型在这项测试中应超越人类专家。但这意味着AI已做好准备,来取代人类工作了吗?
回答是否定。
这里的关键在于:GDPVAL测试的是「任务」(Task),而我们做的是「工作」(Job)。
任务是具体的:写一段代码、翻译一篇文章。
工作是复杂的:它包含了一连串的任务,更包含了人际沟通、决策博弈和对突发状况的处理。
只要AI还做不到像人类一样处理复杂互动,它就无法取代你的岗位。
但在这些高价值的任务中,AI什么时候能达到人类专家级水平?理论上,AI落地已无阻碍?
Ethan Mollick教授认为,AI智能体突然变得具有落地可能,确实让人大吃一惊。部分原因在于大家对智能体的错误认知 。

智能体,工作「续航能力」指数级增长
以前,大家认为,AI想独立完成长任务非常难,比如写一个完整的软件。因为AI只要中间错一步,后面就全完了(误差累积)。
但剑桥大学等机构联手颠覆了这个认知:AI的能力并没有遇到瓶颈,反而在爆发。

预印本链接:https://arxiv.org/abs/2509.09677
剑桥大学Akshit Sinha等研究人员挖掘出四大原因:
1)收益非递减:变准一点点,能做的事会暴增
2)自我修正:它会停下来检查,不会被一个错误拖死
3)更长上下文:一次对话就能装下更长流程
4)更强模型能力:规划更稳,长任务更不崩
所有这一切意味着,AI 智能体能够应对那些需要更多步骤才能完成的任务,并且这一过程无需人工干预。

图3:大模型性能的提升不会引起收益递减的四个原因
因此,指标METR,从GPT-3到GPT-5,在五年间持续保持了指数级增长,显示出智能体能力增加的速度没有放缓。

图4:大模型能够稳定完成的任务所需的耗时变化
该指标衡量AI能以至少50%几率独立完成的任务到底多长。
这意味着我们在不远的未来,就能够看到AI完成需要专业人士一天甚至一周时间才能完成的复杂任务。
人类决定AI的未来
然而,真正具有自主性智能体并不存在。
目前,我们需要决定如何使用它们,这将决定未来工作的许多方面。当下大多人关注的重点是用AI取代人类劳动所带来的风险,而且不难看出这将在未来几年成为一个主要问题,特别是对于那些只关注削减成本、而不是利用这些新能力来扩展或转型工作的,同时缺乏想象力的组织。
但在工作中使用AI,会带来的另一个非常有可能发生的风险是:我们会无意识地让智能体去完成一堆比我们当下所做的更多,但完全不必要的任务,例如根据一个文档做17个PPT。
我们如果不认真思考我们为什么要做工作,以及工作应该是什么样子,那么会被AI生成的「电子垃圾」大潮淹没。
那么,替代方案是什么?
OpenAI建议专家可以通过将任务委托给 AI ,将AI生成的结果当成初稿,由人类审查,从而与 AI 合作解决问题。如果AI生成的初稿不够好,用户可在提示词中提供纠正或优化提示词再试一次。如果那仍然不起作用,他们应该亲自完成工作。
如果专家遵循这种工作流程,论文估计他们可以加快40%的工作速度,降低60%的成本。更重要的是,他们可以保持对 AI 的控制权。

图5:不同大模型带来的速度和成本提升
具有经济实用性的智能体已经出现。例如通过让AI智能体去复现学术论文,可以应对学术界的「可复现性危机」。
尽管智能体能够完成的任务仍然有限,但它有经济价值,并且价值正在递增。
出现哪一个未来,区别不在于AI技术的演变,而在于我们选择如何使用AI。通过在我们的判断中决定什么值得做,而不仅仅是能做什么,我们可以确保这些工具使我们变得更有能力,而不仅仅是更有效率。
参考资料:
https://www.oneusefulthing.org/p/real-ai-agents-and-real-work
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!
相关攻略
今年3月,杨浦区与字节跳动旗下火山引擎共建的火山工场开业,近10家数据标注企业入驻产业园。在人们惯有印象中,标注行业是赛博空间的“流水线”。给数据“打标签”的工作在线上就能完成,并不依赖具体哪座城
这项由东南大学、中山大学、浙江师范大学和伦斯勒理工学院联合开展的研究发表于2026年3月10日的arXiv预印本平台(论文编号:arXiv:2603 09290v1),研究团队开发了一个名为Tool
这项由亚马逊团队领导的研究发表于2026年3月19日的计算机视觉会议论文集,论文编号为arXiv:2603 18795v1。感兴趣的读者可以通过该编号查询完整论文。这项突破性研究首次让大型视觉语言模
“未婚夫”三个字一出口,北京胡同的灰墙都跟着颤了一下。庄庄手里那串糖葫芦啪嗒掉在地上,糖壳碎成渣,像谁也没料到的九十年代——表面亮晶晶,一咬满嘴血碴子。徐胜利当时正掂着两件盗版球衣,盘算着世界杯开幕
IT之家 3 月 30 日消息,阿里千问今晚发布全模态大模型 Qwen3 5-Omni。IT之家附核心亮点如下:无缝理解文本、图片、音频及音视频输入,支持细粒度、带时间戳的音视频 Caption 生
热门专题
热门推荐
Sharkoon旋刚推出双模全配列机械键盘OfficePal K70W 机械键盘市场又添新选择。日前,Sharkoon旋刚正式发布了旗下新款双模全配列机械键盘——OfficePal K70W。这款产品为用户提供了段落有声和线性静音两种轴体选项,值得一提的是,无论是哪种轴体,官方标称的按键寿命都达到了
风车动漫最新在线网入口地址是https: www fcdman com ,该平台提供海量动画资源、流畅观看体验及便捷功能,如多类型番剧、无广告播放、进度记忆和快速更新等。风车动漫
什么是晨星烛台形态?晨星蜡烛图形态详细介绍 什么是晨星烛台形态? 在股票、外汇乃至加密货币市场上,交易者们常常睁大眼睛寻找趋势反转的蛛丝马迹。其中,晨星烛台形态就是一个备受青睐的看涨反转信号。它通常出现在一波下跌行情即将衰竭的末端,像黎明前的第一道曙光,暗示着市场情绪可能正在悄然转变。 典型的晨星形
在当今数字化的时代,社交平台成为了人们生活中不可或缺的一部分。而小红书app,凭借其独特的内容分享模式和丰富多样的生活资讯,吸引了无数用户的关注。你是否想知道如何快速便捷地登录小红
曝苹果2026年还将发布十多款新品 iPhone Fold领衔 本周,随着新款MacBook Air、MacBook Pro以及iPhone 17e等多达七款产品搭载M5芯片亮相,苹果今年的首轮产品攻势算是告一段落了。但这远不是终点,事实上,今年的好戏才刚刚拉开序幕。 目光转向桌面端,Studio





