首页 游戏 软件 资讯 排行榜 专题
首页
AI
沃顿教授警告:老板已用AI赚钱,你还在做17页PPT?

沃顿教授警告:老板已用AI赚钱,你还在做17页PPT?

热心网友
30
转载
2025-12-23


新智元报道

编辑:peter东 KingHZ

【新智元导读】AI已经不只会「答题」,开始下场「挣钱」了。但它也可能顺手给你产出17份PPT,把你淹没在电子垃圾里。下一代AI也许真能赢过专家,可更刺激的问题是:它会替你上班,还是让你转职为「AI监工」?

悄然之间,人工智能跨越了一个关键门槛:它们现在已能完成具有实际经济价值的工作。

但当你把一份企业备忘录交给Claude,让它做个 PPT,结果它一口气生成了17个版本。

面对这种「用力过猛」的 AI,你可能会怀疑:它真的具有实用性和经济价值吗?

对此,宾夕法尼亚大学沃顿商学院教授Ethan Mollick给出了他的回答。


智能体能完成特定任务

但无法取代工作

考虑到开发新AI所投入的天量资源,无论是字面意义还是象征意义上,我们却在精确衡量AI「智能」程度这件事上意外地捉襟见肘。

目前,最普遍的做法是将AI视作人类,通过标准化测试来统计其答对题目的数量。

这类被称为「基准测试」的评估体系多达数十种,已成为衡量AI能力演进的核心标尺。


但AI真的实用性?有经济价值吗?

要回答这个问题,不能光靠感觉,得看数据。

OpenAI发布了一个名叫GDPVAL的新基准测试。它不像以往的数学或常识测试,而是专门考察大模型在现实工作场景中能否创造经济价值。

这一次,考得很「实战」。

OpenAI组了个高端局:

出题人:来自金融、法律、零售等行业的资深专家(平均14年经验)。

题目难度:人类专家平均需要4-7小时才能完成的真实业务任务。

评测方式:AI和人类专家同台竞技,由第三方专家进行盲测打分。

然后,OpenAI让各家的大模型和其他专家亲自完成这些任务。第三组专家对结果进行评分,评分的专家不知道哪些答案来自AI,哪些来自人类,每个问题的评分时间大约需要一小时。

测试结果非常耐人寻味:人类专家赢了,但是赢得很难(勉强获胜)。


图1:GDPVAL中,不同模型在对应任务上和人类具有相同或更好水平的比例。

同时,测试发现AI进步极快:较新的模型得分远超旧模型。

输在哪?有趣的是,大模型输给人类,并不是因为「幻觉」或「胡说八道」,主要是因为格式排版不好或没能精确遵循指令——而这些恰恰是最容易修复的短板。


图2:不同领域中,大模型的表现好坏差异较大

如果当前趋势持续,下一代人工智能模型在这项测试中应超越人类专家。但这意味着AI已做好准备,来取代人类工作了吗?

回答是否定。

这里的关键在于:GDPVAL测试的是「任务」(Task),而我们做的是「工作」(Job)。

任务是具体的:写一段代码、翻译一篇文章。

工作是复杂的:它包含了一连串的任务,更包含了人际沟通、决策博弈和对突发状况的处理。

只要AI还做不到像人类一样处理复杂互动,它就无法取代你的岗位。

但在这些高价值的任务中,AI什么时候能达到人类专家级水平?理论上,AI落地已无阻碍?

Ethan Mollick教授认为,AI智能体突然变得具有落地可能,确实让人大吃一惊。部分原因在于大家对智能体的错误认知 。


智能体,工作「续航能力」指数级增长

以前,大家认为,AI想独立完成长任务非常难,比如写一个完整的软件。因为AI只要中间错一步,后面就全完了(误差累积)。

但剑桥大学等机构联手颠覆了这个认知:AI的能力并没有遇到瓶颈,反而在爆发。


预印本链接:https://arxiv.org/abs/2509.09677

剑桥大学Akshit Sinha等研究人员挖掘出四大原因:

1)收益非递减:变准一点点,能做的事会暴增

2)自我修正:它会停下来检查,不会被一个错误拖死

3)更长上下文:一次对话就能装下更长流程

4)更强模型能力:规划更稳,长任务更不崩

所有这一切意味着,AI 智能体能够应对那些需要更多步骤才能完成的任务,并且这一过程无需人工干预。


图3:大模型性能的提升不会引起收益递减的四个原因

因此,指标METR,从GPT-3到GPT-5,在五年间持续保持了指数级增长,显示出智能体能力增加的速度没有放缓。


图4:大模型能够稳定完成的任务所需的耗时变化

该指标衡量AI能以至少50%几率独立完成的任务到底多长。

这意味着我们在不远的未来,就能够看到AI完成需要专业人士一天甚至一周时间才能完成的复杂任务。

人类决定AI的未来

然而,真正具有自主性智能体并不存在。

目前,我们需要决定如何使用它们,这将决定未来工作的许多方面。当下大多人关注的重点是用AI取代人类劳动所带来的风险,而且不难看出这将在未来几年成为一个主要问题,特别是对于那些只关注削减成本、而不是利用这些新能力来扩展或转型工作的,同时缺乏想象力的组织。

但在工作中使用AI,会带来的另一个非常有可能发生的风险是:我们会无意识地让智能体去完成一堆比我们当下所做的更多,但完全不必要的任务,例如根据一个文档做17个PPT。

我们如果不认真思考我们为什么要做工作,以及工作应该是什么样子,那么会被AI生成的「电子垃圾」大潮淹没。

那么,替代方案是什么?

OpenAI建议专家可以通过将任务委托给 AI ,将AI生成的结果当成初稿,由人类审查,从而与 AI 合作解决问题。如果AI生成的初稿不够好,用户可在提示词中提供纠正或优化提示词再试一次。如果那仍然不起作用,他们应该亲自完成工作。

如果专家遵循这种工作流程,论文估计他们可以加快40%的工作速度,降低60%的成本。更重要的是,他们可以保持对 AI 的控制权。


图5:不同大模型带来的速度和成本提升

具有经济实用性的智能体已经出现。例如通过让AI智能体去复现学术论文,可以应对学术界的「可复现性危机」。

尽管智能体能够完成的任务仍然有限,但它有经济价值,并且价值正在递增。

出现哪一个未来,区别不在于AI技术的演变,而在于我们选择如何使用AI。通过在我们的判断中决定什么值得做,而不仅仅是能做什么,我们可以确保这些工具使我们变得更有能力,而不仅仅是更有效率。

参考资料:

https://www.oneusefulthing.org/p/real-ai-agents-and-real-work

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

来源:https://www.163.com/dy/article/KHFS6L570511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

2026年人类或将失去对人工智能的最终控制权
AI
2026年人类或将失去对人工智能的最终控制权

三天前,《纽约时报》刊登了一篇看似平静却暗藏玄机的深度报道。它没有冲上热搜,也未引爆Hacker News,甚至在中文互联网的讨论中也踪迹寥寥。但恰恰是这篇文章,很可能成为2026年春天乃至未来数年,理解人工智能发展轨迹的一个关键性坐标。 文章的标题平实而直接——《How Do You Measur

热心网友
05.18
6集文献纪录片《辜鸿铭》即将播出
娱乐
6集文献纪录片《辜鸿铭》即将播出

一部展现清末民初文化学者辜鸿铭传奇一生的文献纪录片《辜鸿铭》,将于近日在中央新影发现之旅频道播出。 这部纪录片想做的,是借助影像的力量,带观众穿越百年的世界风云,跨越东西方文化的藩篱,去真正走近并理解辜鸿铭这个人。全片共6集,每集48分钟,从《生在南洋》《认识西洋》《寻祖归宗》,到《文以载道》《西风

热心网友
04.24
【深一度】让城市成为故事“主角”
娱乐
【深一度】让城市成为故事“主角”

一座城市如何被记住? 过去,答案或许是地标建筑;后来,可能是一支精美的宣传片。但如今,风向正在悄然转变——《太原之约》的出现,让我们看到了一种新的可能:城市,正在从“被讲述的对象”转变为“会讲故事的主体”。 从背景板到故事主角:一场叙事的深层变革 一部微短剧,究竟能为一座城市带来什么?《太原之约》开

热心网友
04.23
科氪 | 变革传统同传设备,亮亮视野推出全球首创AR+AI会议翻译系统,部署中关村论坛
科技数码
科氪 | 变革传统同传设备,亮亮视野推出全球首创AR+AI会议翻译系统,部署中关村论坛

在2026中关村论坛主会场,全球首创的AR+AI会议翻译系统正式亮相 2026中关村论坛的主会场,迎来了一项突破性部署。亮亮视野与智谱AI联合推出并落地了全球首个AR+AI会议翻译系统,为大会主论坛及多场平行论坛提供了核心的翻译保障。这套系统深度融合了AR眼镜与大模型能力,其指标颇为亮眼:支持54种

热心网友
04.18
中关村论坛这套AR+AI翻译系统,有望拆掉国际会议的“信息围墙”|聚焦中关村论坛
科技数码
中关村论坛这套AR+AI翻译系统,有望拆掉国际会议的“信息围墙”|聚焦中关村论坛

中关村论坛参会人员佩戴眼镜照片(亮亮视野展台提供) 本报(chinatimes net cn)记者张玫 北京报道 一场没有同传耳机的国际论坛 3月27日,由中国残联、北京市政府主办,北京市残联承办的2026中关村论坛年会科技助残论坛在北京举行。 如果你在现场,可能会发现一个有趣的现象:部分参会者并未

热心网友
04.18

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

异人之下手游陆瑾连招技巧 安卓版技能玩法教学
游戏攻略
异人之下手游陆瑾连招技巧 安卓版技能玩法教学

陆瑾是《异人之下》手游中操作门槛较高的角色,主打中近距离压制。其核心在于普攻攒炁,并衔接常技【太冲震恚】与【曲泉交忿】进行输出。关键技能【五雷符】可攻可守,成功防御反击可重置冷却。连招依赖“反手”逻辑与精准预判,形成攻防循环。投技【双龙探爪】与【戾走急脉】则需把握时机,分别用于破防与针。

热心网友
05.20
欧易投资策略指南:新手如何制定稳健的Web3投资计划
web3.0
欧易投资策略指南:新手如何制定稳健的Web3投资计划

投资策略需要明确目标与风险偏好,合理分配资金。通过研究项目基本面、关注市场周期与情绪,建立多元化组合。执行中需设定清晰的买卖规则,利用工具辅助决策,并保持长期视角与纪律性,避免情绪化操作。定期复盘与调整是策略持续有效的关键。

热心网友
05.20
异人之下手游巴伦技能强度解析与安卓实战教程
游戏攻略
异人之下手游巴伦技能强度解析与安卓实战教程

巴伦是《异人之下》手游中的近战压制型角色,核心玩法在于追击与倒地连招。其技能“破势突击”衔接流畅,“极速连斩”可追击倒地目标,“飞身十字固”抓取伤害高,“逆势突围”用于防守反击。角色操作上限高,需练习掌握连招循环,但对战远程角色时较为吃力。

热心网友
05.20
谷歌Gemini 3.5 Pro模型正式发布 性能大幅提升下月上线
AI
谷歌Gemini 3.5 Pro模型正式发布 性能大幅提升下月上线

谷歌宣布Gemini3 5Pro模型下月发布,已在内部广泛使用且进步显著。具体技术细节、性能参数及开放计划尚未公布,更多信息将于下月揭晓。

热心网友
05.20
谷歌AI Ultra订阅计划上线 每月100美元起享高级功能
AI
谷歌AI Ultra订阅计划上线 每月100美元起享高级功能

谷歌在2026年I O大会上推出月费100美元的新AI订阅计划,旨在填补其现有20美元与250美元两档服务之间的市场空白。该计划面向需要更多资源的高级用户和小型团队,提供比基础版更强的性能,同时避免企业级的高昂成本,以竞争中高端市场。

热心网友
05.20