首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
OpenAI报告:AI专家任务速度提升100倍,成本降至1%

OpenAI报告:AI专家任务速度提升100倍,成本降至1%

热心网友
56
转载
2025-09-29

最新消息,9月27日科技媒体ZDNet于26日发表专题报道,披露OpenAI创新性地推出了GDPval评估基准。这一全新AI测评工具专门设计用于评估前沿AI模型在实际商业场景中的经济价值创造能力,有效弥合了实验室测试与现实应用间的鸿沟。

当前市场涌现大量声称能提升生产力的AI工具,但实际企业应用效果存在明显落差。为解决AI模型学术测评与实际表现不匹配的问题,OpenAI在26日正式发布GDPval评估框架。该体系着眼于"量化AI在经济价值创造类真实任务中的表现",力求为业界提供更具实用参考价值的评估标准。

GDPval测评体系高度还原真实工作场景,其测评范围覆盖对美国GDP贡献最大的9个核心行业、44种典型职业的1320项具体工作任务。所有测评任务均由平均拥有14年行业经验的专业人士设计打造,确保了任务的专业性和实践性。

OpenAI

与传统依赖简单文本问答的测评方式不同,GDPval要求AI模型实际处理办公文档、制作演示幻灯片、格式化商务文件等多种工作输出,从而更全面地验证AI在真实商业环境下的综合表现。

在首次测评中,OpenAI邀请行业专家采用双盲评估方式测试了包括GPT-5、GPT-4o在内的多个顶尖模型,同时对比了Anthropic的Claude Opus 4.1和谷歌Gemini 2.5 Pro等主流产品。

测评结果颇具戏剧性:Claude Opus 4.1凭借在文档排版、幻灯片视觉效果等"美学设计"方面的突出表现荣膺综合榜首;而OpenAI自家的GPT-5则在专业领域知识准确度方面表现最为出色。

OpenAI

研究发现清晰地展现了AI性能的指数级进步和显著成本优势。数据显示,从2024年春季发布的GPT-4o到预计2025年夏季问世的GPT-5,模型的实际工作性能提升超过100%。

OpenAI

OpenAI

最具冲击力的研究结果显示,前沿AI模型完成GDPval测评任务的速度比行业专家快100倍,成本仅为人工的1%。

不过OpenAI特别说明,这些数据仅反映纯模型推理成本,并未计入现实中必要的人工监督、反复修改和系统集成等环节的开支。

OpenAI也坦言GDPval当前存在明显局限。作为初期版本,该基准仅能评估一次性任务表现,尚不能测量模型处理需多轮修改的复杂项目,或应对充满不确定性的现实工作场景。

举例来说,GDPval暂无法评估AI根据客户反馈修改方案的能力,也无法测试处理数据异常等动态情况。OpenAI表示未来将扩展更多行业测评,纳入更具挑战性的任务,并计划开放部分数据集供学术研究使用。

来源:https://www.ithome.com/0/886/190.htm
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

AI免费写作工具提升效率后如何做好个性化优化
AI教程
AI免费写作工具提升效率后如何做好个性化优化

AI写作工具的崛起与市场变革:免费工具如何重塑内容创作生态 在信息爆炸的数字时代,高效、高质量的内容创作需求日益迫切。无论是企业营销、个人自媒体还是学术研究,都在寻求更具性价比的写作解决方案。正是在这一趋势下,AI免费写作工具应运而生,迅速崛起,并深度融入无数创作者的核心工作流程,成为提升内容产出效

热心网友
05.23
工程项目总结PPT制作指南与AI辅助生成技巧
AI教程
工程项目总结PPT制作指南与AI辅助生成技巧

在当今激烈的商业竞争中,一份高质量的工程项目总结PPT究竟有多重要?答案显而易见。无论是向公司高层汇报阶段性成果,还是在团队内部进行复盘与经验分享,一份逻辑严谨、重点明确的总结报告,都是传递项目价值、推动持续改进的核心载体。 其重要性根植于工程项目管理固有的挑战:时间、成本与质量,这三大核心要素始终

热心网友
05.23
人力资源工作总结PPT制作指南 AI范文与实用技巧分享
AI教程
人力资源工作总结PPT制作指南 AI范文与实用技巧分享

每当进入年末或项目收尾阶段,人力资源部门的年度工作总结便成为一项至关重要的任务。这不仅是一次简单的回顾,更是彰显团队价值、凝聚团队共识、并为未来战略规划奠定基础的关键环节。一份优秀的人力资源工作总结,远不止于数据的堆砌,它需要通过清晰的逻辑、生动的实践案例和富有温度的故事,将全年的耕耘与收获系统性地

热心网友
05.23
PPT背景图设置技巧轻松提升演示吸引力
AI教程
PPT背景图设置技巧轻松提升演示吸引力

精心挑选的背景图能美化PPT页面并强化内容层次。可通过设计工具为单页设置本地图片背景,或利用幻灯片母版为整套演示应用统一背景。若无合适素材,可使用内置在线图库搜索并插入合规图片。关键在于选择与内容风格匹配的图片,避免背景过于花哨而干扰信息传达。

热心网友
05.23
提升PDF文献翻译质量的学术级方法与实用策略
AI教程
提升PDF文献翻译质量的学术级方法与实用策略

提升PDF文献翻译质量对学术研究至关重要。翻译需精准传达专业内容与逻辑,避免机械直译导致信息失真。学术界要求翻译兼具学科知识与语言功底,以保障研究的准确性与国际交流。专业翻译服务通过优化流程与质量控制,致力于满足高标准需求,推动学术成果的可靠传播。

热心网友
05.23

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

美股期货短线拉升 标普500指数期货上涨0.4% 市场行情解读
web3.0
美股期货短线拉升 标普500指数期货上涨0.4% 市场行情解读

美股指数期货短线拉升,标普500指数期货上涨0 4%,道指期货与纳指期货亦同步上扬。市场情绪受积极经济数据及企业财报提振,投资者关注后续政策动向与经济走势。

热心网友
05.23
一梦江湖泠音门派什么时候出
游戏攻略
一梦江湖泠音门派什么时候出

《一梦江湖》新门派“泠音”背景设定已公布,具体上线日期待定。其独特的技能机制与玩法引发玩家广泛关注与讨论,正式推出时间需等待官方后续公告。

热心网友
05.23
贝莱德向Coinbase转移大量比特币与以太坊 市场影响分析
web3.0
贝莱德向Coinbase转移大量比特币与以太坊 市场影响分析

5月22日,贝莱德向Coinbase转移了1587枚比特币和17815枚以太坊,总价值约1 6亿美元。市场推测此举可能与其现货比特币ETF的流动性准备有关,或是机构资产配置的常规操作。大额链上转移反映了传统金融机构正深度参与加密市场,其动向持续影响市场观察与定价逻辑。

热心网友
05.23
比特币以太坊XRP为何在暴跌后强势反弹市场驱动力解析
web3.0
比特币以太坊XRP为何在暴跌后强势反弹市场驱动力解析

加密货币市场反弹:是牛市的序曲,还是又一次技术性修复? 在经历了一轮剧烈的震荡与回调之后,加密货币市场近期迎来了久违的普涨。比特币、以太坊和瑞波币领跑反弹,其亮眼表现不禁让市场参与者们再次发问:这究竟是新一轮牛市的起点,还是仅仅是一次技术性的超跌反弹? 一、市场反弹的核心驱动力 那么,推动这轮反弹行

热心网友
05.23
一梦江湖应缨鹦头挂获取方法与外观展示
游戏攻略
一梦江湖应缨鹦头挂获取方法与外观展示

《一梦江湖》新头挂“应缨鹦”造型灵动可爱。小鹦鹉大眼睛、精巧小嘴,扑扇翅膀,姿态欢快。它时而好奇张望,时而对镜摆姿,活灵活现,为佩戴者增添生动俏皮的趣味。

热心网友
05.23