游乐游手机版
首页/科技数码/文章详情

GPT-5表现媲美专家?OpenAI最新测试揭秘

时间:2025-09-26 12:55
OpenAI表示,其GPT-5模型以及竞争对手Anthropic公司的Claude Opus 4 1“已经接近行业专家的工作质量”。 麻 将 当地时间周四(9月25日),人工智能(AI)研究公司

OpenAI最新研究显示,其GPT-5模型与Anthropic公司Claude Opus 4.1在专业领域表现突出,已接近行业专家水准。

当地时间9月25日,这家领先的AI研究公司推出全新基准测试GDPval,旨在衡量AI系统与各行业专业人士的工作质量差距。作为通向通用人工智能(AGI)的重要环节,这项开创性测试聚焦经济价值工作的评估。

测试概况

GDPval选取对美国GDP贡献最大的九大行业进行测评,涵盖医疗、金融、制造、政府等关键领域。测试涉及44个职业类别,从软件开发到护理服务再到新闻采编,力求全面反映职场生态。

测评方法

在GDPval-v0首轮测试中,OpenAI采用专业人士盲评方式:邀请行业资深人士对比AI生成报告与人类专家成果。以投行业为例,测试要求分析师完成"最后一公里配送行业"竞争格局分析,并与AI报告进行专业比较。

测试结果

数据显示,GPT-5高性能版在40.6%的测试场景中达到或超越专家水平;而Anthropic的Claude Opus 4.1表现更为突出,在近半数测试项目(49%)中与人类专家平分秋色。OpenAI技术团队解释,Claude的部分优势源自其出色的可视化呈现能力。

未来展望

OpenAI首席经济学家Aaron Chatterji强调,这些突破意味着专业人士可以将基础性工作交由AI处理。评估负责人Tejal Patwardhan指出,相比15个月前GPT-4o仅13.7%的达标率,GPT-5实现近三倍提升,展现出令人鼓舞的发展速度。

值得关注的是,当前测试仍存在局限性。OpenAI表示正在开发更完善的评估体系,未来将纳入更多行业指标和交互式工作场景。随着技术持续突破,AI与人类专家协作的新篇章正在开启。

来源:https://36kr.com/p/3482873494740096
上一篇谷歌推出安卓电脑版系统正式版 下一篇阿里联合英伟达推出Physical AI,实现智能机器人全栈技术
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元
科技数码 · 2026-07-03

泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元

泰坦军团“战魂KG277VPLUS”27英寸显示器发售,支持4K165Hz与FHD520Hz双模切换,定价1888元。采用FastIPS面板,97%DCI-P3色域,配备升降支架及双HDMI2 1和双DP1 4接口。

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%
科技数码 · 2026-07-03

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%

迈入2026年,DRAM与NAND闪存的供应持续紧张及价格不断攀升,正逐步传导至终端消费市场。可以预见,下半年市场环境将更加严峻。上半年多家PC厂商已陆续上调产品定价,最终连苹果也不得不跟进,宣布提升iPad、Mac及家居设备的价格,以应对存储成本的快速上涨。 TrendForce分析指出,苹果全面

苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波
科技数码 · 2026-07-03

苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波

苹果自研C2芯片仅支持Sub-6GHz,不支持5G毫米波。因此,美版iPhone18Pro继续采用高通基带方案以支持毫米波,而其他地区版本则搭载苹果自研C2芯片。这一差异将导致在毫米波覆盖的市场中,用户峰值速率可能显著低于美版用户。

纳睿雷达推出睿宸超精细化短时临近AI气象大模型
科技数码 · 2026-07-03

纳睿雷达推出睿宸超精细化短时临近AI气象大模型

纳睿雷达近日释放了一项重磅成果。2026年7月1日,公司正式对外发布了两款自主研发的全新产品:一款是“WDSPT0152型”S波段全极化多功能有源相控阵雷达,另一款则是名为“睿宸”的超精细化短时临近AI气象大模型。从产品战略来看,此次发布直指气象监测与灾害预警领域的技术制高点。 先来看这款S波段雷达

南航国际创新港一期交付 四大专业园区打造空天产业强磁场
科技数码 · 2026-07-03

南航国际创新港一期交付 四大专业园区打造空天产业强磁场

近日,南京航空航天大学与六合区深度合作的标杆项目——南航国际创新港一期正式交付投用。两个地块陆续启用,成功串联起高校科研能量、地方产业载体与市场创新主体,为南京打造全国领先的航空航天产业创新中心、助力江苏布局商业航天全产业链,提供了坚实的物理支撑。 该创新港一期位于六合区雄州街道,分为3号和4号两个