GPT-5表现媲美专家？OpenAI最新测试揭秘

首页/科技数码/文章详情

GPT-5表现媲美专家？OpenAI最新测试揭秘

时间：2025-09-26 12:55

OpenAI表示，其GPT-5模型以及竞争对手Anthropic公司的Claude Opus 4 1“已经接近行业专家的工作质量”。麻将当地时间周四（9月25日），人工智能（AI）研究公司

OpenAI最新研究显示，其GPT-5模型与Anthropic公司Claude Opus 4.1在专业领域表现突出，已接近行业专家水准。

当地时间9月25日，这家领先的AI研究公司推出全新基准测试GDPval，旨在衡量AI系统与各行业专业人士的工作质量差距。作为通向通用人工智能（AGI）的重要环节，这项开创性测试聚焦经济价值工作的评估。

测试概况

GDPval选取对美国GDP贡献最大的九大行业进行测评，涵盖医疗、金融、制造、政府等关键领域。测试涉及44个职业类别，从软件开发到护理服务再到新闻采编，力求全面反映职场生态。

测评方法

在GDPval-v0首轮测试中，OpenAI采用专业人士盲评方式：邀请行业资深人士对比AI生成报告与人类专家成果。以投行业为例，测试要求分析师完成"最后一公里配送行业"竞争格局分析，并与AI报告进行专业比较。

测试结果

数据显示，GPT-5高性能版在40.6%的测试场景中达到或超越专家水平；而Anthropic的Claude Opus 4.1表现更为突出，在近半数测试项目（49%）中与人类专家平分秋色。OpenAI技术团队解释，Claude的部分优势源自其出色的可视化呈现能力。

未来展望

OpenAI首席经济学家Aaron Chatterji强调，这些突破意味着专业人士可以将基础性工作交由AI处理。评估负责人Tejal Patwardhan指出，相比15个月前GPT-4o仅13.7%的达标率，GPT-5实现近三倍提升，展现出令人鼓舞的发展速度。

值得关注的是，当前测试仍存在局限性。OpenAI表示正在开发更完善的评估体系，未来将纳入更多行业指标和交互式工作场景。随着技术持续突破，AI与人类专家协作的新篇章正在开启。

来源：https://36kr.com/p/3482873494740096

上一篇谷歌推出安卓电脑版系统正式版 下一篇阿里联合英伟达推出Physical AI，实现智能机器人全栈技术

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-03

泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元

泰坦军团“战魂KG277VPLUS”27英寸显示器发售，支持4K165Hz与FHD520Hz双模切换，定价1888元。采用FastIPS面板，97%DCI-P3色域，配备升降支架及双HDMI2 1和双DP1 4接口。

科技数码 · 2026-07-03

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%

迈入2026年，DRAM与NAND闪存的供应持续紧张及价格不断攀升，正逐步传导至终端消费市场。可以预见，下半年市场环境将更加严峻。上半年多家PC厂商已陆续上调产品定价，最终连苹果也不得不跟进，宣布提升iPad、Mac及家居设备的价格，以应对存储成本的快速上涨。 TrendForce分析指出，苹果全面