OpenAI最新研究显示,其GPT-5模型与Anthropic公司Claude Opus 4.1在专业领域表现突出,已接近行业专家水准。
当地时间9月25日,这家领先的AI研究公司推出全新基准测试GDPval,旨在衡量AI系统与各行业专业人士的工作质量差距。作为通向通用人工智能(AGI)的重要环节,这项开创性测试聚焦经济价值工作的评估。
测试概况
GDPval选取对美国GDP贡献最大的九大行业进行测评,涵盖医疗、金融、制造、政府等关键领域。测试涉及44个职业类别,从软件开发到护理服务再到新闻采编,力求全面反映职场生态。
测评方法
在GDPval-v0首轮测试中,OpenAI采用专业人士盲评方式:邀请行业资深人士对比AI生成报告与人类专家成果。以投行业为例,测试要求分析师完成"最后一公里配送行业"竞争格局分析,并与AI报告进行专业比较。
测试结果
数据显示,GPT-5高性能版在40.6%的测试场景中达到或超越专家水平;而Anthropic的Claude Opus 4.1表现更为突出,在近半数测试项目(49%)中与人类专家平分秋色。OpenAI技术团队解释,Claude的部分优势源自其出色的可视化呈现能力。
未来展望
OpenAI首席经济学家Aaron Chatterji强调,这些突破意味着专业人士可以将基础性工作交由AI处理。评估负责人Tejal Patwardhan指出,相比15个月前GPT-4o仅13.7%的达标率,GPT-5实现近三倍提升,展现出令人鼓舞的发展速度。
值得关注的是,当前测试仍存在局限性。OpenAI表示正在开发更完善的评估体系,未来将纳入更多行业指标和交互式工作场景。随着技术持续突破,AI与人类专家协作的新篇章正在开启。
