OpenAI发布GDPval测评：Claude等AI多领域达专家级表现

首页

AI资讯

热心网友

转载

2025-09-28

AI评估领域正面临重大范式转变。OpenAI最新发布的GDPval评估框架开创性地采用经济产出视角，通过考察AI在真实商业环境中的表现来评估其技术价值。该体系选取GDP贡献度最高的九大关键行业，精确定位44种核心职业，包括编程开发、金融分析、医疗护理等高专业门槛工作，并据此设计出1320个与实际业务流程紧密相连的评估任务。

最新公布的黄金基准测试结果显示，当前领先模型展现出令人瞩目的专业化能力。Claude Opus 4.1在文件排版和演示设计等视觉性任务中表现突出，约半数情况下达到行业专家水准；GPT-5则在专业信息检索维度优势明显，能够精准提取特定领域的复杂概念。量化分析表明，AI处理标准化工作的效率较人工提升两个数量级，耗时缩短至1%，成本降幅更是高达99%。

该评估体系在方法论层面实现多项创新：

任务设计均来自各行业14年以上资历专家的实际工作材料
从法律文书到建筑设计图纸，所有评估内容均需通过五层质量审核
完整评估集包含每个职业30个全维度任务，开源版本精选5个代表性任务

性能比对显示AI迭代速度显著提升。仅从2024年4月到2025年7月间，顶级模型在GDPval测试中的综合表现就提升了两倍有余。这种进步得益于三大技术突破：模型参数量扩大、推理步骤延长以及任务上下文深化。

评估机制采用人工+自动的双重评分模式：

专业评审员在双盲条件下对比AI与人类成果质量
自动化评分系统提供初步筛选，目前准确率已达实用水平

研究发现表明，AI在流程规范、标准明确的任务场景中已具有应用价值。OpenAI研究团队强调，这种技术能力将重塑现代社会分工体系：人工智能负责程序性工作，人类则聚焦战略决策和创新活动。但要实现这一转型，需要同步完善价值分配机制和职业培训体系。

GDPval作为开放评估平台仍在持续演进。开发团队计划重点加强三个维度：增加服务业等新行业覆盖、设计更多模糊场景任务、提升人机协同评估比重。这套不断完善的评估体系不仅改写着AI能力的量化标准，更将深刻影响人们对智能系统的认知边界。

来源:https://www.itbear.com.cn/html/2025-09/971259.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：盈米基金联合阿里云发布FinBench评测集，Dianjin-Qieman模型加速AI财富变革下一篇：成都率先突破！国内首个基于“世界模型”的机器人任务系统问世

热门推荐

web3.0

比特币匿名交易指南：五种隐私保护方法详解

比特币匿名交易指南：原理、方法与关键注意事项提到比特币，很多人第一反应是“匿名”。但真相是，比特币交易在区块链上公开记录，其本质是“化名”而非完全匿名。这意味着，只要采取恰当的方法，完全可以将交易隐私提升一个层级。本文将系统梳理实现比特币匿名交易的几种实用方法，并为你提供相关可信工具的官方获取途径

热心网友

05.23

AI教程

PowerLawGLM法律大模型：垂直AI赋能法律行业智能应用

PowerLawGLM：法律领域的AI“专家” 在人工智能大模型深刻变革各行各业的今天，法律这一专业壁垒高、知识体系复杂的领域，也迎来了其专属的智能解决方案。由幂律智能与智谱AI联合推出的PowerLawGLM，是一款拥有千亿级参数、专为中文法律场景深度优化的垂直大模型。它本质上是一位经过海量法律文

热心网友

05.23