GPT-5表现媲美专家?OpenAI最新测试揭秘
OpenAI最新研究显示,其GPT-5模型与Anthropic公司Claude Opus 4.1在专业领域表现突出,已接近行业专家水准。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
当地时间9月25日,这家领先的AI研究公司推出全新基准测试GDPval,旨在衡量AI系统与各行业专业人士的工作质量差距。作为通向通用人工智能(AGI)的重要环节,这项开创性测试聚焦经济价值工作的评估。
测试概况
GDPval选取对美国GDP贡献最大的九大行业进行测评,涵盖医疗、金融、制造、政府等关键领域。测试涉及44个职业类别,从软件开发到护理服务再到新闻采编,力求全面反映职场生态。
测评方法
在GDPval-v0首轮测试中,OpenAI采用专业人士盲评方式:邀请行业资深人士对比AI生成报告与人类专家成果。以投行业为例,测试要求分析师完成"最后一公里配送行业"竞争格局分析,并与AI报告进行专业比较。
测试结果
数据显示,GPT-5高性能版在40.6%的测试场景中达到或超越专家水平;而Anthropic的Claude Opus 4.1表现更为突出,在近半数测试项目(49%)中与人类专家平分秋色。OpenAI技术团队解释,Claude的部分优势源自其出色的可视化呈现能力。
未来展望
OpenAI首席经济学家Aaron Chatterji强调,这些突破意味着专业人士可以将基础性工作交由AI处理。评估负责人Tejal Patwardhan指出,相比15个月前GPT-4o仅13.7%的达标率,GPT-5实现近三倍提升,展现出令人鼓舞的发展速度。
值得关注的是,当前测试仍存在局限性。OpenAI表示正在开发更完善的评估体系,未来将纳入更多行业指标和交互式工作场景。随着技术持续突破,AI与人类专家协作的新篇章正在开启。
热门专题
热门推荐
加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这
微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿
稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D
基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一
PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票





