首页 游戏 软件 资讯 排行榜 专题
首页
AI教程
OpenAI发布o3模型性能全面超越现有技术

OpenAI发布o3模型性能全面超越现有技术

热心网友
58
转载
2026-05-21

降维打击所有模型!OpenAI正式发布o3

回顾过去几周AI圈的重磅消息,谷歌发布了全新的AI视频模型Veo2和绘图模型Imagen3,一度引发热议。但就在今天,OpenAI为期12天的系列直播迎来了最终章,山姆·奥特曼在一片圣诞氛围中回归,带来了真正的压轴大戏——OpenAI o3。

又一次,它展现了超群的实力,将模型能力推向了新的高度,也再次向世界证明了,OpenAI依然稳稳地坐在铁王座之上。这让人不禁想起OpenAI研究员在发布o1前的那句话:“我们通往AGI的路上,已经没有任何阻碍了。”

这次直接跳过了o2,命名为o3,原因其实挺简单:据推测,可能是为了避免与英国电信服务提供商O2产生潜在的商标或版权冲突。直播一结束,社交媒体上几乎瞬间沸腾,因为o3展现的能力,对现有所有模型而言,几乎是一次彻底的降维打击。

能力评测:全方位的碾压

那么,o3到底强在哪里?不妨通过几个核心基准测试来感受一下。

在软件工程领域,SWE-Bench Verified基准就像一场编程考试,要求模型写出快速、准确且无bug的代码。o3在这里拿到了71.7%的分数,比已经很强的o1又提升了一大截。

更惊人的表现出现在Codeforces,这个全球顶级的编程竞赛平台上。o3的得分达到了2727分,这个成绩在人类参赛者中能排到第175名,意味着它已经超越了99.99%的人类程序员。

如果说o1的代码能力已经强到爆炸,那么o3无疑向着AGI的山顶,又迈出了坚实的一大步。

数学与科学:接近满分与突破瓶颈

在数学竞赛AIEM 2024中,o3的表现接近满分。如果没记错的话,这应该是AI首次在这类测试中达到如此接近完美的水平。

而在博士级科学考试GPQA Diamond中,o3也有进步,虽然提升幅度不像数学和编程领域那样“猛”。

接下来这个数学基准测试就更有趣了——FrontierMath。它由Epoch AI开发,背后是60多位顶尖数学家的合作,专门用于评估AI在高级数学推理上的能力。为了杜绝数据污染,所有题目都是原创且从未公开过的。

此前,像GPT-4和Gemini 1.5 Pro这类顶尖模型,在这个测试上的成功率还不足2%,与它们在传统数学基准上超过90%的成功率形成了鲜明对比。而这一次,o3直接将成功率提升到了25.2%。

当其他模型还在传统赛道上“卷”分数时,o3已经进入了另一个维度。这就好比大家还在“大斗师”阶段争论谁是八星谁是五星,忽然一位“斗宗”强者踏空而过,留下满地惊叹——这还比什么呢?

抽象推理:跨越人类阈值的关键一跃

然而,整个评测集里最引人注目的,或许是ARC-AGI基准。这个测试于2019年提出,其理念在于,传统的技能测量无法有效代表智能,因为那往往依赖先验知识。真正的智能,应体现在广泛的适应性和通用推理能力上。

ARC-AGI的任务可以简单理解为“找规律”:给出一系列彩色网格的输入输出示例,让模型推导出规则并解决全新的问题。题目非常抽象,难度极高。

看看过去几代模型在此的表现,就能明白其突破性:

  • GPT-2 (2019): 0%
  • GPT-3 (2020): 0%
  • GPT-4 (2023): 2%
  • GPT-4o (2024): 5%
  • o1-preview (2024): 21%
  • o1 (2024): 32%
  • o1 Pro (2024): ~50%

而今天,o3的分数达到了恐怖的87.5%。

从0%到5%,花了整整五年时间;而从5%到87.5%,仅仅用了半年。更关键的是,这个测试的人类平均阈值分数,大约是85%。o3,已经跨过去了。

“我们通往AGI的路上,已经没有任何阻碍了。”这句话,在今天听来似乎不再遥远。

发布与展望:期货大模型与星辰大海

当然,o3虽强,目前仍是一个“期货”。OpenAI仅向“红队”(安全测试团队)开放了早期访问。如果是领域内的顶尖研究者或机构,可以尝试申请体验。

目前尚不清楚o3何时会全面开放,但OpenAI已经基于o3训练了三个较小尺寸的版本。其中,o3-mini预计在1月底可能对外发布,不过届时很可能成为ChatGPT Pro会员的专属模型。

不得不说,这让人对2025年的AI行业进化充满了期待。推理模型、智能体(Agent)、AI硬件、世界模型……每一个方向,都可能比这个处于变革中间的2024年更令人兴奋。2025年,或许才是AI行业真正的星辰大海。

回顾:OpenAI的12天直播马拉松

最后,让我们简单回顾一下这漫长的12天直播,究竟都发布了什么:

  • Day 1:满血版o1上线,ChatGPT Pro会员推出,o1 Pro发布。
  • Day 2:基于o1的强化微调功能。
  • Day 3:Sora正式发布。
  • Day 4:ChatGPT Canvas向全员开放及一些小功能更新。
  • Day 5:为苹果站台,宣传其全系产品接入GPT。
  • Day 6:GPT-4o的实时视频理解功能上线。
  • Day 7:ChatGPT发布“项目”文件夹管理功能。
  • Day 8:ChatGPT Search全量开放,搜索体验大幅优化。
  • Day 9:发布o1的API、更新实时语音API、推出偏好微调能力。
  • Day 10:发布可以物理意义上给ChatGPT“打电话”的功能。
  • Day 11:功能整合,ChatGPT桌面版可读取其他应用内容。
  • Day 12:压轴登场,OpenAI o3正式发布。

平心而论,这12天里,真正称得上惊喜的日子可能只有两三天,其余不少时间内容略显平淡。但幸好,今天o3这颗“大货”的登场,足以驱散之前所有的阴霾。

这场为期12天的直播,像一场漫长的马拉松。我们经历了深夜中数不胜数的等待与平淡时刻,却也终于在终点线前,迎来了最耀眼的高光。这种感觉,还挺“AI”的——在漫长的迭代与积累中,突然迎来一个碘伏性的瞬间。属于AI的新篇章,正在加速展开。

来源:https://www.uisdc.com/openai-o3
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Excel跨工作表求和技巧:快速汇总多个表格数据
AI教程
Excel跨工作表求和技巧:快速汇总多个表格数据

跨多个工作表求和是Excel数据汇总的常见需求。可使用SUM函数直接对特定单元格或区域求和,或利用3D引用快速汇总连续工作表相同位置的数据。面对大量数据或多维分析时,数据透视表能灵活实现汇总与筛选。对于复杂重复任务,可通过VBA宏编写自动化脚本提升效率。

热心网友
05.23
腾讯设计开放平台TopAI打造AIGC学习创作与前沿创意分享社区
AI教程
腾讯设计开放平台TopAI打造AIGC学习创作与前沿创意分享社区

在AI工具爆发式增长的当下,各大科技企业纷纷构建自身生态体系。腾讯推出的设计开放平台——Top AI,正是一个备受瞩目的集成化解决方案。它并非单一应用,而是一个汇聚了多元AI能力的创作中心,其目标清晰:通过人工智能技术,显著提升设计、内容创作及日常办公的整体效率。 腾讯Top AI平台的核心优势有哪

热心网友
05.23
简历工作经历优化技巧 AI助你告别流水账式写法
AI资讯
简历工作经历优化技巧 AI助你告别流水账式写法

简历应避免流水账式经历和空洞评价。工作经历需用“动词+成果+数据”结构突出价值,如具体增长或性能提升数据。自我评价应基于事实,清晰展示核心优势与证明。AI工具可辅助优化结构,但关键数据、业务背景及岗位匹配逻辑需自行把控,核心在于用结果和证据展现个人价值。

热心网友
05.23
PDF英文翻译三种实用方法详解
AI教程
PDF英文翻译三种实用方法详解

翻译PDF英文文档需兼顾效率与质量。全球化背景下,此类需求日益普遍。可采用专业工具辅助翻译,并建立术语库确保一致性。处理时需注意格式保留与术语准确,结合人工校对提升成果质量。根据文档类型选择合适工具,并充分利用外部资源进行核查。

热心网友
05.23
PPT超链接设置技巧轻松提升演示互动性
AI教程
PPT超链接设置技巧轻松提升演示互动性

超链接能显著增强PPT的互动性。通过将文字或图片设置为超链接,可以便捷地跳转到指定网页、文档内的其他幻灯片或预设的电子邮件地址。操作时只需选中对象,插入超链接并选择对应目标即可。合理运用这些技巧能使演示逻辑更清晰,信息传递更高效。

热心网友
05.23

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

加密货币市场全线重挫超160万人爆仓原因与应对策略
web3.0
加密货币市场全线重挫超160万人爆仓原因与应对策略

加密货币市场剧烈震荡,比特币等主流币种价格集体下挫,导致超160万投资者被强制平仓。此次暴跌由宏观紧缩、高杠杆连锁平仓及市场恐慌情绪共同引发,形成下跌与抛售相互强化的恶性循环。建议通过降杠杆、设止损及分散资产组合以应对风险。

热心网友
05.23
币安官网安全登录入口 最新官方网址一键直达注册与交易
web3.0
币安官网安全登录入口 最新官方网址一键直达注册与交易

币安Binance官方APP下载与使用全指南 说起全球领先的加密货币交易平台,币安(Binance)无疑是许多用户的首选。它为用户提供安全、便捷的数字资产交易服务,支持多种主流加密货币,并涵盖了现货交易、合约交易、理财等丰富的金融产品。下面这份指南,将手把手带你完成从下载到开始使用的全过程。 币安B

热心网友
05.23
瑞波币XRP价格跌破3美元后走势分析 未来还会继续下跌吗
web3.0
瑞波币XRP价格跌破3美元后走势分析 未来还会继续下跌吗

目录 要点介绍:XRP走势预警:15%回调或将触发超5亿美元多头仓位面临清算风险 一个关键信号正在浮现:在2 89至2 73美元区间,聚集了超过5亿美元的多头清算资金。这意味着,如果XRP无法重返3美元上方,市场或将面临大规模抛压的考验。 要点介绍: 当前局面相当清晰:若XRP失守3美元这一关键心理

热心网友
05.23
止损单与限价止损单详解:类型区别、使用场景及优缺点全解析
web3.0
止损单与限价止损单详解:类型区别、使用场景及优缺点全解析

止损单与限价止损单是两种重要的交易工具。止损单在价格达到预设水平时自动转为市价单,能有效控制亏损但可能产生滑点。限价止损单则结合了限价单特性,在触发后以限定价格成交,可避免滑点但存在无法成交的风险。两者各有适用场景,投资者需根据市场状况与交易目标合理选择。

热心网友
05.23
2025年币安Binance官网最新入口 官方认证安全访问地址
web3.0
2025年币安Binance官网最新入口 官方认证安全访问地址

本文针对2025年币安官网地址查询需求,提供了三种优化标题方案:直接询问具体操作步骤、回应寻找过程中的常见疑虑,以及采用口语化表达进行可靠引导。用户可根据自身平台特点与目标受众选择适用方案。

热心网友
05.23