首页 游戏 软件 资讯 排行榜 专题
首页
AI教程
OpenAI发布o1模型突破性能力超越人类专家

OpenAI发布o1模型突破性能力超越人类专家

热心网友
70
转载
2026-05-20

OpenAI 发布新旗舰模型GPT-4o!实时交互犹如真人,免费开放

就在深夜,OpenAI 毫无征兆地揭开了其酝酿近半年的新模型面纱。没有预告,没有预热,这款备受瞩目的产品直接登场。

它的正式名称并非此前流传的“草莓”(那只是内部代号),而是被命名为:

为何取名“o1”?OpenAI 的解释是:对于复杂推理任务而言,这是一个意义重大的进步,代表了人工智能能力的新高度。鉴于此,他们决定将计数器重置为1,并将这一系列命名为 OpenAI o1。

这次模型的强悍程度,甚至让 OpenAI 不惜搁置了沿用已久的 GPT 系列命名传统,转而开启一个全新的“o”系列。这足以说明,一场真正的变革已经到来。

毫不夸张地说,OpenAI o1 的发布,标志着 AI 行业正式迈入了一个全新的纪元。那句“我们通往 AGI 的路上,已经没有任何阻碍”,此刻听来,似乎不再遥远。

其逻辑与推理能力的飞跃,通过一组数据对比便能一目了然。

在高水平数学竞赛 AIME 2024 中,GPT-4o 的准确率为 13.4%,而 o1 预览版达到了 56.7%,尚未发布的 o1 正式版更是飙升至 83.3%。在代码竞赛中,GPT-4o 为 11.0%,o1 预览版为 62%,o1 正式版则为 89%。

最令人震撼的是在博士级科学问题基准测试(GPQA Diamond)上:GPT-4o 得分 56.1,人类专家平均水平为 69.7,而 o1 取得了惊人的 78%——全面超越了人类博士专家。这是有史以来首个达成此成就的模型。

这种全面碾压式性能提升的基石,在于“自我对弈强化学习”(Self-play RL)。通过这项技术,o1 学会了打磨其思维链条并优化策略。它能够识别并纠正自己的错误,将复杂问题拆解为简单步骤,并在当前方法无效时尝试其他路径。

本质上,它学会的是人类最核心的思考方式:慢思考。

诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考,快与慢》中详细阐述了这两种模式。快思考(系统1)快速、自动、凭直觉,比如识别表情或做简单计算,这也是过去大模型所擅长的——基于海量数据训练出的快速反应。

而慢思考(系统2)则缓慢、费力、讲逻辑、有意识,比如解复杂数学题、填写税表或做出重大决策。这正是人类智能的精华,也是 AI 通向通用人工智能(AGI)必须跨越的鸿沟。

如今,o1 在这条路上迈出了坚实的一步。它在回答前,会进行反复的思考、拆解、理解和推理,然后才给出最终答案。这种增强的推理能力,在处理科学、编码、数学等领域的复杂问题时,无疑将释放巨大能量。

例如,医疗研究人员可用其注释细胞测序数据,物理学家可用其生成量子光学所需的复杂公式,开发者可用其构建和执行多步骤工作流。o1 本身也将成为一个全新的“数据飞轮”——当答案正确时,其完整的推理链条会转化为高质量的训练数据。以 OpenAI 的用户规模,其进化速度只会越来越快。

目前,o1 模型正逐步向所有 ChatGPT Plus 和 Team 用户开放,未来也考虑向免费用户开放。

它分为两个版本:o1 预览版和 o1-mini。后者更快、更小、更经济,在数学和代码推理上表现不俗,但在世界知识上有所欠缺,适合不需要广泛常识的推理场景。使用限制上,o1 预览版每周 30 条,o1-mini 每周 50 条。从以往“每3小时”的限制变为“每周”限额,侧面印证了该模型的运算成本之高。

对开发者而言,目前仅向已支付1000美元等级的“第5级”开发者开放API,且每分钟限调用20次,功能上也存在一定限制,不过这属于早期阶段的常态。

API 定价方面,o1 预览版为每百万输入 tokens 15美元,每百万输出 tokens 60美元,推理成本显著。

o1-mini 相对便宜,每百万输入 tokens 3美元,输出12美元。

输出成本均为推理成本的4倍。作为对比,GPT-4o 的对应价格是5美元和15美元。

o1-mini 已初具经济性,但市场显然在期待 OpenAI 后续的“降价大招”。

那么,实际体验如何?拿到权限后,第一时间进行了测试。目前模型功能较为“纯净”,不支持图像理解、生成、代码解释器或联网搜索,仅为一个对话裸模型。

首先是一个经典逻辑题:“农夫需要把狼、羊和白菜带过河,每次只能带一样,且狼和羊、羊和白菜不能单独相处,问如何过河。”

模型思考约6秒后,给出了完美解答。

接着是曾难倒众多大模型的“中国调休问题”:“2024年9月9日(周一)至10月13日的安排为:上6休3上3休2上5休1上2休7再上5休1。问除正常周末外,因放假多休了几天?”

o1 沉思了整整30秒,最终给出了精确无误的答案。

最后,祭出一道曾出现在数学竞赛中的难题(原题涉及专业符号,此处不赘述):

这道题曾让此前所有主流模型折戟。让 o1 尝试后:

经过一分钟以上的漫长思考,它给出了答案。

完全正确。

这带来一个有趣的启示:提示词工程可能面临重塑。在 GPT 为代表的“快思考”模型时代,我们惯用的“逐步思考”等技巧,对 o1 不仅无效,甚至可能产生负面影响。OpenAI 官方建议是:保持提示简洁直接;避免思维链提示;使用分隔符提高清晰度;在检索增强生成中限制附加上下文,仅提供最相关信息。

最后,值得深思的是“思考时长”的意义。目前 o1 思考一分钟已令人惊叹,但试想,若未来的 AGI 为证明一个数学定理、研发一款抗癌药物或解析天体物理难题,而进行长达数小时、数日甚至数周的“思考”呢?其结果或许将碘伏所有人的认知。

o1 的未来,绝不仅仅是一个更强大的聊天机器人。它更像一块基石,为我们通往下一个时代铺平了道路。那句“通往 AGI 的路上已无阻碍”,如今看来,正从一个愿景加速照进现实。

一个星光熠熠的新时代,或许就在今天,拉开了序幕。

来源:https://www.uisdc.com/openai-o1
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

海能达亮相CCA 2026以AI赋能关键通信携手伙伴探索智能路径
业界动态
海能达亮相CCA 2026以AI赋能关键通信携手伙伴探索智能路径

4月底,香港迎来全球专用通信行业盛会——Critical Communications World Asia 2026(CCA 2026)。作为全球关键通信领域的领军企业,海能达不仅展示了其旗舰终端与前沿行业解决方案,更深入分享了在人工智能时代下,关键通信智能化发展的核心洞察与未来路径。展会现场思想

热心网友
05.19
AI项目为何难以驱动业务增长十大试点困境解析
AI资讯
AI项目为何难以驱动业务增长十大试点困境解析

面对董事会日益增长的期待,许多企业正陷入一种“AI战略表演”的困境:各类试点项目不断涌现,汇报材料持续更新,但始终难以转化为清晰可衡量的商业成果。问题的根源往往不在于技术瓶颈,而在于业务流程未能重塑、数据基础尚未就绪、治理体系存在缺失,以及对技术供应商的过度依赖。 每隔一段时间,企业首席信息官(CI

热心网友
05.19
豆包AI股票价格监控机器人设置教程
AI资讯
豆包AI股票价格监控机器人设置教程

豆包AI虽不能直接盯盘,但可通过智能体、生活管家与外部工具组合实现价格监控。核心是将实时监控拆解为条件识别、定时触发和通知推送。具体方法包括:创建条件解析智能体并绑定日程、设置每日定时检查分析行情、利用桌面组件预设监控项快速响应,以及借助任务提醒接收第三方脚本预。

热心网友
05.19
全球AI普及率报告:26国使用率突破30%
AI资讯
全球AI普及率报告:26国使用率突破30%

近期,微软人工智能经济研究所发布了2026年第一季度全球生成式AI应用扩散研究报告。数据显示,全球劳动适龄人口中使用生成式AI工具的比例已从16 3%上升至17 8%,增幅达1 5个百分点。报告指出,在AI普及率较高的经济体中,用户的使用深度与频率也在同步提升。目前,全球已有26个经济体的劳动适龄人

热心网友
05.19
SUI、ENA与IMX代币本周解锁详情及市场影响分析
web3.0
SUI、ENA与IMX代币本周解锁详情及市场影响分析

市场聚焦:新一轮代币解锁潮即将到来 对于加密市场而言,代币解锁向来是一个需要高度关注的节点。这不,根据Token Unlocks的最新数据,未来一周又将迎来一波密集的解锁事件。具体来看,以下几个项目的代币释放值得投资者留意(以下时间均为北京时间)。 Sui (SUI):解锁规模最大 打头阵的是Sui

热心网友
05.19

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

苹果50周年总部庆典音乐会盛大举行
iphone
苹果50周年总部庆典音乐会盛大举行

为庆祝成立50周年,苹果在全球多地门店举办系列庆祝活动。最盛大的庆典在其总部ApplePark举行,员工齐聚草坪,传奇音乐人保罗·麦卡特尼登台献唱,首席执行官蒂姆·库克也参与其中。这场科技与艺术交融的盛会,既是对过往传奇的致敬,也寓意着新篇章的开启。

热心网友
05.20
苹果公司成立50周年库克内部信回顾从车库到25亿台销量历程
iphone
苹果公司成立50周年库克内部信回顾从车库到25亿台销量历程

苹果公司成立五十周年之际,首席执行官蒂姆·库克发布内部信回顾历程。信中指出,公司从车库中的一台原型机起步,如今全球活跃设备已达25亿台。库克强调,未来需主动创造而非等待,并鼓励员工铭记创新精神,共同把握机遇,开创下一个五十年。

热心网友
05.20
库克揭秘iPod爆红背后 苹果如何打造世界级供应链体系
iphone
库克揭秘iPod爆红背后 苹果如何打造世界级供应链体系

苹果CEO库克在专访中回顾了iPod的诞生历程。该产品以口袋装千首歌的能力革新了音乐消费方式。其爆红要求苹果在三个月内生产约1500万台,这极大考验了供应链。此次极限压力测试为苹果锻造出世界级供应链能力奠定了基础。库克还透露,首台原型机播放的第一首歌是《HeyJude》。

热心网友
05.20
段永平清仓阿里加仓英伟达拼多多 罕见布局Web3投资Circle
web3.0
段永平清仓阿里加仓英伟达拼多多 罕见布局Web3投资Circle

知名投资人段永平家族办公室持仓市值升至约200亿美元。本季度清仓阿里,减持苹果、台积电;重仓AI与电动车赛道,大幅增持英伟达并新建仓特斯拉,拼多多获增持。其首次跨足Web3领域,建仓稳定币发行商Circle,显示对合规区块链基础设施的关注。

热心网友
05.20
Mac放大镜功能开启指南 轻松看清屏幕细节
系统平台
Mac放大镜功能开启指南 轻松看清屏幕细节

Mac内置的“缩放”辅助功能可放大屏幕细节。通过系统设置开启该功能后,可选择画中画或全屏模式。用户可使用修饰键配合触控板手势、快捷键组合、双击Control+Option或鼠标智能缩放等多种方式灵活操作,满足不同场景下的查看需求。

热心网友
05.20