游乐游手机版
首页/AI教程/文章详情

OpenAI发布o1模型突破性能力超越人类专家

时间:2026-05-20 15:08
OpenAI 发布新旗舰模型GPT-4o!实时交互犹如真人,免费开放 就在深夜,OpenAI 毫无征兆地揭开了其酝酿近半年的新模型面纱。没有预告,没有预热,这款备受瞩目的产品直接登场。 它的正式名称并非此前流传的“草莓”(那只是内部代号),而是被命名为: 为何取名“o1”?OpenAI 的解释是:对

OpenAI 发布新旗舰模型GPT-4o!实时交互犹如真人,免费开放

就在深夜,OpenAI 毫无征兆地揭开了其酝酿近半年的新模型面纱。没有预告,没有预热,这款备受瞩目的产品直接登场。

它的正式名称并非此前流传的“草莓”(那只是内部代号),而是被命名为:

为何取名“o1”?OpenAI 的解释是:对于复杂推理任务而言,这是一个意义重大的进步,代表了人工智能能力的新高度。鉴于此,他们决定将计数器重置为1,并将这一系列命名为 OpenAI o1。

这次模型的强悍程度,甚至让 OpenAI 不惜搁置了沿用已久的 GPT 系列命名传统,转而开启一个全新的“o”系列。这足以说明,一场真正的变革已经到来。

毫不夸张地说,OpenAI o1 的发布,标志着 AI 行业正式迈入了一个全新的纪元。那句“我们通往 AGI 的路上,已经没有任何阻碍”,此刻听来,似乎不再遥远。

其逻辑与推理能力的飞跃,通过一组数据对比便能一目了然。

在高水平数学竞赛 AIME 2024 中,GPT-4o 的准确率为 13.4%,而 o1 预览版达到了 56.7%,尚未发布的 o1 正式版更是飙升至 83.3%。在代码竞赛中,GPT-4o 为 11.0%,o1 预览版为 62%,o1 正式版则为 89%。

最令人震撼的是在博士级科学问题基准测试(GPQA Diamond)上:GPT-4o 得分 56.1,人类专家平均水平为 69.7,而 o1 取得了惊人的 78%——全面超越了人类博士专家。这是有史以来首个达成此成就的模型。

这种全面碾压式性能提升的基石,在于“自我对弈强化学习”(Self-play RL)。通过这项技术,o1 学会了打磨其思维链条并优化策略。它能够识别并纠正自己的错误,将复杂问题拆解为简单步骤,并在当前方法无效时尝试其他路径。

本质上,它学会的是人类最核心的思考方式:慢思考。

诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考,快与慢》中详细阐述了这两种模式。快思考(系统1)快速、自动、凭直觉,比如识别表情或做简单计算,这也是过去大模型所擅长的——基于海量数据训练出的快速反应。

而慢思考(系统2)则缓慢、费力、讲逻辑、有意识,比如解复杂数学题、填写税表或做出重大决策。这正是人类智能的精华,也是 AI 通向通用人工智能(AGI)必须跨越的鸿沟。

如今,o1 在这条路上迈出了坚实的一步。它在回答前,会进行反复的思考、拆解、理解和推理,然后才给出最终答案。这种增强的推理能力,在处理科学、编码、数学等领域的复杂问题时,无疑将释放巨大能量。

例如,医疗研究人员可用其注释细胞测序数据,物理学家可用其生成量子光学所需的复杂公式,开发者可用其构建和执行多步骤工作流。o1 本身也将成为一个全新的“数据飞轮”——当答案正确时,其完整的推理链条会转化为高质量的训练数据。以 OpenAI 的用户规模,其进化速度只会越来越快。

目前,o1 模型正逐步向所有 ChatGPT Plus 和 Team 用户开放,未来也考虑向免费用户开放。

它分为两个版本:o1 预览版和 o1-mini。后者更快、更小、更经济,在数学和代码推理上表现不俗,但在世界知识上有所欠缺,适合不需要广泛常识的推理场景。使用限制上,o1 预览版每周 30 条,o1-mini 每周 50 条。从以往“每3小时”的限制变为“每周”限额,侧面印证了该模型的运算成本之高。

对开发者而言,目前仅向已支付1000美元等级的“第5级”开发者开放API,且每分钟限调用20次,功能上也存在一定限制,不过这属于早期阶段的常态。

API 定价方面,o1 预览版为每百万输入 tokens 15美元,每百万输出 tokens 60美元,推理成本显著。

o1-mini 相对便宜,每百万输入 tokens 3美元,输出12美元。

输出成本均为推理成本的4倍。作为对比,GPT-4o 的对应价格是5美元和15美元。

o1-mini 已初具经济性,但市场显然在期待 OpenAI 后续的“降价大招”。

那么,实际体验如何?拿到权限后,第一时间进行了测试。目前模型功能较为“纯净”,不支持图像理解、生成、代码解释器或联网搜索,仅为一个对话裸模型。

首先是一个经典逻辑题:“农夫需要把狼、羊和白菜带过河,每次只能带一样,且狼和羊、羊和白菜不能单独相处,问如何过河。”

模型思考约6秒后,给出了完美解答。

接着是曾难倒众多大模型的“中国调休问题”:“2024年9月9日(周一)至10月13日的安排为:上6休3上3休2上5休1上2休7再上5休1。问除正常周末外,因放假多休了几天?”

o1 沉思了整整30秒,最终给出了精确无误的答案。

最后,祭出一道曾出现在数学竞赛中的难题(原题涉及专业符号,此处不赘述):

这道题曾让此前所有主流模型折戟。让 o1 尝试后:

经过一分钟以上的漫长思考,它给出了答案。

完全正确。

这带来一个有趣的启示:提示词工程可能面临重塑。在 GPT 为代表的“快思考”模型时代,我们惯用的“逐步思考”等技巧,对 o1 不仅无效,甚至可能产生负面影响。OpenAI 官方建议是:保持提示简洁直接;避免思维链提示;使用分隔符提高清晰度;在检索增强生成中限制附加上下文,仅提供最相关信息。

最后,值得深思的是“思考时长”的意义。目前 o1 思考一分钟已令人惊叹,但试想,若未来的 AGI 为证明一个数学定理、研发一款抗癌药物或解析天体物理难题,而进行长达数小时、数日甚至数周的“思考”呢?其结果或许将碘伏所有人的认知。

o1 的未来,绝不仅仅是一个更强大的聊天机器人。它更像一块基石,为我们通往下一个时代铺平了道路。那句“通往 AGI 的路上已无阻碍”,如今看来,正从一个愿景加速照进现实。

一个星光熠熠的新时代,或许就在今天,拉开了序幕。

来源:https://www.uisdc.com/openai-o1
上一篇OpenAI API开发指南 从入门到精通打造智能应用 下一篇Midjourney风格代码28条 快速掌握高级感画面创作
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
批处理BAT入门教程第一篇
AI教程 · 2026-07-03

批处理BAT入门教程第一篇

提供13个批处理实战技巧,覆盖全盘查找并删除文件夹或文件、拷贝移动文件、创建畸形文件夹及设置隐藏属性等场景,可一键完成系统维护与文件管理工作,极大提升自动化操作效率和便捷性。

从零开始批处理命令For循环详解与实战案例
AI教程 · 2026-07-03

从零开始批处理命令For循环详解与实战案例

批处理For命令支持 d、 l、 r、 f四个参数。 d仅列出当前目录下的目录名; r递归搜索指定路径及其子目录中的文件; l生成数值序列; f可解析文件、字符串或命令输出,通过delims、tokens、skip、eol等选项灵活处理内容。

批评你的人是你生命中的贵人
AI教程 · 2026-07-03

批评你的人是你生命中的贵人

批评你的人往往最值得珍惜,因为他们关注你、助你成长。面对批评应包容反思,用行动改进而非辩解。接受批评是自我完善的过程,能让人少走弯路,避免重复犯错。这样的人正是生命中的贵人,值得感恩与珍惜。

测试人员角色定位与职责详解
AI教程 · 2026-07-03

测试人员角色定位与职责详解

测试人员角色经历了从找问题、保证质量到分析风险的转变,最终核心职责是提供关键信息,协助团队创造优秀产品。这包括识别问题、评估风险及帮助团队了解项目状态,而非单纯把关或追求完美。

经营成功测试生涯的实用方法与策略
AI教程 · 2026-07-03

经营成功测试生涯的实用方法与策略

一、测试生涯的起点 1989年,我在田纳西大学攻读研究生时,意外地从软件开发人员转行成为一名软件测试工程师。这并非我主动选择,说起来还有些戏剧性——某个早晨,教授质问我为何缺席那么多开发会议,我解释说这些会议总是安排在周末早上,对我这个第一次离家、刚入学的学生来说实在不便。结果呢?等待我的不是解聘通