OpenAI发布o1模型突破性能力超越人类专家

时间：2026-05-20 15:08

OpenAI 发布新旗舰模型GPT-4o！实时交互犹如真人，免费开放就在深夜，OpenAI 毫无征兆地揭开了其酝酿近半年的新模型面纱。没有预告，没有预热，这款备受瞩目的产品直接登场。它的正式名称并非此前流传的“草莓”（那只是内部代号），而是被命名为：为何取名“o1”？OpenAI 的解释是：对

OpenAI 发布新旗舰模型GPT-4o！实时交互犹如真人，免费开放

就在深夜，OpenAI 毫无征兆地揭开了其酝酿近半年的新模型面纱。没有预告，没有预热，这款备受瞩目的产品直接登场。

它的正式名称并非此前流传的“草莓”（那只是内部代号），而是被命名为：

为何取名“o1”？OpenAI 的解释是：对于复杂推理任务而言，这是一个意义重大的进步，代表了人工智能能力的新高度。鉴于此，他们决定将计数器重置为1，并将这一系列命名为 OpenAI o1。

这次模型的强悍程度，甚至让 OpenAI 不惜搁置了沿用已久的 GPT 系列命名传统，转而开启一个全新的“o”系列。这足以说明，一场真正的变革已经到来。

毫不夸张地说，OpenAI o1 的发布，标志着 AI 行业正式迈入了一个全新的纪元。那句“我们通往 AGI 的路上，已经没有任何阻碍”，此刻听来，似乎不再遥远。

其逻辑与推理能力的飞跃，通过一组数据对比便能一目了然。

在高水平数学竞赛 AIME 2024 中，GPT-4o 的准确率为 13.4%，而 o1 预览版达到了 56.7%，尚未发布的 o1 正式版更是飙升至 83.3%。在代码竞赛中，GPT-4o 为 11.0%，o1 预览版为 62%，o1 正式版则为 89%。

最令人震撼的是在博士级科学问题基准测试（GPQA Diamond）上：GPT-4o 得分 56.1，人类专家平均水平为 69.7，而 o1 取得了惊人的 78%——全面超越了人类博士专家。这是有史以来首个达成此成就的模型。

这种全面碾压式性能提升的基石，在于“自我对弈强化学习”（Self-play RL）。通过这项技术，o1 学会了打磨其思维链条并优化策略。它能够识别并纠正自己的错误，将复杂问题拆解为简单步骤，并在当前方法无效时尝试其他路径。

本质上，它学会的是人类最核心的思考方式：慢思考。

诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考，快与慢》中详细阐述了这两种模式。快思考（系统1）快速、自动、凭直觉，比如识别表情或做简单计算，这也是过去大模型所擅长的——基于海量数据训练出的快速反应。

而慢思考（系统2）则缓慢、费力、讲逻辑、有意识，比如解复杂数学题、填写税表或做出重大决策。这正是人类智能的精华，也是 AI 通向通用人工智能（AGI）必须跨越的鸿沟。

如今，o1 在这条路上迈出了坚实的一步。它在回答前，会进行反复的思考、拆解、理解和推理，然后才给出最终答案。这种增强的推理能力，在处理科学、编码、数学等领域的复杂问题时，无疑将释放巨大能量。

例如，医疗研究人员可用其注释细胞测序数据，物理学家可用其生成量子光学所需的复杂公式，开发者可用其构建和执行多步骤工作流。o1 本身也将成为一个全新的“数据飞轮”——当答案正确时，其完整的推理链条会转化为高质量的训练数据。以 OpenAI 的用户规模，其进化速度只会越来越快。

目前，o1 模型正逐步向所有 ChatGPT Plus 和 Team 用户开放，未来也考虑向免费用户开放。

它分为两个版本：o1 预览版和 o1-mini。后者更快、更小、更经济，在数学和代码推理上表现不俗，但在世界知识上有所欠缺，适合不需要广泛常识的推理场景。使用限制上，o1 预览版每周 30 条，o1-mini 每周 50 条。从以往“每3小时”的限制变为“每周”限额，侧面印证了该模型的运算成本之高。

对开发者而言，目前仅向已支付1000美元等级的“第5级”开发者开放API，且每分钟限调用20次，功能上也存在一定限制，不过这属于早期阶段的常态。

API 定价方面，o1 预览版为每百万输入 tokens 15美元，每百万输出 tokens 60美元，推理成本显著。

o1-mini 相对便宜，每百万输入 tokens 3美元，输出12美元。

输出成本均为推理成本的4倍。作为对比，GPT-4o 的对应价格是5美元和15美元。

o1-mini 已初具经济性，但市场显然在期待 OpenAI 后续的“降价大招”。

那么，实际体验如何？拿到权限后，第一时间进行了测试。目前模型功能较为“纯净”，不支持图像理解、生成、代码解释器或联网搜索，仅为一个对话裸模型。

首先是一个经典逻辑题：“农夫需要把狼、羊和白菜带过河，每次只能带一样，且狼和羊、羊和白菜不能单独相处，问如何过河。”

模型思考约6秒后，给出了完美解答。

接着是曾难倒众多大模型的“中国调休问题”：“2024年9月9日（周一）至10月13日的安排为：上6休3上3休2上5休1上2休7再上5休1。问除正常周末外，因放假多休了几天？”

o1 沉思了整整30秒，最终给出了精确无误的答案。

最后，祭出一道曾出现在数学竞赛中的难题（原题涉及专业符号，此处不赘述）：

这道题曾让此前所有主流模型折戟。让 o1 尝试后：

经过一分钟以上的漫长思考，它给出了答案。

完全正确。

这带来一个有趣的启示：提示词工程可能面临重塑。在 GPT 为代表的“快思考”模型时代，我们惯用的“逐步思考”等技巧，对 o1 不仅无效，甚至可能产生负面影响。OpenAI 官方建议是：保持提示简洁直接；避免思维链提示；使用分隔符提高清晰度；在检索增强生成中限制附加上下文，仅提供最相关信息。

最后，值得深思的是“思考时长”的意义。目前 o1 思考一分钟已令人惊叹，但试想，若未来的 AGI 为证明一个数学定理、研发一款抗癌药物或解析天体物理难题，而进行长达数小时、数日甚至数周的“思考”呢？其结果或许将碘伏所有人的认知。

o1 的未来，绝不仅仅是一个更强大的聊天机器人。它更像一块基石，为我们通往下一个时代铺平了道路。那句“通往 AGI 的路上已无阻碍”，如今看来，正从一个愿景加速照进现实。

一个星光熠熠的新时代，或许就在今天，拉开了序幕。

来源：https://www.uisdc.com/openai-o1

上一篇OpenAI API开发指南从入门到精通打造智能应用 下一篇Midjourney风格代码28条快速掌握高级感画面创作

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-03

批处理BAT入门教程第一篇

提供13个批处理实战技巧，覆盖全盘查找并删除文件夹或文件、拷贝移动文件、创建畸形文件夹及设置隐藏属性等场景，可一键完成系统维护与文件管理工作，极大提升自动化操作效率和便捷性。

AI教程 · 2026-07-03

从零开始批处理命令For循环详解与实战案例

批处理For命令支持 d、 l、 r、 f四个参数。 d仅列出当前目录下的目录名； r递归搜索指定路径及其子目录中的文件； l生成数值序列； f可解析文件、字符串或命令输出，通过delims、tokens、skip、eol等选项灵活处理内容。

AI教程 · 2026-07-03

批评你的人是你生命中的贵人

批评你的人往往最值得珍惜，因为他们关注你、助你成长。面对批评应包容反思，用行动改进而非辩解。接受批评是自我完善的过程，能让人少走弯路，避免重复犯错。这样的人正是生命中的贵人，值得感恩与珍惜。

AI教程 · 2026-07-03

测试人员角色定位与职责详解

测试人员角色经历了从找问题、保证质量到分析风险的转变，最终核心职责是提供关键信息，协助团队创造优秀产品。这包括识别问题、评估风险及帮助团队了解项目状态，而非单纯把关或追求完美。

AI教程 · 2026-07-03

经营成功测试生涯的实用方法与策略

一、测试生涯的起点 1989年，我在田纳西大学攻读研究生时，意外地从软件开发人员转行成为一名软件测试工程师。这并非我主动选择，说起来还有些戏剧性——某个早晨，教授质问我为何缺席那么多开发会议，我解释说这些会议总是安排在周末早上，对我这个第一次离家、刚入学的学生来说实在不便。结果呢？等待我的不是解聘通