大语言模型的能力天花板,又一次被抬高了。这一次,出手的依然是 OpenAI。
北京时间 9 月 13 日午夜,OpenAI 正式发布了一系列全新的 AI 大模型,目标直指解决那些真正棘手的难题。这不仅仅是一次常规更新,而是一个标志性的突破——新模型具备了复杂推理能力,一个通用模型就能够应对此前科学、代码和数学领域中最顶尖模型都无法解决的任务。

这次在 ChatGPT 和大模型 API 中率先亮相的,是该系列的第一款模型,被命名为 o1-preview,目前还只是一个预览版。除了 o1 之外,OpenAI 还展示了正在开发的下一次更新的评估情况。
o1 模型这次创造的历史记录,不止一项。
首先,它正是此前 OpenAI 从山姆·奥特曼到一众科学家们“高调预热”的草莓大模型,核心能力是真正的通用推理。在一系列高难度基准测试中,o1 的表现令人印象深刻,相比 GPT-4o 的提升是巨大的。如果打个比方,大模型的上限从前简直“没法看”,现在直接跃升到了优秀水平——无需专门训练,就能在数学奥赛上摘金,甚至在博士级别的科学问答环节中超越人类专家。

奥特曼本人也表示,尽管 o1 的表现仍有瑕疵,但第一次使用时,你还是会感受到那种震撼。

其次,o1 给大模型“规模扩展 vs 性能”的曲线带来了一次明显的上翘。它在大模型领域重现了当年 AlphaGo 通过强化学习取得的成功——给予的算力越多,输出的智能就越高,直至超越人类水平。从方法论上说,o1 首次证明了语言模型可以进行真正的强化学习。

开发出首个 AI 软件工程师 Devin 的 Cognition AI 透露,过去几周他们一直在与 OpenAI 密切合作,用 Devin 来评估 o1 的推理能力。结果显示,对比 GPT-4o,o1 系列模型在处理代码的智能体系统中,是一次重大进步。

最后落到实际应用中,o1 上线后,ChatGPT 在回答问题前会先“仔细思考”,而不是立即脱口而出。这就像人类大脑的系统 1 和系统 2,ChatGPT 已经从仅使用系统 1(快速、自动、直观、易出错)进化到了能够调用系统 2(缓慢、深思熟虑、有意识、可靠)。这让它能够解决以前无从下手的问题。
从今天 ChatGPT 的用户体验来看,这或许只是向前迈进了一小步——在简单的 Prompt 下,用户可能感受不到太大差异;但一旦抛出棘手的数学或代码问题,区别就立刻显现了。更重要的是,这条道路的未来方向,已经清晰可见。
总而言之,今晚 OpenAI 投下的这颗重磅冲击波,已经让整个 AI 社区为之沸腾,很多人直呼“太强了,睡不着觉”,甚至已经开始连夜研究。接下来,我们就一起来看 OpenAI o1 模型的技术细节。
OpenAI o1 工作原理
在技术博客《Learning to Reason with LLMs》中,OpenAI 对 o1 系列语言模型做了详细的技术介绍。
OpenAI o1 是经过强化学习训练、专门执行复杂推理任务的新型语言模型。其最大的特点在于:o1 在回答之前会“思考”——它会在响应用户之前,先产生一个很长的内部思维链。
也就是说,该模型在作出反应之前,需要像人类一样,花更多时间去琢磨问题。通过训练,它们学会了完善自己的思维过程,尝试不同的策略,并认识到自己的错误。
在 OpenAI 的测试中,该系列后续更新的模型在物理、化学、生物学这些具有挑战性的基准任务上,表现已与博士生不相上下。同时,它在数学和编码方面的能力也非常出色。
一个直观的对比:在国际数学奥林匹克(IMO)资格考试中,GPT-4o 仅正确解答了 13% 的问题,而 o1 模型正确解答了 83% 的问题。在编程能力方面,o1 在 Codeforces 比赛中排名达到了前 89%。
OpenAI 也坦诚地指出,作为早期模型,o1 还不具备 ChatGPT 的许多实用功能,比如浏览网页、上传文件和图片等。
但就复杂推理任务而言,这无疑是一个重大进步,代表了人工智能能力的新水平。正因如此,OpenAI 决定将计数器重置为 1,并将这个新系列命名为 OpenAI o1。
这里的关键在于,OpenAI 的大规模强化学习算法,教会了模型如何在数据高度有效的训练过程中,利用其思想链进行高效思考。这某种程度上,可以类比于强化学习领域的 Scaling Law。
OpenAI 发现,随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1 的性能会持续提升。而且,这种扩展方法的限制与大模型预训练的限制有很大不同,OpenAI 仍在继续探索中。

评估
为了直观展示 o1 相对于 GPT-4o 的推理性能提升,OpenAI 在一系列不同的人类考试和机器学习基准测试中对其进行了评测。实验结果很明确:在绝大多数推理任务中,o1 的表现都明显优于 GPT-4o。

具体来看,o1 在具有挑战性的推理基准上,相比 GPT-4o 的提升相当显著。

在 57 个 MMLU 子类别中,o1 在 54 个上优于 GPT-4o,上图展示了其中 7 个作为示例。
在许多推理密集型的基准测试中,o1 的表现已经能与人类专家相媲美。需要说明的是,由于 GPT-4o 等前沿模型在 MATH 和 GSM8K 上的表现已经非常好,这些基准在区分模型能力方面已不够有效。因此,OpenAI 选择了 AIME 来评估数学能力,这是一项旨在测试美国顶尖高中生的数学竞赛。

在官方演示中,o1-preview 解答了一个非常经典的推理难题:公主的年龄是王子的两倍时,公主的年龄与王子一样大,而公主的年龄是他们现在年龄总和的一半。这个问题的所有解是什么?
在 2024 年 AIME 考试中,GPT-4o 平均只解决了 12%(1.8/15)的问题,而 o1 在单个样本情况下平均达到 74%(11.1/15),64 个样本达成一致时为 83%(12.5/15),使用学习的评分函数对 1000 个样本重新排序后更是达到了 93%(13.9/15)。13.9 分这个成绩,已经可以跻身全美前 500 名,并且高于美国数学奥林匹克竞赛的分数线。
在 GPQA Diamond 基准上,OpenAI 同样进行了评估,这是一个测试化学、物理和生物学专业知识的困难智力基准。为了与人类进行对比,OpenAI 聘请了拥有博士学位的专家来回答同样的题目。
结果令人印象深刻:o1 超越了人类专家的表现,成为第一个在该基准测试中做到这一点的模型。当然,这并不意味着 o1 在所有方面都比博士更强,只是说明它更擅长解决那些博士们应该会解决的问题。在其他几个 ML 基准测试中,o1 也实现了新的 SOTA。
在启用视觉感知能力后,o1 在 MMMU 基准上得分 78.2%,成为第一个与人类专家水平相当的模型。
思维链(CoT)
与人类在面对难题时需要长时间思考类似,o1 在尝试解决问题时也会使用思维链。通过强化学习,o1 学会磨练自己的思维链,并改进所使用的策略。它学会了识别和纠正错误,能够将棘手的步骤分解为更简单的步骤,还能在当前方法行不通时尝试不同的方法。这个过程极大地提升了模型的推理能力。
编程能力
在 o1 的基础上通过进一步训练、专门优化编程技能后,OpenAI 训练出了一个非常强大的编程模型(o1-ioi)。该模型在 2024 年国际信息学奥林匹克竞赛(IOI)赛题上获得了 213 分,达到了前 49% 的水平。而且模型参与竞赛的条件与人类参赛者完全一样:在 10 小时内解答 6 道高难度算法问题,每个问题只能提交 50 次答案。
针对每个问题,这个经过专门训练的 o1 模型会采样大量候选答案,然后基于一个测试时选取策略提交其中 50 个。选取标准包括在 IOI 公共测试案例、模型生成的测试案例上的表现,以及一个学习得到的评分函数的性能。
研究表明,这个策略非常有效。如果直接随机提交一个答案,平均得分仅有 156 分——这意味着在该竞赛条件下,这个策略至少贡献了 60 分。
OpenAI 还发现,如果放宽提交限制,模型性能更是能大幅提升。如果每个问题允许提交 1 万次答案,即使不使用上述测试时选取策略,该模型也能得到 362.14 分——这个分数已经足以拿到金牌了。
最后,OpenAI 还模拟了 Codeforces 举办的竞争性编程竞赛,以展示模型的编码技能。采用的评估规则与竞赛非常接近,允许提交 10 份代码。GPT-4o 的 Elo 评分是 808,在人类选手中处于前 11% 的水平。而 o1 模型远远超过了这一水平——其 Elo 评分高达 1807,表现优于 93% 的竞争对手。

在编程竞赛上进一步微调,使得 o1 的能力再上一个台阶,在 2024 年 IOI 规则下排名达到了前 49%。
下面这个官方示例直观地展示了 o1-preview 的编程能力:只需一段提示词,它就能写出一个完整可运行的游戏。

人类偏好评估
除了考试和学术基准,OpenAI 还在更多领域的、具有挑战性的开放式提示上,评估了人类对 o1-preview 和 GPT-4o 的偏好。
在这次评估中,人类训练者对 o1-preview 和 GPT-4o 的提示进行匿名回答,并投票选出他们更喜欢的回答。在数据分析、编程和数学等推理能力较强的类别中,o1-preview 的受欢迎程度远远高于 GPT-4o。不过,o1-preview 在某些自然语言任务上并不受欢迎,这说明它并不适合所有场景。

安全
思维链推理为安全和对齐工作提供了新的思路。OpenAI 发现,将模型行为策略整合到推理模型的思维链中,可以更高效、更稳健地教导人类价值观和原则。通过向模型教授自己的安全规则以及如何在上下文中推理它们,推理能力直接有利于模型稳健性的提升:o1-preview 在关键越狱评估和用于评估模型安全拒绝边界的最严格内部基准上,都取得了显著的进步。
OpenAI 认为,使用思维链可以为安全和对齐带来重大进步,原因有二:1) 它能够以清晰的方式观察模型的思维过程;2) 关于安全规则的模型推理,对于分布外场景更具稳健性。
为了考验自己的改进成果,OpenAI 在部署前,根据自身的安全准备框架进行了一系列安全测试和红队测试。结果很有趣:思维链推理有助于在整个评估过程中提高能力,同时 OpenAI 也观察到了有趣的奖励黑客攻击实例。

隐藏思维链
OpenAI 认为,隐藏思维链为监控模型提供了独特的机会。假设思维链是忠实且清晰的,那么它就能让我们“读懂”模型的思想,了解其思维过程。例如,将来人们也许可以通过监控思维链,来发现模型是否存在操控用户的迹象。
但前提是,模型必须能够自由地以未改变的形式表达其思想,因此不能在思维链训练上进行任何政策合规性或用户偏好性训练。同时,OpenAI 也不想让用户直接看到不一致的思维链。
因此,在权衡了用户体验、竞争优势和追求思维链监控的选项等多种因素后,OpenAI 决定不向用户展示原始的思维链。他们也承认这个决定有不足之处,因此努力通过教导模型在答案中重现思维链中的任何有用想法来部分弥补。对于 o1 模型系列,OpenAI 展示的是模型生成的思维链摘要。
可以说,o1 显著提升了 AI 推理的最新水平。OpenAI 计划在不断迭代的过程中发布此模型的改进版本,并期望这些新的推理能力将有助于更好地将模型与人类价值观和原则相结合。他们相信,o1 及其后续产品将在科学、编程、数学和相关领域,为 AI 解锁更多新用途。
OpenAI o1-mini
o1 是一个系列模型。这次 OpenAI 还发布了一个 mini 版——OpenAI o1-mini。两者定位不同:“为了给开发者提供更高效的解决方案,我们也发布了 OpenAI o1-mini,这是一个尤其擅长编程的、更快更便宜的推理模型。”总体来看,o1-mini 的成本比 o1-preview 低了 80%。
大型语言模型如 o1,虽然具备广泛的世界知识,但在实际应用中可能成本高昂且速度较慢。相比之下,o1-mini 是一个较小的模型,在预训练期间专门针对 STEM 推理进行了优化。在使用与 o1 相同的高计算强化学习 pipeline 进行训练后,o1-mini 在许多有用的推理任务上实现了与 o1 相媲美的性能,同时成本效率却显著提高。
例如,在需要智能和推理的基准测试中,o1-mini 的表现与 o1-preview 和 o1 相比毫不逊色。但在需要非 STEM 事实知识的任务上,它的表现会相对弱一些。

数学能力:在高中 AIME 数学竞赛中,o1-mini(70.0%)与 o1(74.4%)的成绩不相上下,但价格却便宜得多,并且优于 o1-preview(44.6%)。o1-mini 的得分(约 11/15 题)大约可以排在全美前 500 名高中生之列。
编码能力:在 Codeforces 竞赛网站上,o1-mini 的 Elo 得分为 1650,与 o1(1673)大致相当,高于 o1-preview(1258)。此外,o1-mini 在 HumanEval 编码基准和高中网络安全夺旗挑战(CTF)中也表现出色。

STEM:在一些需要推理的学术基准上,例如 GPQA(科学)和 MATH-500,o1-mini 的表现优于 GPT-4o。但在 MMLU 等任务上,o1-mini 的表现不如 GPT-4o,并且由于缺乏广泛的世界知识,它在 GPQA 基准上落后于 o1-preview。

人类偏好评估:OpenAI 让人类评分员在各个领域具有挑战性的开放式提示上比较 o1-mini 和 GPT-4o。与 o1-preview 类似,在推理密集型领域,o1-mini 更受欢迎;但在以语言为中心的领域,o1-mini 并不比 GPT-4o 更受欢迎。

在速度方面,OpenAI 比较了 GPT-4o、o1-mini 和 o1-preview 对一个单词推理问题的回答。结果显示,GPT-4o 回答错误,而 o1-mini 和 o1-preview 都给出了正确答案,但 o1-mini 得出答案的速度快了大约 3-5 倍。

如何使用 OpenAI o1?
ChatGPT Plus 和 Team 用户现在就可以在 ChatGPT 中开始使用 o1 模型了。你可以手动选择使用 o1-preview 或 o1-mini。不过,目前用户的使用量是有限制的。
每位用户每周只能给 o1-preview 发送 30 条消息,给 o1-mini 发送 50 条消息。
是的,确实很少!不过 OpenAI 表示正在努力提升用户的可使用次数,并计划让 ChatGPT 能够自动针对给定提示词选择使用最合适的模型。

至于企业版和教育版用户,需要等到下周才能开始使用这两个模型。
对于通过 API 访问的用户,OpenAI 表示,达到 5 级 API 使用量的开发者可以即刻开始使用这两个模型进行开发原型,但同样被限速:20 RPM。所谓 5 级 API 使用量,简单来说就是已经消费了 1000 美元以上、并且付费时间超过 1 个月的用户。

需要特别注意的是,对这两个模型的 API 调用目前并不包含函数调用、流式传输、系统支持消息等功能。同样,OpenAI 也表示正在努力提升这些限制。
未来
OpenAI 表示,未来除了模型本身的更新之外,还将逐步增加网页浏览、文件和图片上传等功能,以让这些模型变得更加实用。
“除了新的 o1 系列模型,我们计划继续开发和发布我们的 GPT 系列模型。”
