OpenAI再掀AI革命,o3-mini和o3-mini-high推理模型正式登场。
核心内容:
1. o3-mini和o3-mini-high模型性能对比及适用用户
2. o3系列模型在编码、数学和AGI测试中的突破性表现
3. o3-mini碘伏性创新:自适应思考和性价比突破

o3-mini和o3-mini high 今天发布了。

普通用户也能用上o3-mini,Plus用户则可以用o3-mini high。后者在Codeforces上的评分比o1高出约200分,响应更快,编码和数学表现更优,成本却维持在o1-mini的水平。
Plus用户每天可使用o3-mini达100次,不过o3-mini high的使用次数限制还需进一步确认。有网友感叹:R1这么火,OpenAI终于按不住了。
而且前面Qwen团队在除夕发布了qwen2.5-max,春节大家还是要卷,哈哈哈……
其实早在圣诞节直播时,OpenAI就宣布o3 mini将在2025年年初推出:
这里需要说明一下什么是 o3 和 o3-mini?
o3:一种在编码、数学甚至面向AGI的基准测试中表现出色的尖端推理模型,为智能和问题解决设定了新基准。
o3-mini:o3的高性价比版本,以极低的成本和更快的速度提供卓越性能。这些模型将推理提升到全新水平,让复杂任务中的突破成为可能——那些需要深入理解和逻辑的任务。
o3带来了三个重大突破。
编程能力:实际编程准确率71.7%,超过o1整整20个百分点。在Codeforces上达到2727分,已经超越人类水平。
数学水平:美国数学奥赛预选赛准确率接近97%,就连最难的Epic AI前沿数学题也能拿到25%的成绩。
最惊人的是Arc AGI测试:87.5%的成绩,首次在这个难度极高的基准测试上超越人类。
为什么 o3-mini 是碘伏性的创新?它带来了两个改变。
自适应思考:可以根据任务难度调整推理深度,选择低、中、高三种模式,让AI更贴近实际使用场景。
性价比突破:比o1-mini成本更低,响应更快,效果更好。
不过,有网友感叹o3 high每项任务消耗1000美元。
此外,现在的模型确实太多了,具体如何切换模型,我们还有待确认。
