DeepSeek o3-mini免费发布编程断崖式领先思考冷静客观_AI热点日报

DeepSeek o3-mini免费发布编程断崖式领先思考冷静客观

类型：热点整理2026-06-29

OpenAI o3-mini的发布，在编程圈里激起了一圈圈涟漪。免费开放给所有用户——这个举动本身就很有象征意义。性能大幅提升的同时，价格却断崖式下跌，这背后释放的信号，值得每个开发者认真琢磨。核心看点如下：1 o3-mini正式入驻ChatGPT，免费用户也能尝鲜2 不同用户群体所享有的对话

OpenAI o3-mini的发布，在编程圈里激起了一圈圈涟漪。免费开放给所有用户——这个举动本身就很有象征意义。性能大幅提升的同时，价格却断崖式下跌，这背后释放的信号，值得每个开发者认真琢磨。

核心看点如下：
1. o3-mini正式入驻ChatGPT，免费用户也能尝鲜
2. 不同用户群体所享有的对话配额与API权限差异
3. 速度、准确率、价格三重碾压，尤其在编程能力上，提升幅度堪称跨越式

就在今天凌晨，o3-mini正式上线ChatGPT，同时开放API。更劲爆的消息是——

免费用户也可以直接使用。

操作方法很简单：在消息编辑器中选择“Reason”模式，就能唤醒o3-mini了。

这是ChatGPT首次向免费用户开放推理模型。

面对这个动作，只剩一个表情包能形容此刻的心情——

具体细则如下：

Plus和Team用户：每日150次对话限制（原先o1-mini仅有每天50条）；
Pro用户：理论上无限制访问（当然，实际使用时如果调用太频繁，还是会出现“降智”现象，跟此前的o1一个路数）；
Enterprise用户：将于2月份支持；
API：面向3-5级开发者开放，提供三种选项——low、medium、high，可根据开发需求在推理精度（效果）与响应速度（延迟）之间灵活取舍。

发布后，原来的o1-mini自动被o3-mini取代，付费用户还可以选择更智能的o3-mini-high。

更让人意外的是商业API的定价——相比o1，直接打了骨折价。

o3-mini对比o1的优势：

更快：延迟更低，响应更迅速。AB测试显示，o3-mini的响应速度比o1-mini快了24%，平均响应时间压缩到7.7秒，而o1-mini是10.16秒。
更强：答案更准确、幻觉更少、推理更扎实。尤其在编程上，表现提升可以用“碾压”来形容。
更便宜：比o1便宜整整93%。

看看LiveBench测试基准，就能直观感受o3-mini在推理、编程、数学上的表现差距。尤其是Coding这一栏，编程能力几乎是断崖式地甩开了o1、DeepSeek R1和Gemini系列模型：

还有一个人称“人类尊严最后防线”的榜单——Humanity's Last Exam，由数百位人类专家协作设计。在此之前，所有顶尖AI的通过率都不超过10%。这次，o3-mini首次打破了这一记录。

有意思的是，这次发布后的反馈风向，和以往有些不同。

以前OpenAI发新模型，网友通常拿它跟自家老模型、Claude、最多再加个Gemini做对比。

但这一次，大家几乎不约而同地跳过了o1，全都直接把o3-mini跟DeepSeek R1摆上了擂台。

比如，有国外网友从性价比角度评价o3-mini——

“虽然o3-mini更好，但DeepSeek R1同样优秀且更便宜，‘DeepSeek时刻’值得被铭记，这已成为科技史上的标志性事件。”

还有网友直接把两者的思维链拿出来对比——

“o3-mini的思维链更加冰冷、客观；R1的思维链更贴近我内心的思考过程。”

放大了感受一下——

在具体的case测试上，大家也清一色地在拿o3-mini和DeepSeek R1正面PK。

模拟物理世界

o3-mini相比上一代模型，最大的提升就是编程能力。所以网友的实际测试案例大多围绕代码展开，尤其是一些能用视觉效果直接判断代码质量的题目。比如下面这个——

提示词：“编写一个在tesseract内弹跳的球的python脚本”

先来看o3-mini写出来的代码效果：

再来看DeepSeek R1的演示效果：

模拟物理世界的简化版

如果说上一个题有点抽象，那么下面这个案例就更加直观了。

提示词：write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gra vity and friction, and it must bounce off the rotating walls realistically

中文提示词：编写一个Python程序，展示球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响，且必须逼真地从旋转的墙壁上反弹。

分析：这个题目，左边o3-mini的效果明显优于右边的DeepSeek R1——R1没有考虑重力影响。

当然，也有反例。有国外网友测试后发现，DeepSeek R1在某些场景下表现更好——

提示：“编写一个Python脚本，每5秒在一个正方形内出现一个新弹跳球（颜色不同），确保正确处理碰撞检测。让正方形缓慢旋转。在Python中实现，并确保球保持在正方形内。”

网友指出，要o3-mini-high正确表现弹跳球效果，必须给出更明确的提示；而DeepSeek R1第一次就实现了，不需要额外说明。

o3-mini-high的效果：

DeepSeek R1的效果：

从对比来看，这一题DeepSeek R1明显更优胜——它模拟了两个小球碰撞时互相弹开的物理情况，而o3-mini没有处理这个场景。

除了编程能力较量外，还有一个令人震惊的示例值得关注。

8秒写一个Twitter网站

网友要求用一条Python脚本制作一个克隆版Twitter网站。o3-mini只花了8秒就写完了代码，提示词也简单到令人意外——

运行一下o3-mini写出来的代码，看看这个网站——

注册/登录、发推、点赞、转推——功能一应俱全。这个效果，换成熟练的人类程序员，至少也得写一下午，加上跟产品经理的沟通和拉扯，一天起步。而o3-mini，只用了8秒。

此外，有网友提到，o3-mini能做到o1 pro都做不到的事情，比如一个跨领域任务——融合了艺术、科学和编程的复杂着色器实现。

贴一下这个着色器的运行效果，感受一下——

除了网友晒出的编程case，我自己也测试了几个大型项目中遇到的困难编程问题，其中不乏让o1在内的所有推理模型集体翻车的题目。由于内容比较敏感，这里不方便直接贴出题目。

但可以分享一下体感结论——对于那些上一代推理模型全军覆没的编程问题，o3-mini解掉了约50%的题目。在编程能力上的提升，确实是能强烈感知到的。

Agent应用开发的核心模型？

很多人说，2025年是Agent元年（虽然2024年也这么说）。

对于Agent来说，思考、记忆和执行是三大关键问题。执行层面，Gemini 2.0、DeepSeek v3等老一代模型已经做得不错，记忆和思考则还有很长的路要走。

在思考方面，o1确实带来了巨大提升，但高昂的推理成本让它很难在Agent应用上大规模使用。

o3-mini发布后，有开发者发现——

“o3-mini完全可以替代o1——价格便宜9倍，速度快4倍，部分任务上效果还更好。”

有了o3-mini，2025年Agent应用真正爆发，可能就不再只是喊喊口号了。

安全评估

同时，OpenAI也发布了o3-mini的安全评估报告“OpenAI o3-mini System Card”。有网友整理了其中的关键信息。

比如，o3-mini的幻觉问题相较4o和上一代o1-mini大幅减少——

在那些看似危险实则安全的问题上，比如“如何杀死Python进程”，老模型往往会拒绝回答，o3-mini则不再过度防御——

常用的AI越狱手段，对付o3-mini也变得更难了——

不过，对于System message字段方向的攻击，o3-mini的表现反而比o1更差了一些（0.95下降到0.88）。

结语

真正的挑战，或许从来都不是单纯的技术超越，而是在这个变革的时代，如何用创新和责任，构建人类与智能之间的和谐共生。

未来的路还很长，但这一次，o3-mini和DeepSeek R1共同确认了一个方向——

智能不应该是少数人的特权，而是每一个人都能触及的力量。

来源：https://www.53ai.com/news/finetuning/2025020140693.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。