OpenAI 终于正式公开了 o3-mini 的完整思维链。这一举措本身释放了一个明确信号:曾经被视为核心机密的推理过程,如今不再严格保密。不过,公开归公开,实际效果究竟如何,恐怕还需要打上一个大大的问号。开发者 Mckay Wrigley 率先补了一刀——他担心经过摘要处理的思维链,可能比完全不公开还要糟糕。

但无论如何,既然已经对外发布,免费用户现在也能一睹 o3-mini 的 CoT(思维链)全貌,大家自然纷纷开始上手体验。
o3-mini 思维链首批实测结果
OpenAI 多模态 Agent 的研究员率先展示了自己的玩法——让 o3-mini 挑战井字棋游戏,也就是那个在 3×3 格子中用 O 和 X 连线的经典益智游戏。
输入提示词后,o3-mini 立刻开始了噼里啪啦的推理过程。

这位 OpenAI 员工直言不讳地表示:o3-mini 是第一个能正确完成这个游戏的大模型。不过,他还补充了一句——“虽然 o3-mini 的 CoT 过程有点不太靠谱,但你看右边的图,结尾处它还是搞明白了”。这番话,恐怕得手动配上一个狗头表情。

接下来是一个几乎所有大模型都逃不过的经典测试:数一数 strawberry 里面有几个字母“r”。但网友已经和模型一起“进化”了,他们不再问 strawberry 里到底有几个字母,而是追问——为什么 AI 大模型老是数不对?
仔细观摩 o3-mini 的思考过程,会发现它坦诚地承认:“乍一看,计算 strawberry 中‘r’的数量对人类来说似乎是一件微不足道的小事,但对于许多 AI 语言模型而言,这却可能是一个惊人的挑战。”随后,它从四个不同角度分析和推理了这种现象出现的原因:
8 秒过后,o3-mini 给出了总结:AI 大模型的本质并不是为了精确、分步骤的算法操作而设计的,它们的设计和训练更侧重于根据上下文预测并生成文本,而不是执行精确的算术或系统计数。

当然,o3-mini 也不是万能的。有网友在推特上表示,他试探了 o3 关于私有 CoT 的问题,但听完一番思考推理后,发现还是如听一番思考推理——没有任何实质性进展。
一开始,o3-mini 的推理过程还算有条理,从不同种类的“内心叙事”、可解释性和实用价值等角度进行分析,指出展示完整的 CoT 过程似乎有助于“扎根”社会理解并促进更好的认知实践,但现实情况更为复杂,毕竟 AI 大模型和人类的认知尚未完全对齐。

但随着提问的深入,o3-mini 的思维链开始崩溃——急得网友团团转,中间甚至一度打开 DeepSeek-R1 来帮忙解决。他贴出了整整 12 张截图,显示 o3-mini 思考了半天,最终给出了一个令人心碎的回答。

除此之外,还有网友直接提出质疑:OpenAI 公开的,根本就不是 o3-mini 原始的 CoT 思维链。他列举了证据——同一个问题,o3-mini-high 只生成了 1384 个字符,而 o1-preview 却生成了 16577 个字符。“这只有两种可能:要么是 o3-mini-high 比 o1-preview 高效得多;要么就是 o3-mini 的 CoT 并非原始版本。”

One More Thing
对于上面这位推特网友的猜测,只能说:Bingo!猜中了!
根据 TechCrunch 的消息,OpenAI 发言人已经证实,此次公开的确实不是原始的思维链。并且给出了两个理由:其一,对原始思维链进行后处理,可以消除任何不安全的内容,并简化某些复杂的概念;其二,这样做能使非英语用户获得母语版本的思维链,带来更加友好的使用体验。
这样一来,近期被大量吐槽的 o3-mini 使用中文思考的问题,也就不再存在了。


