OpenAI首场直播o1满血版上线月费1450元_游乐游手机版

首页/AI教程/文章详情

OpenAI首场直播o1满血版上线月费1450元

时间：2026-07-01 16:20

OpenAI发布满血版o1模型，响应速度比预览版快百分之六十，推理重大错误减少百分之三十四，新增视觉推理能力。专业版订阅费二百美元每月。安全性提升，思维链中隐瞒数据比例从百分之二十六降至百分之十九。

先看几个核心表现：满血版o1完成作答只用了14秒，而o1-preview花了33秒。加上团队内部多轮离线测试，结论很明确——满血版o1的平均响应速度比o1-preview快了60%。

更关键的是，通过一整套人类评估，OpenAI发现满血版o1在推理时犯重大错误的频率比o1-preview少了34%。

满血o1的另一个重头戏是多模态输入——它具备了视觉推理能力。团队在现场演示了这个功能。

操作方式很直接：拿出一张画着数据中心草图的A4纸，拍照上传。原始提示词翻译如下：

这边团队成员还在闲聊，10秒之后，模型就开始唰唰唰地给出答案了。

有意思的是，团队特意给o1挖了个坑——故意省略了其中一个参数，想看看模型面对模糊问题的处理能力。

在团队看来，模型能意识到“某个参数很重要但被省略了”，这本身就是推理能力的体现。

结果令人惊喜：满血版o1不仅选对了参数范围，还通过进一步的细致论证，最终找到了准确参数。

（模型给出的正确答案是242）

最后，团队还展示了“大会员”专属的Pro版表现。

既然是Pro版，测试题自然也得够硬。团队成员指出，一些高难度的生化问题，以往o1-preview根本搞不定，这次就让Pro mode来试试。

比如下面这道o1-preview曾经“束手无策”的“猜蛋白质”问题：

提问之后，Pro mode出现了一个“思考进度条”，大约53秒后给出了答案。

点击回答最上面的小框框，还能在侧边栏展开推理细节，里面详细记录了模型的思考步骤。

按照OpenAI的说法，o1（包括之前的preview版）在博士级科学问答上的表现是超过人类专家的。

不过话说回来，Pro版200美元一个月的价格，确实让不少网友惊了一下。究竟值不值，恐怕得等先行用户用上一段时间之后才有定论。

对了，团队这次也提到，后面会以API的形式提供o1模型的一些功能，包括结构化输出、函数调用、图像API等。

BTW，活动结束前，奥特曼特意cue思维链作者讲了一个冷笑话：圣诞老人想用大语言模型来解决数学问题，结果任何提示词都不管用——你猜最后是怎么成功的？

好冷……

模型更强，也更加安全了

o1满血版发布的同时，技术报告也在OpenAI官网上线。

这份报告里，Ilya的名字依然位列基础贡献者（Foundational Contributor）之中。

在宣传页面中，OpenAI公开展示了o1在数学、代码和博士级科学问答三类任务上的成绩。

不仅如此，OpenAI还进行了更严苛的测试：每个问题询问四次，模型必须四次全答对才能得分。

技术报告还展示了o1的多语言能力。在包括中文在内的14种语言的MMLU测试中，o1的表现相比preview版均有不同程度的提升。

这里插播一句：面对那种带陷阱的“弱智吧”问题，满血版o1依然会被成功蒙骗（手动狗头）。

不过，这份报告更多是围绕安全性展开的。内部及红队测试结果表明，整体上满血版o1在安全性上与o1-preview接近。

如果和GPT-4o比，o1对有害内容的检测和拒绝能力更强，并且在越狱测试中展现出更强的鲁棒性。

在现实风险方面，OpenAI和红队针对网络安全、生化和核威胁等情景对o1进行了测试，结果同样与o1-preview接近。

另外，OpenAI还对o1和o1-preview的思维链推理过程进行了欺骗性分析——让模型解释其行为背后的思考，看看模型是否有隐瞒信息、操纵数据的倾向。

结果很说明问题：o1-preview在26%的案例中会故意隐瞒信息操纵数据，而o1这个比例降到了19%。

Two More Things

发布会开始前，就有网友从ChatGPT的JS代码中发现了Pro版的蛛丝马迹。

200美元的价格、o1 pro模式，以及对满血o1的不限量访问——这些都与这次发布的内容完全吻合。

另外，从这段JS代码中还能看到，在Team版本的相关位置，还出现了“GPT-4.5”的字样。

顺带一提，有网友让马斯克的Grok结合X上的推文预测了一下OpenAI会发布什么，其中第二条成功命中了此次发布的满血o1。

不知道接下来的11个发布日，GPT-4.5是否会“如约而至”，Grok又能在剩下产品中猜对几个？

来源：https://www.aiagiai.com/6549.html

ai

上一篇AI排版软件如何提升文档效率改变设计行业 下一篇提升AI排版工具使用效率与选择适合软件的方法

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容，方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

RAG四标融合企业知识资产体系四库协同GEO优化实践

AI教程 · 2026-07-01

RAG四标融合企业知识资产体系四库协同GEO优化实践

生成式AI正在彻底改写信息检索的底层逻辑。传统SEO依赖关键词堆砌和外链建设的策略，在大模型的内容采信规则下已经基本失效。取而代之的，是生成式引擎优化（GEO）。它不再关注外链数量，而是重点衡量你的知识是否结构化、证据链是否坚实、信源是否可靠——这些维度才是RAG（检索增强生成）架构真正看重的核心指

一个普通上班人分享WorkBuddy使用心得与真实体验

AI教程 · 2026-07-01

一个普通上班人分享WorkBuddy使用心得与真实体验

前言最近我开始使用WorkBuddy——这是腾讯推出的一款AI办公工作台。差不多用了一周时间，趁印象还新鲜，把真实的使用感受记录下来，给还在犹豫的朋友做个参考。不吹不黑，只说实际体验。初印象：不只是聊天机器人之前用过不少AI工具，大多数就是个对话框，你问它答，答完就结束了。WorkBuddy不

AI幻觉变真功能实战教程：App Inventor 2视频录制拓展一周开发实录

AI教程 · 2026-07-01

AI幻觉变真功能实战教程：App Inventor 2视频录制拓展一周开发实录

先讲一个颇具戏剧性的开端。这件事的开端颇显荒诞——有用户前来咨询，称AI Pro版的介绍中提到我们有一款“视频录制拓展”。团队全体成员都感到困惑，翻遍产品列表，发现根本不存在该组件。AI那种“一本正经胡说八道”的能力，这次确实让我们陷入尴尬。按常理，此事到此便可结束——一句“抱歉，暂时没有这个拓

别再混淆OLAP和SQL-on-Hadoop两者查询本质不同

AI教程 · 2026-07-01

别再混淆OLAP和SQL-on-Hadoop两者查询本质不同

OLAP和SQL-on-Hadoop虽都使用SQL查询数据，但本质不同。SQL-on-Hadoop负责海量数据批量计算与ETL，查询速度秒级至分钟级；OLAP通过预聚合实现毫秒级多维分析，适合BI报表。两者在数据平台分工协作，前者是后厨加工，后者是前台快速服务。

GEO优化深度解析：AI偏好FAQ还是长文内容？

AI教程 · 2026-07-01

GEO优化深度解析：AI偏好FAQ还是长文内容？

在GEO优化中，AI对内容形式无统一偏好：FAQ在简单查询中引用率41%，长文在复杂查询中达58%。内容应基于用户意图选择形式，FAQ适配简单事实类问题，长文建立主题权威，两者互补而非替代。