OpenAI十年庆：GPT-5.2发布与奥尔特曼的超级智能十年蓝图

时间：2025-12-12 13:01

面对谷歌等竞争对手带来的压力，在红色紧急状态下的OpenAI，在十周年之际火速发布GPT-5 2。当地时间12月11日，OpenAI正式推出最新模型GPT-5 2，据最新介绍，该模型适用于专业工作和

面对谷歌等竞争对手带来的压力，在红色紧急状态下的OpenAI，在十周年之际火速发布GPT-5.2。

当地时间12月11日，OpenAI正式推出最新模型GPT-5.2，据最新介绍，该模型适用于专业工作和长时运行智能体，是迄今为止适用于专业知识工作的最强模型系列，在通用智能、长上下文理解、智能体化工具调用和视觉方面得到显著改进，在执行端到端的复杂现实世界任务方面优于以往的模型。

GPT‑5.2共有Instant、Thinking和Pro三个版本，将从今天开始向付费计划用户逐步推出，在 ChatGPT 中，GPT‑5.1将继续对付费用户可用三个月，之后将停止支持。在API（应用接口）中，已对所有开发者开放。

OpenAI CEO山姆·奥特曼（Sam Altman）发文表示：“即使没有诸如输出精美文件这类新功能，GPT-5.2也感觉像是我们许久以来获得的最大升级。”

据介绍，GPT-5.2在多数基准测试中都达到了新的先进水平，在GDPval测试中（GDPval是OpenAI推出的AI评估基准，旨在衡量前沿模型在真实经济价值任务中的表现，以弥补学术测试与实际应用间的差距），在涵盖44个职业、定义明确的知识工作任务上，表现优于行业专业人士。

GPT-5.2在GDPval测试中的表现，Thinking版在70.9%的比较中击败或持平顶尖行业专业人士。

编码能力方面，GPT-5.2在SWE-Bench Pro（一项对现实世界软件工程进行的严格评估，测试四种语言，旨在更具抗污染性、挑战性、多样性和行业相关性）上，Thinking版取得了 55.6%的最高成绩，在SWE-bench Verified上，Thinking版取得了80%的高分。

OpenAI表示，对于日常专业使用而言，这意味着模型能够更可靠地调试生产代码、实现功能请求、重构大型代码库，并以更少的人工干预端到端地发布修复。

GPT‑5.2 Thinking在前端软件工程方面也优于GPT‑5.1 Thinking。早期测试者发现它在前端开发和复杂或非传统的 UI 工作（尤其是涉及 3D 元素的工作）方面明显更强，比如制作海洋波浪模拟、假日贺卡制作器、打字游戏等。

据介绍，GPT‑5.2 Thinking的事实准确性、长上下文、视觉以及工具调用性能都迎来大幅提升。比GPT‑5.1 Thinking的幻觉更少，在一组匿名查询中，包含错误的回答相对减少了30%；在4-needle MRCR 变体（长达 256k token）任务上实现接近100%准确率，同时，对于需要思考超出最大上下文窗口的任务，GPT‑5.2 Thinking与OpenAI新的Responses /compact端点兼容，扩展了模型的有效上下文窗口；视觉方面，GPT‑5.2 Thinking成为OpenAI迄今为止最强的视觉模型，在图表推理和软件界面理解方面的错误率大约降低了一半，还能更好地理解图像中元素的定位；工具调用性能方面，GPT‑5.2 Thinking在Tau2-bench Telecom测试上实现了98.7%的得分，对于延迟敏感的使用场景，其在reasoning.effort='none'（无推理）设置下的表现也远优于GPT‑5.1和GPT‑4.1。

GPT‑5.2与GPT-5.1的视觉能力对比。

在科学与数学能力方面。在 GPQA Diamond（研究生级别的、防谷歌的问答基准）测试上，GPT‑5.2 Pro达到93.2%，GPT‑5.2 Thinkin达到92.4%。

OpenAI表示，在最近与GPT‑5.2 Pro合作的研究中，研究人员探索了统计学习理论中的一个开放性问题。在特定、明确界定的设定下，模型提出了一个证明，随后得到了作者的验证，并与外部专家一起进行了审查，这证明了前沿模型已经在人类的密切监督下协助数学研究。

同时，在ARC-AGI 1（衡量通用推理能力的基准）测试上，GPT‑5.2 Pro成为第一个突破90%阈值的模型，相比去年o3‑preview的87%有所提高，同时将实现该性能的成本降低了约390倍。

在难度更高、更能隔离流体推理能力的 ARC-AGI-2基准测试上，GPT‑5.2 Thinking在思维链模型中得分为 52.9%，GPT‑5.2 Pro更是达到 54.2%，模型的推理新颖性、抽象问题的能力进一步提升。

值得一提的是，当天还是OpenAI成立十周年，奥特曼发布了题为《十年》的博客，回顾了OpenAI成立十年来的突破、经验教训以及有关AGI的思考。

他表示，OpenAI取得的成就超出了他最大胆的梦想，“我们当初设定了一个疯狂、不太可能且史无前例的目标。从极度不确定的开端起步，尽管希望渺茫，但通过持续努力，现在看来，我们似乎有望实现我们的使命”。

奥特曼表示，当他回顾早期的照片时，首先震惊于每个人看起来都那么年轻。接着，又震惊于每个人看起来都异常乐观，而且那么快乐。“那是一段疯狂而快乐的时光：尽管我们被严重误解，但我们怀着坚定的信念，觉得这件事意义重大，即使成功机会渺茫也值得为之付出巨大努力，我们拥有非常有才华的人，并且目标明确”。

OpenAI在十周年视频中发布的创业早期照片。

他表示，三年前推出ChatGPT时，世界注意到了，而当推出 GPT-4 时，反响更是热烈；突然间，考虑通用人工智能（AGI）不再是件疯狂的事。“过去的三年极其紧张，充满了压力和重大的责任；这项技术以前所未有的规模和速度融入了世界。这需要我们以极高的执行力来完成，而且我们不得不立即为此建立一种全新的能力。在这段时间里，从一无所有成长为一家庞大的公司绝非易事，需要我们每周做出成百上千个决策。我为团队做出的许多正确决策感到自豪，而那些错误的决策，则大多是我的责任”。

奥特曼表示从未对OpenAI的研究、产品路线图以及整体上通向使命的路径感到如此乐观。再过十年，几乎可以肯定OpenAI将构建出超级智能。“我预计未来会让人感到奇妙；从某种意义上说，日常生活和我们最关心的事情变化会非常小，我敢肯定，我们将继续更关注其他人的行为，而非机器的行为。但从另一种意义上说，2035年的人们将能够做到一些我认为我们现在难以轻易想象的事情”。

来源：https://www.163.com/dy/article/KGIT02IQ0514R9P4.html

疯狂谷歌奥特曼超级智能人工智能知名企业 openai

上一篇《自然》社论：中国推动全球AI治理，各国应积极加入对话 下一篇OpenAI发布GPT-4o：新升级带来哪些核心体验革新？

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

OpenClaw手机App上线，结果翻车了

OpenClaw 官方宣布，已正式推出 iOS 和 Android 原生移动 App，用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接：把 Agent 放进口袋里，让用户可以在移动端处理频道消息、任务和回复。从功能上看，OpenClaw 移动端并

科技数码 · 2026-07-01

优必选CEO周剑：家庭机器人生态核心投入过半精力

先说几个核心判断：优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上，直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进，现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景，另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间，技术路线尚未收敛

6月30日，申银万国在光连接系列研报中重点指出，MPO光连接器领域的投资机会值得高度关注。通俗来说，随着AI算力集群持续扩张，光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件，如今它直接决定着链路插损、可

科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上，区级部门一次性推出了7个AI“龙搭子”。其中，名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解，依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”，已在今年五一假期发布了内测版本。经过一个月市场验证后，该项目正式启动面向全社会的

科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日，南下资金持续大举买入港股，单日净流入金额高达58 95亿港元。接下来，我们直接盘点哪些个股获得资金青睐、哪些遭到减持：净买入方面，中芯国际领跑全场，单日吸金19 33亿港元；建滔积层板紧随其后，净买入10 59亿港元；腾讯控股获得7 65亿港元净流入；智谱（02513 HK）也有6 5