GPT-5首测编程惊艳一句话秒生游戏备战AGI

时间：2026-06-23 14:23

神秘模型HorizonAlpha上线测试，编程能力惊人，可快速生成游戏、物理模拟及网页，推理速度达120token s。OpenAI首席科学家与研究主管专访指出，模型仍存瓶颈，但ScalingLaw未达上限，AGI衡量标准在于模型自主工作时间。

GPT-5更近了！今天，神秘模型Horizon Alpha火遍全网，编码首测性能逆天，各种三方基准实测相继放出。就在发布前夕，OpenAI核心大脑专访坦言模型还有瓶颈，但坚信Scaling Law没有尽头。 GPT-5的发布前兆，愈发强烈了。今早，一款神秘模型Horizon Alpha突然上线OpenRouter，各种榜单和测试席卷了全网。

那么，它长什么样？256K的上下文，响应极速，特别擅长创意写作。更关键的是，它还具备了“推理”功能，不过推理token的预算是o4-mini的两倍。

编程方面，Horizon Alpha堪称无敌了。一句话生成“水果忍者”、“外星人抓奶牛”等各种游戏，根据logo图直出广告，还能轻松通过“六边形物理模拟”测试——这些案例在网络上已经刷屏了。

在写作EQ-Bench基准测试中，Horizon Alpha位列第一，远超o3、Gemini 2.5 Pro。

更令人惊叹的是，它竟能在30秒内完成20位数与20位数的乘法运算。此前被爆料的各种代号模型，比如lobster、zenith、summit等，在多项测试中惊艳了所有人。种种迹象表明，GPT-5“全家桶”绝对是个地表最强模型。

（谷歌收录GPT-5的OpenAI文档页面，目前404）关于Horizon Alpha的更多细节，全部浓缩在网友的实测中了。 ## 神秘Horizon Alpha登场，编程强到逆天目前，在OpenRouter平台上，即可开启对Horizon Alpha版本的测试。

推理时，相较于Claude Sonnet 4（60-80 token/s），Horizon Alpha的吞吐量最快，达120个token/s。

### 物理模拟惊艳，秒搭网页有网友让其创建一个功能完整的Windows 95复古桌面，效果令人惊喜且生成速度极快。

另一个让小球在多边形中模拟物理的测试。不论是六边形还是三角形，即便小球可运动的区间缩小，也不会影响效果。

再上点难度——20个球在旋转的七边形内弹跳。网友惊讶地表示，“这是自己目前见过最出色的版本之一”。

Horizon Alpha能够在3分48秒中，创建一个展示一系列简单有趣的浏览器小游戏的网页。同样，给Horizon Alpha同一个提示：“创建一个视觉上有趣的着色器，可以在 twigl 应用中运行，让它看起来像暴风雨中的海洋”。沃顿商学院CS教授Ethan Mollick惊叹道，这是迄今为止最好的，而且创建速度非常快。

当网友要求其“创建一个与遛狗的商业网站”，Horizon Alpha会问一大堆需要提前确认的问题；而Sonnet 4则直接给出解决方案。

左：Horizon Alpha；右：Claude Sonnet 4 最终，从搭建的效果来看，Horizon Alpha输出的质量高且简洁。Sonnet 4输出的更长，内容更全面，也更具创意。

上：Horizon Alpha；下：Claude Sonnet 4 Horizon Alpha还会自主搭建一个银&行网站。

### 设计一绝，审美感在线 AI大佬Matthew Berman亲自测试其SVG创建和UI设计功能，Horizon Alpha瞬间生成了一张专业设计美感的图。

此前，AI圈大神Simon Willison曾表示，从一张“骑自行车的鹈鹕”就可以看透AI进化史。如今，用Horizon Alpha生成同款SVG测试，是所有模型当中最强的那个。

其他一些SVG优秀案例。

需要注意的是，虽然各种测试表现不凡，不过根据多方推测，Horizon Alpha可能只是一款小模型。

不管它是GPT-5中的哪一款，接下来就坐等OpenAI发布了。 ## OpenAI“双雄”专访，奥特曼盛赞就在GPT-5发布前夕，OpenAI双雄——首席科学家Jakub Pachocki和研究主管Mark Chen的重磅采访同时放出了。这对黄金搭档，可是研发GPT-5的“双巨头”。这篇由MIT Technology Review做的独家专访，没想到深得奥特曼的心。他对此大加赞赏：“我通常认为这类文章说不到点上，但这篇确实抓住了两人合作精髓。”

能够得到奥特曼的高度认可，究竟讲了什么？ ### OpenAI最佳拍档熟悉OpenAI内部人员变动的人都知道，Jakub Pachocki和Mark Chen都是后起之秀。他们风格迥异，却形成了完美的互补。 Mark Chen，曾经的华尔街量化交易员，着装考究，谈吐间挥洒自如，可以说与AI毫不搭界。

入职OpenAI后，他迅速成长为DALL·E和GPT-4多模态能力、Codex背后的关键推手，擅长将复杂的研究转化为人人可用的产品。而Jakub Pachocki，一位低调的理论计算机科学家，接替了离职后的Ilya，痴迷于突破AI逻辑与创造力的极限。

关于内部的角色分工，Pachocki是这么说的：“Chen负责组建和管理研究团队，而我负责设定研究路线图，并确立我们长期的技术愿景。”他们之间的合作模式，可以说是“无缝切换”。不论技术难题多么复杂，两人总能非常默契，迅速分工合力攻克。 ### AGI标尺：自主时间当前，外界对GPT-5的期待，是一款更强、更快、更全能的巨兽。采访中，Mark Chen虽未直面GPT-5问题，却坦言：“我们始终在努力理解深度学习的技术瓶颈，即便是当前最强推理模型，也无法有效将知识串联起来。”

Pachocki补充道：“我们仍处于推理范式最开端。”如何让一款模型进行长期的学习和探索，并提出新颖的想法，才是关键。同时，在他们看来，Scaling Law远未触及天花板——通过投入更多计算资源、数据，模型就会越来越好。被问到如何看待AGI时，Mark Chen提出了一个耐人寻味的指标：模型能更长时间地自主工作的能力，即“自主时间”。这个概念简单却深刻，它代表着AI在面对复杂问题时，能持续取得进展，而无需人类干预的时间长度。这个愿景，远远超出了当前模型的能力——目前的自主时间仅限于几分钟到一小时，遇到陌生场景往往会“卡住”。 ### 数学+编程，摘下AI圣杯？前段时间，OpenAI模型在两项顶级竞赛中取得佳绩：一是在AtCoder世界巡回赛总决赛中获第二名；二是在IMO 2025大赛中夺下金牌。

在AtCoder比赛中，人类选手Psyho的胜利展现了人类独有的创造性思维，类似AlphaGo当年击败李世石的围棋比赛。Pachocki表示：“我们在这里谈论的是编程和数学，但它实际上关乎创造力——提出新颖的想法，将不同领域的想法联系起来。”在他们二人看来，数学和编程正是“通用智能”的基石。

来源：https://www.aiagiai.com/13565.html

上一篇深度解读2024年最热WAIC大会智能体六大发展趋势 下一篇天工设计智能体实测：一句话生成可迭代网页

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言在 Windows 本地开发环境中，直接安装 RabbitMQ 确实颇为周折：需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是，版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。相比之下，借助 Do

AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年，我们与福建制造企业合作较为频繁，发现一个非常突出的现象：超过80%的企业官网，产品参数仍然存放在PDF或图片中。AI爬虫？根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富，但在AI搜索这一全新战场上，它们几乎处于隐身状态。一、一个正在发生的行业变化 A

AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务，这一服务专为企业与开发者量身打造，定位为AI大模型订阅平台。通过引入Credits作为统一计量单位，将文本生成、图像生成等多模态AI能力纳入单一计费体系，同时无缝兼容主流AI编程工具及智能体（Agent）生态系统。其核心亮点包括：全

AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标，而位置数据的来源本质上是借助设备属性进行上传。换言之，若要让设备上报位置，您需先将其视为一个普通属性进行处理。 1）添加二维位置数据操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据，点击添加，将

AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年，阿里云服务器生态已高度成熟，形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网，还是运营电商平台、进行应用开发，基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维，系统梳理2026年最实用的操作要点，帮助你少走弯路，让网