那么,它长什么样?256K的上下文,响应极速,特别擅长创意写作。更关键的是,它还具备了“推理”功能,不过推理token的预算是o4-mini的两倍。
编程方面,Horizon Alpha堪称无敌了。一句话生成“水果忍者”、“外星人抓奶牛”等各种游戏,根据logo图直出广告,还能轻松通过“六边形物理模拟”测试——这些案例在网络上已经刷屏了。
在写作EQ-Bench基准测试中,Horizon Alpha位列第一,远超o3、Gemini 2.5 Pro。
更令人惊叹的是,它竟能在30秒内完成20位数与20位数的乘法运算。此前被爆料的各种代号模型,比如lobster、zenith、summit等,在多项测试中惊艳了所有人。种种迹象表明,GPT-5“全家桶”绝对是个地表最强模型。
(谷歌收录GPT-5的OpenAI文档页面,目前404)
关于Horizon Alpha的更多细节,全部浓缩在网友的实测中了。
## 神秘Horizon Alpha登场,编程强到逆天
目前,在OpenRouter平台上,即可开启对Horizon Alpha版本的测试。
推理时,相较于Claude Sonnet 4(60-80 token/s),Horizon Alpha的吞吐量最快,达120个token/s。
### 物理模拟惊艳,秒搭网页
有网友让其创建一个功能完整的Windows 95复古桌面,效果令人惊喜且生成速度极快。
另一个让小球在多边形中模拟物理的测试。不论是六边形还是三角形,即便小球可运动的区间缩小,也不会影响效果。
再上点难度——20个球在旋转的七边形内弹跳。网友惊讶地表示,“这是自己目前见过最出色的版本之一”。
Horizon Alpha能够在3分48秒中,创建一个展示一系列简单有趣的浏览器小游戏的网页。同样,给Horizon Alpha同一个提示:“创建一个视觉上有趣的着色器,可以在 twigl 应用中运行,让它看起来像暴风雨中的海洋”。沃顿商学院CS教授Ethan Mollick惊叹道,这是迄今为止最好的,而且创建速度非常快。
当网友要求其“创建一个与遛狗的商业网站”,Horizon Alpha会问一大堆需要提前确认的问题;而Sonnet 4则直接给出解决方案。
左:Horizon Alpha;右:Claude Sonnet 4
最终,从搭建的效果来看,Horizon Alpha输出的质量高且简洁。Sonnet 4输出的更长,内容更全面,也更具创意。
上:Horizon Alpha;下:Claude Sonnet 4
Horizon Alpha还会自主搭建一个银&行网站。
### 设计一绝,审美感在线
AI大佬Matthew Berman亲自测试其SVG创建和UI设计功能,Horizon Alpha瞬间生成了一张专业设计美感的图。
此前,AI圈大神Simon Willison曾表示,从一张“骑自行车的鹈鹕”就可以看透AI进化史。如今,用Horizon Alpha生成同款SVG测试,是所有模型当中最强的那个。
其他一些SVG优秀案例。
需要注意的是,虽然各种测试表现不凡,不过根据多方推测,Horizon Alpha可能只是一款小模型。
不管它是GPT-5中的哪一款,接下来就坐等OpenAI发布了。
## OpenAI“双雄”专访,奥特曼盛赞
就在GPT-5发布前夕,OpenAI双雄——首席科学家Jakub Pachocki和研究主管Mark Chen的重磅采访同时放出了。这对黄金搭档,可是研发GPT-5的“双巨头”。这篇由MIT Technology Review做的独家专访,没想到深得奥特曼的心。他对此大加赞赏:“我通常认为这类文章说不到点上,但这篇确实抓住了两人合作精髓。”
能够得到奥特曼的高度认可,究竟讲了什么?
### OpenAI最佳拍档
熟悉OpenAI内部人员变动的人都知道,Jakub Pachocki和Mark Chen都是后起之秀。他们风格迥异,却形成了完美的互补。
Mark Chen,曾经的华尔街量化交易员,着装考究,谈吐间挥洒自如,可以说与AI毫不搭界。
入职OpenAI后,他迅速成长为DALL·E和GPT-4多模态能力、Codex背后的关键推手,擅长将复杂的研究转化为人人可用的产品。
而Jakub Pachocki,一位低调的理论计算机科学家,接替了离职后的Ilya,痴迷于突破AI逻辑与创造力的极限。
关于内部的角色分工,Pachocki是这么说的:“Chen负责组建和管理研究团队,而我负责设定研究路线图,并确立我们长期的技术愿景。”他们之间的合作模式,可以说是“无缝切换”。不论技术难题多么复杂,两人总能非常默契,迅速分工合力攻克。
### AGI标尺:自主时间
当前,外界对GPT-5的期待,是一款更强、更快、更全能的巨兽。采访中,Mark Chen虽未直面GPT-5问题,却坦言:“我们始终在努力理解深度学习的技术瓶颈,即便是当前最强推理模型,也无法有效将知识串联起来。”
Pachocki补充道:“我们仍处于推理范式最开端。”如何让一款模型进行长期的学习和探索,并提出新颖的想法,才是关键。同时,在他们看来,Scaling Law远未触及天花板——通过投入更多计算资源、数据,模型就会越来越好。
被问到如何看待AGI时,Mark Chen提出了一个耐人寻味的指标:模型能更长时间地自主工作的能力,即“自主时间”。这个概念简单却深刻,它代表着AI在面对复杂问题时,能持续取得进展,而无需人类干预的时间长度。这个愿景,远远超出了当前模型的能力——目前的自主时间仅限于几分钟到一小时,遇到陌生场景往往会“卡住”。
### 数学+编程,摘下AI圣杯?
前段时间,OpenAI模型在两项顶级竞赛中取得佳绩:一是在AtCoder世界巡回赛总决赛中获第二名;二是在IMO 2025大赛中夺下金牌。
在AtCoder比赛中,人类选手Psyho的胜利展现了人类独有的创造性思维,类似AlphaGo当年击败李世石的围棋比赛。Pachocki表示:“我们在这里谈论的是编程和数学,但它实际上关乎创造力——提出新颖的想法,将不同领域的想法联系起来。”在他们二人看来,数学和编程正是“通用智能”的基石。