要说今年AI圈的热度,年初这把火就烧得有点猛。
就在今天中午,马斯克那个号称 “ 地球上最聪明的人工智能 ” Grok 3,终于揭开了面纱。发布会延续了他一向的风格,说好十二点整开始,结果还是让大伙儿多等了快二十分钟。

将近一个小时的直播,马斯克带着xAI的团队,从各个角度展示了Grok 3有多能打。从官方给出的纸面数据来看,Grok 3确实把谷歌、OpenAI、DeepSeek这些明星选手的招牌模型,给压了一头。
直播刚结束,X上就炸开了锅,因为已经有人提前用上了Grok 3。Andrej Karpathy评价说,它的推理能力跟o1-Pro差不多,而且比DeepSeek R1和Gemini的推理模型还要稍好一些。

甚至有人用AI生成了一段奥特曼看到Grok 3发布后的视频来调侃。

国内外关于Grok 3的报道铺天盖地,“ 首个突破1400分的模型 ”、“ 首个十万卡集群训练出来的模型 ”,这些头衔听着就分量十足。
客观来说,Grok 3或许称不上“炸裂”,但至少从发布会的内容看,它再次印证了AI领域那个“大力出奇迹”的朴素真理。
目前,Grok 3只对部分X的Premium+会员开放,我们暂时还没能上手,所以就先从发布会的信息出发,给大家梳理一下Grok 3的真正水平。
01
马斯克一上来就拿Grok和GPT的模型迭代速度做了对比,针对性很强,大有非要分出个高下的架势。

不过要注意,这次的Grok 3其实是一个模型家族,里面成员的水平不一样,大致可以分为非推理模型和推理模型两种。
先说非推理模型,也就是Grok 3和Grok 3 mini。
熟悉的Benchmark测试环节,xAI拉来了Gemini 2.0 pro、DeepSeek V3、Claude 3.5 Sonnet和GPT-4o四个模型进行对比。
在AIME’24美国数学竞赛、GPQA(研究生水平的科学知识问答基准)和代码测试三项上,Grok 3的成绩明显高出一大截。
Grok 3 mini的水平跟其他模型差不多,但发布会上也提到,mini版本可以通过牺牲一定准确性,来换取更快的回答速度。

另外,在Chatbot Arena的盲测中,Grok 3代号“巧克力”的早期版本也登上了榜首,分数更是史无前例地突破了1400分。

具体来看,“巧克力”在整体风格控制(对模型语气、表达方式的把控)、编码、数学和创意写作等多个方面,全都拿了第一。

要知道,“巧克力”还只是早期版本,今天的正式版Grok 3性能或许还会更强。
接下来,我们再看看Grok 3的推理模型。
推理模型大家应该不陌生,毕竟OpenAI的o1系列、o3 mini和DeepSeek R1已经打得不可开交,思维链也是目前主流模型的突破方向。现在各家的新模型,如果不是推理模型,都不好意思拿出来。
所以这次,Grok 3 Reasoning Beta和Grok 3 mini Reasoning也代表xAI出战了。
还是看纸面实力,表面一看依旧是傲视群雄的姿态。

但有个细节需要注意,这个测试中加了Test-Time Compute。
简单理解就是给了模型更多时间去思考。同一个横坐标上颜色浅一点的部分,就是加时赛的成绩。
可以看到,如果不算加时赛,Grok 3两个推理模型跟其他模型的差距并没有那么大。一旦加了时长,差距马上就体现出来了。
换句话说,Grok 3推理模型的思考时间越长,表现就越好。这似乎说明,它的思考质量可以随着时间线性增长,也意味着Grok还有进一步的成长空间,未来有机会通过优化思考过程,在更短时间里给出更好的答案。
在现场,马斯克他们展示了Grok 3推理模型在2025年AIME数学竞赛上的测试结果。
其实,如果不算Test-Time Compute,似乎还是OpenAI的o3-mini(high)的推理能力更强一些。

为了证明自己不是说说而已,马斯克他们在现场直接进行了效果演示。
他让Grok 3生成3D动画代码,可以看到模型一步步的思考过程。不过他们也提到,这个思考过程是经过模糊处理的,理由跟OpenAI差不多,都是为了防止模型被抄袭。
另外,现场还让Grok 3生成了一个结合了俄罗斯方块和宝石迷阵两种游戏规则的新游戏。

这很难不让人联想到,马斯克昨天刚实锤了xAI要成立一家AI游戏工作室的消息。如果Grok 3的游戏制作能力真的跟现场演示的一样,甚至更强,那对整个游戏圈的影响都将是巨大的。
而且根据马斯克的说法,Grok 3在未来两到三年内,还可能参与到特斯拉的生产和火箭发射过程中。
02
随后,直播发布了基于Grok 3构建的Deepsearch。
这个产品其实就是一个智能搜索引擎,有点像Perplexity的Deep Research和OpenAI的Deep Research。
可以看到,当你问Grok 3下一次星舰发射是什么时候,左边会显示一个总体的进度条,右边则展示它浏览了哪些网页、对哪些信源进行了验证。

最后模型得出的结果是,下一次发射时间是2月24日。
当然,这次Grok 3之所以看上去如此强大,离不开马斯克早就在念叨的、只花了122天就搭建起来的10万卡集群。
后续,他们又花了92天扩展到20万卡集群,使出一招“大力出奇迹”,在不到一年的时间里,就供养出了Grok 3。

结合这段时间大家都在争论的技术路线问题,Grok 3的出现似乎再一次证明了算力在大模型领域的绝对力量。
不过,把20万卡供出来的Grok 3,和对算力需求低得多的DeepSeek V3放在一起比较,多少有点不公平。
除此之外,马斯克在前几天的迪拜峰会上也提到,Grok 3经过了合成数据的训练,能够通过检查和验证信息来反思自己的错误。
总而言之,这次的Grok 3的确拿出了点真家伙。
不过我们也注意到,在抢先体验用户的分享中,有不少与宣传不符的实际测试案例。
比如这位博主用同一组Prompt测试了Grok 3、o3 mini和Claude 3.5 Sonnet,结果Grok 3直接翻车了。

在另一组测试中,o3 mini的表现也要优于Grok 3和DeepSeek R1。

还有眼尖的网友,直接指出发布会演示的案例里存在明显错误。

虽然我们这次没有实际上手测试,但从外部的一些实测案例来看,Grok 3似乎并没有营销中宣传得那么神。
而且这次Grok 3上线后,很多人的注意力都放在了模型是否开源上。
根据马斯克的说法,xAI通常是新模型发布后再开源旧模型。也就是说,就算开源,也是老版本的Grok 2。
看样子,来自开源阵营的压力还是不够大,马斯克真正瞄准的,还是老对手OpenAI。
就是不知道,已经在X上预告了的GPT-4.5,能不能反手再给马斯克一个“惊喜”。
