数据不会撒谎。最新公布的LMSys聊天机器人竞技场排行榜显示,xAI推出的Grok-2和Grok-Mini表现抢眼——Grok-2位居第二名,与最新版Gemini模型并驾齐驱,甚至超越了OpenAI的GPT-4o(2024年5月版本)。更值得信赖的是,这一排名并非实验室自夸,而是由超过6000名社区用户投票得出的真实结果。

在细分任务中,Grok-2的数学能力尤为突出,一举夺得数学单项冠军。此外,在复杂提示处理、编程以及指令遵循等硬核任务上,Grok-2均稳定排在第二位。另一成员Grok-2-Mini也表现不俗,以综合第五名的成绩跻身榜单——在众多顶尖模型中进入前五,本身就是实力的证明。
在运行速度上,Grok-2-Mini实现了质的飞跃,当前速度达到此前两倍。这一提升得益于xAI推理团队的深度革新:他们全面重写了推理堆栈,采用SGLang框架实现更高效的多主机推理,同时显著提升了精度。团队还引入了全新的计算与通信内核算法,配合优化后的批处理调度和量化技术——这些技术细节或许略显专业,但带给用户的直观感受就是响应更快、结果更准确。
当然,也有人会问:GPT-4o难道不是更强吗?但实际用户的反馈很直接——许多人在编程和数学任务上更偏好Grok-2。目前,Grok-2系列以测试版形式提供,用户可通过X平台直接体验,还能使用内置的FLUX.1图像生成模型进行创意制作。归根结底,排行榜仅作参考,模型优劣还需亲自使用验证。
