马斯克Grok 4.1发布：AI榜单大洗牌，盲测排名登顶

时间：2025-12-02 19:30

就在OpenAI发布GPT-5 1，大谈“情商”之际，埃隆·马斯克（Elon Musk）也带着他的xAI，火速加入了这场“AI体验”之战。就在刚刚，xAI宣布推出Grok 4 1，这是对现有Grok

就在OpenAI正式推出GPT-5.1、业界热议“情商”表现之际，埃隆·马斯克（Elon Musk）也带着他的xAI公司，迅速加入了这场围绕“AI交互体验”的激烈竞争。

最新消息显示，xAI正式发布了Grok 4.1，这是对现有Grok 4模型的一次重大升级，目前已在grok.com、X平台以及iOS和Android应用中面向所有用户全面开放。据官方介绍，新版模型在创意表达、情感互动与协同交流方面表现尤为出色，其产生幻觉的概率仅为前代模型的三分之一。

更引人瞩目的是，在一个公开的“盲测”竞技平台（LMArena）上，Grok 4.1的“思考模式”版本已悄然登顶总榜首位。更令人惊讶的是，即便是其“非推理”的快速模式，也成功击败了其他所有模型的“完整推理”模式。

这场突如其来的“榜首易主”，无疑为日趋白热化的AI竞赛增添了更多火药味。

那么，Grok 4.1究竟带来了哪些升级？

xAI本次推出了两个Grok 4.1模型版本：Grok 4.1（非推理模式）和Grok 4.1 Thinking（思考模式）。这两个模型均可免费使用，但付费用户面临的限制会更少。

xAI表示，新版模型能够更细腻地理解隐含意图，与之对话引人入胜，同时也更好地保持了人设的一致性。

为了优化模型的风格调性、人格特质与实用价值，xAI采用了前沿的代理型推理模型（agentic reasoning models）作为“奖励模型”，在大规模环境中自主评估并迭代优化模型的回答质量。

在11月1日至14日的“静默上线”期间，xAI在真实流量中进行了盲测式的成对比较评估。结果显示，在64.78%的情况下，用户表现出对Grok 4.1的明显偏好。

在“盲测”中力压群雄的Grok 4.1，到底有多强？

Grok 4.1在盲测环境下的人类偏好评估中，树立了新的行业标杆。

LMArena作为一个开源工具，用户可以通过并行、盲测的方式，比较不同大语言模型的实际表现。在这个竞争最为激烈的“斗兽场”里，Grok 4.1取得了令人瞩目的成绩：

· Grok 4.1的“思考模式”（代号：quasarflux）以1483 Elo的成绩位列总榜第一，领先所有非xAI模型达31分之多。

· Grok 4.1的“非推理模式”（代号：tensor）无需使用“思考词元”（thinking tokens），即可即时生成回答，并以1465 Elo的成绩排名第二。

· 更夸张的是，Grok 4.1的“非推理”模式表现，甚至超越了其他所有模型在“完整推理模式”下的公开排行榜成绩。

与之相比，Grok 4此前在该榜单上的综合排名仅为第33位。

“情商”与“文采”，一个都不能少

除了通用能力的提升，xAI还强调新版模型在“软实力”方面的显著进步。

· 情绪智能（Emotional Intelligence）为评估模型在个性与人际互动方面的表现，xAI对Grok 4.1进行了EQ-Bench3测试。这是一项由LLM作为裁判的测试，用于评估模型在主动情绪智能、理解力、洞察力、共情能力和人际技能等方面的表现。

· 创意写作能力（Creative Writing）xAI同样测量了Grok 4.1在Creative Writing v3基准测试中的表现。在该测试中，模型需要根据32个不同的写作提示，在3次迭代中生成回答。

更少的“幻觉”

快速响应模型在配备搜索工具后，虽能迅速给出答案，但也更容易出现事实性错误。

在Grok 4.1的后训练阶段，xAI重点降低了模型在信息查询类提示中出现事实性“幻觉”的概率。

根据xAI的说法，Grok 4.1出现幻觉的概率仅为此前模型的三分之一，这使其成为xAI迄今为止表现最佳的版本之一。

为了验证这一点，xAI不仅在真实的生产流量中进行了评估，还使用了FActScore——一个包含500道人物传记相关问题的公开基准测试。

挑战与未来：真正的对手还在路上

尽管Grok 4.1的“盲测”成绩斐然，但AI领域的王者之争远未结束。

目前，我们尚不清楚它与GPT-5.1相比的真实表现。

更重要的是，谷歌（Google）正在筹备发布Gemini 3.0，这很可能会成为迄今为止最强大的模型。

Grok 4.1的发布，无疑是马斯克在AI竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中，谁能笑到最后，还远未可知。（易句）

来源：https://www.163.com/tech/article/KEKPSTL700097U7T.html

马斯克盲测 grok 推理

上一篇中国三星发布三年CSR成果：深耕本土社会责任实践 下一篇阿里旗舰AI迎重磅升级！能否超越ChatGPT成看点

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

业界动态 · 2026-07-01

诺基亚TA-1619入网：1400mAh电池双卡双待新机

诺基亚又有新动作了。7月1日消息，一款型号为TA-1619的诺基亚新机已经拿到了电信设备进网许可，不过证件照目前还没公布。从入网信息来看，这是一款TD-LTE数字移动电话机，支持TD-LTE网络，属于LTE单天线终端设备。双卡双待、VoLTE语音模式都支持，终端款式为直板。核心配置方面，电池额定容

业界动态 · 2026-07-01

芯佰微CBMRF900系列国产射频芯片突破海外壁垒

芯佰微电子发布CBMRF9002和CBMRF9009两款射频收发芯片，采用直接变频架构，覆盖10MHz至7250MHz频段，支持最大450MHz带宽及JESD204B高速接口，性能对标国际，满足5G基站与卫星通信等高端需求，突破海外技术壁垒。

业界动态 · 2026-07-01

月起私人充电桩可卖电每度净赚5毛

近期有一则重大利好消息，值得新能源车主们特别留意——车网互动价格机制改革已正式落地。自7月1日起，湖北武汉的新能源车主，可在家中的私人充电桩上通过“卖电”轻松赚钱。具体而言，就是借助峰谷电价差，实现低买高卖，每度电净收益约5毛钱。过去，车网互动（V2G）基本只局限于特定的公共充电站，受试点规模限制，

业界动态 · 2026-07-01

谷歌发布Nano Banana 2 Lite 4秒出图1元4张

先说几个关键信息：谷歌DeepMind又给图像生成赛道添了新选项。7月1日发布的消息，Nano Banana 2 Lite正式亮相。这个名字听起来像是水果命名系列大爆发，实际上它的技术代号是Gemini 3 1 Flash Lite Image，属于Gemini 3 1家族。最大的卖点就两个：快，便

业界动态 · 2026-07-01

技嘉专业电竞装备助力2025 CFS世界总决赛

2025CFS世界总决赛将于12月3日至14日在重庆举行，来自四大赛区的16支战队参赛。技嘉AORUS作为赛事设备合作伙伴，以主板、显示器等专业硬件保障比赛稳定流畅，并通过赛事反哺研发的闭环模式支持电竞发展。