马斯克Grok 4.1发布:AI榜单大洗牌,盲测排名登顶
就在OpenAI正式推出GPT-5.1、业界热议“情商”表现之际,埃隆·马斯克(Elon Musk)也带着他的xAI公司,迅速加入了这场围绕“AI交互体验”的激烈竞争。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

最新消息显示,xAI正式发布了Grok 4.1,这是对现有Grok 4模型的一次重大升级,目前已在grok.com、X平台以及iOS和Android应用中面向所有用户全面开放。据官方介绍,新版模型在创意表达、情感互动与协同交流方面表现尤为出色,其产生幻觉的概率仅为前代模型的三分之一。
更引人瞩目的是,在一个公开的“盲测”竞技平台(LMArena)上,Grok 4.1的“思考模式”版本已悄然登顶总榜首位。更令人惊讶的是,即便是其“非推理”的快速模式,也成功击败了其他所有模型的“完整推理”模式。
这场突如其来的“榜首易主”,无疑为日趋白热化的AI竞赛增添了更多火药味。
那么,Grok 4.1究竟带来了哪些升级?
xAI本次推出了两个Grok 4.1模型版本:Grok 4.1(非推理模式)和Grok 4.1 Thinking(思考模式)。这两个模型均可免费使用,但付费用户面临的限制会更少。
xAI表示,新版模型能够更细腻地理解隐含意图,与之对话引人入胜,同时也更好地保持了人设的一致性。
为了优化模型的风格调性、人格特质与实用价值,xAI采用了前沿的代理型推理模型(agentic reasoning models)作为“奖励模型”,在大规模环境中自主评估并迭代优化模型的回答质量。
在11月1日至14日的“静默上线”期间,xAI在真实流量中进行了盲测式的成对比较评估。结果显示,在64.78%的情况下,用户表现出对Grok 4.1的明显偏好。

在“盲测”中力压群雄的Grok 4.1,到底有多强?
Grok 4.1在盲测环境下的人类偏好评估中,树立了新的行业标杆。
LMArena作为一个开源工具,用户可以通过并行、盲测的方式,比较不同大语言模型的实际表现。在这个竞争最为激烈的“斗兽场”里,Grok 4.1取得了令人瞩目的成绩:
· Grok 4.1的“思考模式”(代号:quasarflux)以1483 Elo的成绩位列总榜第一,领先所有非xAI模型达31分之多。
· Grok 4.1的“非推理模式”(代号:tensor)无需使用“思考词元”(thinking tokens),即可即时生成回答,并以1465 Elo的成绩排名第二。
· 更夸张的是,Grok 4.1的“非推理”模式表现,甚至超越了其他所有模型在“完整推理模式”下的公开排行榜成绩。

与之相比,Grok 4此前在该榜单上的综合排名仅为第33位。
“情商”与“文采”,一个都不能少
除了通用能力的提升,xAI还强调新版模型在“软实力”方面的显著进步。
· 情绪智能(Emotional Intelligence)为评估模型在个性与人际互动方面的表现,xAI对Grok 4.1进行了EQ-Bench3测试。这是一项由LLM作为裁判的测试,用于评估模型在主动情绪智能、理解力、洞察力、共情能力和人际技能等方面的表现。

· 创意写作能力(Creative Writing)xAI同样测量了Grok 4.1在Creative Writing v3基准测试中的表现。在该测试中,模型需要根据32个不同的写作提示,在3次迭代中生成回答。

更少的“幻觉”
快速响应模型在配备搜索工具后,虽能迅速给出答案,但也更容易出现事实性错误。
在Grok 4.1的后训练阶段,xAI重点降低了模型在信息查询类提示中出现事实性“幻觉”的概率。
根据xAI的说法,Grok 4.1出现幻觉的概率仅为此前模型的三分之一,这使其成为xAI迄今为止表现最佳的版本之一。

为了验证这一点,xAI不仅在真实的生产流量中进行了评估,还使用了FActScore——一个包含500道人物传记相关问题的公开基准测试。
挑战与未来:真正的对手还在路上
尽管Grok 4.1的“盲测”成绩斐然,但AI领域的王者之争远未结束。
目前,我们尚不清楚它与GPT-5.1相比的真实表现。
更重要的是,谷歌(Google)正在筹备发布Gemini 3.0,这很可能会成为迄今为止最强大的模型。
Grok 4.1的发布,无疑是马斯克在AI竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中,谁能笑到最后,还远未可知。(易句)
相关攻略
与SpaceX合并的人工智能初创公司xAI,近期正迎来人事的巨大变动。最新消息称,xAI创始团队中的最后一名联合创始人Ross Nordeen已在上周五离职。此前,领导xAI预训练团队的联合创始人M
来源:环球市场播报 在 Apple TV + 的另类历史太空竞赛剧《为了全人类》(For All Mankind)中,虚构的人类在五季剧情里完成了无数壮举:他们登上了月球,也踏足了火星;让女性入主
编辑 | 王凤枝谎言被当面戳穿的那一秒,达里奥·阿莫代伊(Dario Amodei)就知道,他与山姆·奥特曼(Sam Altman)的合作彻底走到了尽头。2020年底,OpenAI内部爆发了一场信任
3月30日消息,据IT之家援引外媒报道,埃隆 · 马斯克最初组建的 xAI 创始团队,现已全部离场。据知情人士透露,11 名联合创始人之一的罗斯 · 诺丁已于当地时间 3 月 27 日正式离开 xA
智东西3月29日报道,今天,xAI联合创始人罗斯·诺丁在社交平台X上悄然移除了自己的xAI员工认证,离开了这家以马斯克为首的AI独角兽。至此,xAI最初的12名联合创始人中,仅剩马斯克一人。诺丁的x
热门专题
热门推荐
3月30日消息,今晚除了手机之外,vivo还发布了全新的旗舰平板——vivo Pad6 Pro。行业首发13 2英寸4K原彩屏,分辨率3840×2160,347PPI,支持1-144Hz LTPS自
WPS表格中提取括号内容有四种方法:一、单对英文小括号用FIND+MID;二、中英文括号通用需SUBSTITUTE预处理;三、多对括号取最后一对需REVERSESTRING反向查找
3月30日,南京新街口核心商圈,苏豪大厦一楼广场上机器人迎宾起舞,充满科技感。由苏豪资产运营集团与南京新街口金融商务区管理委员会(以下简称“新街口管委会”)共同打造的“数智苏豪”新街口OPC社区揭牌
电 动 知 家消 息,近日,据外媒报道,据福特汽车日前发布的一份文件,该公司首席执行 官吉姆·法利2025年的总薪酬大幅增长了11%,达到约2752万美元(约1 9亿元人民币),这是其自2020年末
白宫里,一台人形机器人缓步走入东厅,与美国“第一夫人”并肩亮相,动作仍带着明显的机械感;仅仅一天后,国会山上,这种“会走路的机器”却被划为潜在安全威胁,写进立法提案。这是上周美国上演的荒诞一幕。两党





