游乐游手机版
首页/业界动态/文章详情

马斯克Grok 4.1发布:AI榜单大洗牌,盲测排名登顶

时间:2025-12-02 19:30
就在OpenAI发布GPT-5 1,大谈“情商”之际,埃隆·马斯克(Elon Musk)也带着他的xAI,火速加入了这场“AI体验”之战。就在刚刚,xAI宣布推出Grok 4 1,这是对现有Grok

就在OpenAI正式推出GPT-5.1、业界热议“情商”表现之际,埃隆·马斯克(Elon Musk)也带着他的xAI公司,迅速加入了这场围绕“AI交互体验”的激烈竞争。

\

最新消息显示,xAI正式发布了Grok 4.1,这是对现有Grok 4模型的一次重大升级,目前已在grok.com、X平台以及iOS和Android应用中面向所有用户全面开放。据官方介绍,新版模型在创意表达、情感互动与协同交流方面表现尤为出色,其产生幻觉的概率仅为前代模型的三分之一。

更引人瞩目的是,在一个公开的“盲测”竞技平台(LMArena)上,Grok 4.1的“思考模式”版本已悄然登顶总榜首位。更令人惊讶的是,即便是其“非推理”的快速模式,也成功击败了其他所有模型的“完整推理”模式。

这场突如其来的“榜首易主”,无疑为日趋白热化的AI竞赛增添了更多火药味。

那么,Grok 4.1究竟带来了哪些升级?

xAI本次推出了两个Grok 4.1模型版本:Grok 4.1(非推理模式)和Grok 4.1 Thinking(思考模式)。这两个模型均可免费使用,但付费用户面临的限制会更少。

xAI表示,新版模型能够更细腻地理解隐含意图,与之对话引人入胜,同时也更好地保持了人设的一致性。

为了优化模型的风格调性、人格特质与实用价值,xAI采用了前沿的代理型推理模型(agentic reasoning models)作为“奖励模型”,在大规模环境中自主评估并迭代优化模型的回答质量。

在11月1日至14日的“静默上线”期间,xAI在真实流量中进行了盲测式的成对比较评估。结果显示,在64.78%的情况下,用户表现出对Grok 4.1的明显偏好。

\

在“盲测”中力压群雄的Grok 4.1,到底有多强?

Grok 4.1在盲测环境下的人类偏好评估中,树立了新的行业标杆。

LMArena作为一个开源工具,用户可以通过并行、盲测的方式,比较不同大语言模型的实际表现。在这个竞争最为激烈的“斗兽场”里,Grok 4.1取得了令人瞩目的成绩:

· Grok 4.1的“思考模式”(代号:quasarflux)以1483 Elo的成绩位列总榜第一,领先所有非xAI模型达31分之多。

· Grok 4.1的“非推理模式”(代号:tensor)无需使用“思考词元”(thinking tokens),即可即时生成回答,并以1465 Elo的成绩排名第二。

· 更夸张的是,Grok 4.1的“非推理”模式表现,甚至超越了其他所有模型在“完整推理模式”下的公开排行榜成绩。

\

与之相比,Grok 4此前在该榜单上的综合排名仅为第33位。

“情商”与“文采”,一个都不能少

除了通用能力的提升,xAI还强调新版模型在“软实力”方面的显著进步。

· 情绪智能(Emotional Intelligence)为评估模型在个性与人际互动方面的表现,xAI对Grok 4.1进行了EQ-Bench3测试。这是一项由LLM作为裁判的测试,用于评估模型在主动情绪智能、理解力、洞察力、共情能力和人际技能等方面的表现。

\

· 创意写作能力(Creative Writing)xAI同样测量了Grok 4.1在Creative Writing v3基准测试中的表现。在该测试中,模型需要根据32个不同的写作提示,在3次迭代中生成回答。

\

更少的“幻觉”

快速响应模型在配备搜索工具后,虽能迅速给出答案,但也更容易出现事实性错误。

在Grok 4.1的后训练阶段,xAI重点降低了模型在信息查询类提示中出现事实性“幻觉”的概率。

根据xAI的说法,Grok 4.1出现幻觉的概率仅为此前模型的三分之一,这使其成为xAI迄今为止表现最佳的版本之一。

\

为了验证这一点,xAI不仅在真实的生产流量中进行了评估,还使用了FActScore——一个包含500道人物传记相关问题的公开基准测试。

挑战与未来:真正的对手还在路上

尽管Grok 4.1的“盲测”成绩斐然,但AI领域的王者之争远未结束。

目前,我们尚不清楚它与GPT-5.1相比的真实表现。

更重要的是,谷歌(Google)正在筹备发布Gemini 3.0,这很可能会成为迄今为止最强大的模型。

Grok 4.1的发布,无疑是马斯克在AI竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中,谁能笑到最后,还远未可知。(易句)

来源:https://www.163.com/tech/article/KEKPSTL700097U7T.html
上一篇中国三星发布三年CSR成果:深耕本土社会责任实践 下一篇阿里旗舰AI迎重磅升级!能否超越ChatGPT成看点
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
诺基亚TA-1619入网:1400mAh电池双卡双待新机
业界动态 · 2026-07-01

诺基亚TA-1619入网:1400mAh电池双卡双待新机

诺基亚又有新动作了。7月1日消息,一款型号为TA-1619的诺基亚新机已经拿到了电信设备进网许可,不过证件照目前还没公布。 从入网信息来看,这是一款TD-LTE数字移动电话机,支持TD-LTE网络,属于LTE单天线终端设备。双卡双待、VoLTE语音模式都支持,终端款式为直板。核心配置方面,电池额定容

芯佰微CBMRF900系列国产射频芯片突破海外壁垒
业界动态 · 2026-07-01

芯佰微CBMRF900系列国产射频芯片突破海外壁垒

芯佰微电子发布CBMRF9002和CBMRF9009两款射频收发芯片,采用直接变频架构,覆盖10MHz至7250MHz频段,支持最大450MHz带宽及JESD204B高速接口,性能对标国际,满足5G基站与卫星通信等高端需求,突破海外技术壁垒。

月起私人充电桩可卖电 每度净赚5毛
业界动态 · 2026-07-01

月起私人充电桩可卖电 每度净赚5毛

近期有一则重大利好消息,值得新能源车主们特别留意——车网互动价格机制改革已正式落地。自7月1日起,湖北武汉的新能源车主,可在家中的私人充电桩上通过“卖电”轻松赚钱。具体而言,就是借助峰谷电价差,实现低买高卖,每度电净收益约5毛钱。过去,车网互动(V2G)基本只局限于特定的公共充电站,受试点规模限制,

谷歌发布Nano Banana 2 Lite 4秒出图1元4张
业界动态 · 2026-07-01

谷歌发布Nano Banana 2 Lite 4秒出图1元4张

先说几个关键信息:谷歌DeepMind又给图像生成赛道添了新选项。7月1日发布的消息,Nano Banana 2 Lite正式亮相。这个名字听起来像是水果命名系列大爆发,实际上它的技术代号是Gemini 3 1 Flash Lite Image,属于Gemini 3 1家族。最大的卖点就两个:快,便

技嘉专业电竞装备助力2025 CFS世界总决赛
业界动态 · 2026-07-01

技嘉专业电竞装备助力2025 CFS世界总决赛

2025CFS世界总决赛将于12月3日至14日在重庆举行,来自四大赛区的16支战队参赛。技嘉AORUS作为赛事设备合作伙伴,以主板、显示器等专业硬件保障比赛稳定流畅,并通过赛事反哺研发的闭环模式支持电竞发展。