首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
马斯克Grok 4.1发布:AI榜单大洗牌,盲测排名登顶

马斯克Grok 4.1发布:AI榜单大洗牌,盲测排名登顶

热心网友
84
转载
2025-12-02

就在OpenAI正式推出GPT-5.1、业界热议“情商”表现之际,埃隆·马斯克(Elon Musk)也带着他的xAI公司,迅速加入了这场围绕“AI交互体验”的激烈竞争。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

\

最新消息显示,xAI正式发布了Grok 4.1,这是对现有Grok 4模型的一次重大升级,目前已在grok.com、X平台以及iOS和Android应用中面向所有用户全面开放。据官方介绍,新版模型在创意表达、情感互动与协同交流方面表现尤为出色,其产生幻觉的概率仅为前代模型的三分之一。

更引人瞩目的是,在一个公开的“盲测”竞技平台(LMArena)上,Grok 4.1的“思考模式”版本已悄然登顶总榜首位。更令人惊讶的是,即便是其“非推理”的快速模式,也成功击败了其他所有模型的“完整推理”模式。

这场突如其来的“榜首易主”,无疑为日趋白热化的AI竞赛增添了更多火药味。

那么,Grok 4.1究竟带来了哪些升级?

xAI本次推出了两个Grok 4.1模型版本:Grok 4.1(非推理模式)和Grok 4.1 Thinking(思考模式)。这两个模型均可免费使用,但付费用户面临的限制会更少。

xAI表示,新版模型能够更细腻地理解隐含意图,与之对话引人入胜,同时也更好地保持了人设的一致性。

为了优化模型的风格调性、人格特质与实用价值,xAI采用了前沿的代理型推理模型(agentic reasoning models)作为“奖励模型”,在大规模环境中自主评估并迭代优化模型的回答质量。

在11月1日至14日的“静默上线”期间,xAI在真实流量中进行了盲测式的成对比较评估。结果显示,在64.78%的情况下,用户表现出对Grok 4.1的明显偏好。

\

在“盲测”中力压群雄的Grok 4.1,到底有多强?

Grok 4.1在盲测环境下的人类偏好评估中,树立了新的行业标杆。

LMArena作为一个开源工具,用户可以通过并行、盲测的方式,比较不同大语言模型的实际表现。在这个竞争最为激烈的“斗兽场”里,Grok 4.1取得了令人瞩目的成绩:

· Grok 4.1的“思考模式”(代号:quasarflux)以1483 Elo的成绩位列总榜第一,领先所有非xAI模型达31分之多。

· Grok 4.1的“非推理模式”(代号:tensor)无需使用“思考词元”(thinking tokens),即可即时生成回答,并以1465 Elo的成绩排名第二。

· 更夸张的是,Grok 4.1的“非推理”模式表现,甚至超越了其他所有模型在“完整推理模式”下的公开排行榜成绩。

\

与之相比,Grok 4此前在该榜单上的综合排名仅为第33位。

“情商”与“文采”,一个都不能少

除了通用能力的提升,xAI还强调新版模型在“软实力”方面的显著进步。

· 情绪智能(Emotional Intelligence)为评估模型在个性与人际互动方面的表现,xAI对Grok 4.1进行了EQ-Bench3测试。这是一项由LLM作为裁判的测试,用于评估模型在主动情绪智能、理解力、洞察力、共情能力和人际技能等方面的表现。

\

· 创意写作能力(Creative Writing)xAI同样测量了Grok 4.1在Creative Writing v3基准测试中的表现。在该测试中,模型需要根据32个不同的写作提示,在3次迭代中生成回答。

\

更少的“幻觉”

快速响应模型在配备搜索工具后,虽能迅速给出答案,但也更容易出现事实性错误。

在Grok 4.1的后训练阶段,xAI重点降低了模型在信息查询类提示中出现事实性“幻觉”的概率。

根据xAI的说法,Grok 4.1出现幻觉的概率仅为此前模型的三分之一,这使其成为xAI迄今为止表现最佳的版本之一。

\

为了验证这一点,xAI不仅在真实的生产流量中进行了评估,还使用了FActScore——一个包含500道人物传记相关问题的公开基准测试。

挑战与未来:真正的对手还在路上

尽管Grok 4.1的“盲测”成绩斐然,但AI领域的王者之争远未结束。

目前,我们尚不清楚它与GPT-5.1相比的真实表现。

更重要的是,谷歌(Google)正在筹备发布Gemini 3.0,这很可能会成为迄今为止最强大的模型。

Grok 4.1的发布,无疑是马斯克在AI竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中,谁能笑到最后,还远未可知。(易句)

来源:https://www.163.com/tech/article/KEKPSTL700097U7T.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

马斯克乘空军一号访华途中发帖引热议 网友期待北京自拍
业界动态
马斯克乘空军一号访华途中发帖引热议 网友期待北京自拍

5月13日,埃隆·马斯克在飞行途中发帖称正乘坐空军一号前往北京,引发网友趣味互动。同时,英伟达CEO黄仁勋经特朗普邀请加入访华行程。此次随特朗普访华的美国商界领袖阵容覆盖科技、金融、航空及农业等多个关键领域,堪称“全明星”阵容。

热心网友
05.14
马斯克乘空军一号访华 黄仁勋同行前往北京
科技数码
马斯克乘空军一号访华 黄仁勋同行前往北京

特斯拉CEO马斯克在社交媒体透露,他正乘坐空军一号前往北京,并幽默回应称此行仅有他与英伟达创始人黄仁勋同行。

热心网友
05.13
马斯克庭审第三日情绪失控 交叉询问现场破防实录
AI
马斯克庭审第三日情绪失控 交叉询问现场破防实录

庭审第三日,马斯克在交叉询问中情绪波动,与自称“不发脾气”的形象形成反差。他承认未细读关键文件,动摇了其“受骗”主张。质询还揭示其早期寻求控制OpenAI未果后,采取了停止注资并挖走核心工程师的做法。其证词前后矛盾,应对方式给陪审团留下了不佳观感。

热心网友
05.13
马斯克Neuralink首例人体植入成功 脑机接口技术迎来重大突破
AI
马斯克Neuralink首例人体植入成功 脑机接口技术迎来重大突破

无影灯下,一颗鲜活的大脑正随着心跳微微搏动,质地柔软,如同尚未凝固的果冻。 上方,一支纯白的机械臂静静悬停,纤细而冷静。 针尖落下。 1 5秒,一根电极精准植入。针尖抬起、平移、再次落下。又一个1 5秒,第二根电极就位。 就这样,1024根比人类发丝更纤细的柔性电极,被这台机器以缝纫机般稳定高效的节

热心网友
05.13
马斯克如何布局太空算力抢占未来科技制高点
科技数码
马斯克如何布局太空算力抢占未来科技制高点

既然赚不到模型的钱,那就赚做模型的人的钱。这恐怕是马斯克最近的算盘。 过去几天,这位科技巨头做了两件看似矛盾的事:一边宣布解散成立仅两年的AI公司xAI,将其并入SpaceX;另一边,将xAI倾力打造的Colossus 1超算集群,整体出租给了竞争对手Anthropic。超过22万张英伟达GPU,加

热心网友
05.12

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

2026年十大加密货币交易所排名与安全选择指南
web3.0
2026年十大加密货币交易所排名与安全选择指南

本文梳理了2026年主流数字资产交易平台的特点与选择策略。重点从安全性、资产丰富度、交易体验、创新功能及合规性等维度进行分析,旨在帮助用户根据自身需求,在众多平台中做出明智选择,而非简单罗列排名。选择平台需综合考量资金安全、操作习惯与长期发展愿景。

热心网友
05.14
2026年全球十大现货交易所排名与深度评测
web3.0
2026年全球十大现货交易所排名与深度评测

本文梳理了2026年现货交易所的竞争格局,从交易深度与流动性、资产安全与合规性、用户体验与产品创新三个维度进行深度分析。文章指出,头部平台在合规与技术创新上持续领跑,新兴交易所在细分市场寻求突破,行业整体呈现出专业化、合规化与用户体验并重的发展趋势,为不同需求的用户提供了多元选择。

热心网友
05.14
2026年最佳加密货币交易平台权威评测与推荐指南
web3.0
2026年最佳加密货币交易平台权威评测与推荐指南

本文梳理了2026年主要数字资产交易平台的综合表现,从安全性、资产多样性、用户体验及创新服务等维度进行分析。榜单反映了行业向合规与专业化发展的趋势,头部平台在技术架构与风控体系上持续投入,新兴平台则凭借细分领域创新获得关注。投资者需结合自身需求,理性评估平台特点与风险。

热心网友
05.14
Aria Networks CEO解读推理技术如何改变AI网络格局
AI
Aria Networks CEO解读推理技术如何改变AI网络格局

今年四月,AI网络初创公司Aria Networks携1 25亿美元融资高调登场,并向业界抛出了一个直指核心的判断:下一阶段AI基础设施的竞争,焦点已不仅仅是堆砌更多的GPU,而在于能否构建一个能充分释放这些算力潜能的“神经网络”。 这家由前Arista和Juniper高管创立、总部位于帕洛阿尔托的

热心网友
05.14
英伟达MIT华人团队开源技术大幅降低大模型推理内存消耗
AI
英伟达MIT华人团队开源技术大幅降低大模型推理内存消耗

仅凭一张家用RTX 4090显卡的24GB显存,就能流畅运行一个拥有320亿参数的AI大模型,一口气读完6份长文档并自动生成周报?这并非极客魔改,而是来自MIT、英伟达与浙江大学研究者的最新突破。 这项名为TriAttention的技术,精准瞄准了大模型推理中的核心瓶颈——KV缓存显存占用。其核心思

热心网友
05.14