游乐游手机版
首页/AI热点日报/热点详情

马斯克20万GPU训练Grok-3 数学推理超越DeepSeek R1

类型:热点整理2026-06-30
Grok-3用20万GPU训练,数学、科学、编码测试全面夺冠,AIME2025获93分,Elo超1400。能计算火星发射窗口并生成3D轨道模拟,获NASA认证。同步推出DeepSearch智能体。
刚刚结束的直播里,xAI团队放了个大招:Grok-3,这个用了20万块GPU炼出来的AI模型,性能表现几乎让人重新定义“最强”。背后支撑它的,是全球最大超算集群Colossus。我们来拆解一下这个模型到底强在哪,以及它凭什么号称“地球最聪明”。 **核心看点:** 1. Grok-3能计算地球到火星的发射窗口,生成精确的3D轨道模拟,结果被NASA工程师认证为“完全正确”。 2. 在数学、科学问答、编码等多个基准测试中,Grok-3全面夺冠,AIME 2025数学测试纪录被它刷新。 3. 它的训练计算量是Grok-2的10倍,Elo评分突破1400,这是当下全球AI排行的顶峰。

刚刚,马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学推理!彻底碾压 OpenAI...

马斯克在直播里自信放话:“Grok-3是地球上最聪明的AI大模型。” 从这次发布的技术细节看,这话并非空xue来风。xAI团队投入了20万块H100 GPU,分两个阶段训练——第一阶段用10万块跑了122天,第二阶段用20万块又烧了92天。这样的算力投入,换来的成果确实惊人。 研究人员现场抛出了一个硬核问题:计算地球到火星的发射窗口,并生成3D轨道模拟。在Think模式下(也就是高级推理模式),Grok-3的推理过程完全是教科书级别的:先用开普勒定律计算最优转移轨道,再生成完整的3D动画展示飞船路径,最后还能给出精确的返回窗口。现场核对的结果是,NASA工程师直接点头:“Grok-3的计算完全正确。” 相比之下,GPT-4、o1、o3-mini(high)等模型,在这同一个任务上全部推进失败。 更让人意外的是Grok-3在基准测试中的表现。它登上了最新LMSYS Arena排行榜的顶端,Elo评分突破1400,成为全球AI之巅。在AIME 2025数学测试中,它拿到93分(满分100),几乎达到数学专业水准;科学问答(GPQA)和编码(LCB)等多个领域也全面刷新了最先进水平(SOTA)。DeepSeek-R1、Gemini-2 Pro、GPT-4o这些位居一线的模型,在这些测试中全部被拉开差距。 除了推理能力,马斯克还顺带推出了一款搜索神器——DeepSearch。这本质上是一个AI智能体,不仅能全网检索信息,还能结合AI推理输出高质量答案。研发团队在现场演示时问:“下一次SpaceX星舰发射是什么时候?” DeepSearch立刻联网检索,在左侧完整展示搜索和推理过程,最终精准回应:2025年2月24日,数据源直接标注为SpaceX官网。整个过程比传统搜索快出数倍,用户不需要自己翻阅大量网页。 想第一时间体验Grok-3,现在订阅X平台的Premium Plus会员即可解锁。网页版入口是grok.com,App Store搜索Grok AI就能下载。如果需要使用高级推理和DeepSearch功能,则需要订阅SuperGrok版本。马斯克承诺,一周内Grok-3所有功能就会上线,几个月内还将全面开源。 从算力投入、研发速度到实机演示的表现来看,这波确实是一场对OpenAI的正式反击。Grok-3的到来,意味着AI大模型的竞争,继2019年以后又迈入了一个全新阶段。
来源:https://www.53ai.com/news/LargeLanguageModel/2025021815364.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。