马斯克20万GPU训练Grok-3 数学推理超越DeepSeek R1_AI热点日报

马斯克20万GPU训练Grok-3 数学推理超越DeepSeek R1

类型：热点整理2026-06-30

Grok-3用20万GPU训练，数学、科学、编码测试全面夺冠，AIME2025获93分，Elo超1400。能计算火星发射窗口并生成3D轨道模拟，获NASA认证。同步推出DeepSearch智能体。

刚刚结束的直播里，xAI团队放了个大招：Grok-3，这个用了20万块GPU炼出来的AI模型，性能表现几乎让人重新定义“最强”。背后支撑它的，是全球最大超算集群Colossus。我们来拆解一下这个模型到底强在哪，以及它凭什么号称“地球最聪明”。 **核心看点：** 1. Grok-3能计算地球到火星的发射窗口，生成精确的3D轨道模拟，结果被NASA工程师认证为“完全正确”。 2. 在数学、科学问答、编码等多个基准测试中，Grok-3全面夺冠，AIME 2025数学测试纪录被它刷新。 3. 它的训练计算量是Grok-2的10倍，Elo评分突破1400，这是当下全球AI排行的顶峰。

刚刚，马斯克20万块GPU炼出Grok-3，暴击DeepSeek R1数学推理！彻底碾压 OpenAI...

马斯克在直播里自信放话：“Grok-3是地球上最聪明的AI大模型。” 从这次发布的技术细节看，这话并非空xue来风。xAI团队投入了20万块H100 GPU，分两个阶段训练——第一阶段用10万块跑了122天，第二阶段用20万块又烧了92天。这样的算力投入，换来的成果确实惊人。研究人员现场抛出了一个硬核问题：计算地球到火星的发射窗口，并生成3D轨道模拟。在Think模式下（也就是高级推理模式），Grok-3的推理过程完全是教科书级别的：先用开普勒定律计算最优转移轨道，再生成完整的3D动画展示飞船路径，最后还能给出精确的返回窗口。现场核对的结果是，NASA工程师直接点头：“Grok-3的计算完全正确。” 相比之下，GPT-4、o1、o3-mini（high）等模型，在这同一个任务上全部推进失败。更让人意外的是Grok-3在基准测试中的表现。它登上了最新LMSYS Arena排行榜的顶端，Elo评分突破1400，成为全球AI之巅。在AIME 2025数学测试中，它拿到93分（满分100），几乎达到数学专业水准；科学问答（GPQA）和编码（LCB）等多个领域也全面刷新了最先进水平（SOTA）。DeepSeek-R1、Gemini-2 Pro、GPT-4o这些位居一线的模型，在这些测试中全部被拉开差距。除了推理能力，马斯克还顺带推出了一款搜索神器——DeepSearch。这本质上是一个AI智能体，不仅能全网检索信息，还能结合AI推理输出高质量答案。研发团队在现场演示时问：“下一次SpaceX星舰发射是什么时候？” DeepSearch立刻联网检索，在左侧完整展示搜索和推理过程，最终精准回应：2025年2月24日，数据源直接标注为SpaceX官网。整个过程比传统搜索快出数倍，用户不需要自己翻阅大量网页。想第一时间体验Grok-3，现在订阅X平台的Premium Plus会员即可解锁。网页版入口是grok.com，App Store搜索Grok AI就能下载。如果需要使用高级推理和DeepSearch功能，则需要订阅SuperGrok版本。马斯克承诺，一周内Grok-3所有功能就会上线，几个月内还将全面开源。从算力投入、研发速度到实机演示的表现来看，这波确实是一场对OpenAI的正式反击。Grok-3的到来，意味着AI大模型的竞争，继2019年以后又迈入了一个全新阶段。

来源：https://www.53ai.com/news/LargeLanguageModel/2025021815364.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。

马斯克20万GPU训练Grok-3 数学推理超越DeepSeek R1

相关热点

延伸阅读