马斯克透露Claude Opus参数达5T Sonnet模型为1T

首页

热心网友

转载

2026-05-19

马斯克最近的一次“无心之言”，似乎意外揭开了Claude模型参数规模的神秘面纱。

事情源于他在社交媒体上透露，xAI的Colossus 2超算正在训练一系列模型，其中最大的一款参数达到了惊人的10万亿（10T）。这份清单还包括6T、1.5T和1T等不同规模的变体。Colossus 2作为其“巨硬计划”的一部分，规划最终将部署超过55万个GPU，峰值功率需求超过1.1GW，此次披露是其训练计划的罕见公开。

在随后的网友互动中，马斯克为了说明自家模型Grok 4.2的竞争力，做了一个直观对比：Grok 4.2的总参数量为0.5T（5000亿），这仅是Sonnet的一半，是Opus的十分之一。言者无意，听者有心——这句话被迅速解读为：Claude Sonnet的参数量约为1T，而Opus则可能达到5T。

这一“泄露”之所以引发热议，是因为Anthropic公司对Claude系列模型的参数规模始终守口如瓶。越是保密，社区的好奇心就越旺盛。有趣的是，网友们的各种推测结果，与马斯克透露的数字竟有不谋而合之处。

Claude各版本参数规模推测史

自Claude系列模型问世以来，其参数规模就成了业界竞猜的谜题。社区主要依靠几种方法来“破译”：通过模型推理成本与吞吐量的关系进行反推；将其性能与已知参数的开源模型在标准基准上对标；分析偶尔流出的内部文件或传闻；以及观察模型的行为特性来推断其底层架构。

回顾Claude 3系列（2024年3月发布），当时就形成了清晰的产品矩阵：Haiku、Sonnet和Opus。行业分析师Alan D. Thompson曾估算，三者的参数量分别约为200亿（20B）、700亿（70B）和2万亿（2T）。而Reddit社区则有讨论认为，Claude 3 Sonnet的参数量可能在1500亿到2500亿之间。

到了Claude 3.5时代，Anthropic最初只发布了Sonnet版本。其速度是Claude 3 Opus的两倍，成本却只有后者的五分之一。一份来自微软等机构的行业估算论文指出，Claude 3.5 Sonnet的参数大约为1750亿。这份报告也顺带给出了其他模型的估算值，例如ChatGPT约1750亿，GPT-4约1.76万亿。

进入Claude 4系列后，参数的猜测出现了更大分歧。行业一度估算Opus 4约在3000亿到5000亿之间，Sonnet 4则在500亿到1000亿之间。随后的4.1版本被视为一次小幅更新，社区讨论不多。甚至有观点认为，Anthropic可能原本无意发布，只是为了应对竞争对手的新闻而保持市场热度。

一个在Hacker News上流传的观点值得注意：它认为Opus 4/4.1可能采用了混合专家（MoE）架构，参数量高达约6T，而后续的4.5版本是通过“蒸馏”技术缩小了规模以提升效率，因此运行速度更快、成本更低，参数量可能仅在2T左右。这反映了行业的一个趋势：从盲目追求参数规模，转向提升现有参数的利用效率。

最新的4.6系列在能力上再进一步。Sonnet 4.6在复杂计算机操作任务上已接近人类水平，而Opus 4.6则在多项专业基准测试中领先于其他前沿模型。随着技术进入深水区，参数估算也变得更困难。

最近，一篇在Substack上发布的技术逆向工程分析提供了新视角。作者通过API的Token吞吐数据，结合开源模型校准，推算出Opus 4.6的激活参数量大约在930亿到1540亿之间。他综合判断，Opus 4.5的参数量应在1.5T到2T之间，而它很可能是从参数量可能达5T-6T的Opus 4/4.1蒸馏而来。这一点从API定价上也能得到侧面印证：Opus 4.5/4.6的调用成本仅为Opus 4.1的三分之一。

除了已发布的模型，前几天Anthropic还因配置失误，意外泄露了一个内部代号为“Capybara”、开发名称为“Claude Mythos”的未发布模型。泄露文件用“质的飞跃”来形容它，称其在多项测试中显著超越Opus 4.6，可能是公司迄今开发的最强大模型。有传言称，其参数量达到了10T。

从社区持续不断的推测，到马斯克意外的侧面印证，Claude的参数之谜始终牵动着业界的神经。这场“竞猜”背后，反映的正是整个行业对模型规模、效率与性能之间平衡点的持续探索。

来源:https://www.163.com/dy/article/KQ5K0LVB0511DSSR.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：AI开发流程优化：WorkBuddy技能生成与调用方法详解下一篇：爆火AI框架Hermes Agent两月斩获4.7万星是下一个风口吗

热门推荐

算力时代电力价值重估能源如何支撑数字经济

近日，国家能源局联合发改委、工信部、国家数据局正式印发《关于促进人工智能与能源双向赋能的行动方案》。这份重磅文件的核心思路非常清晰：一方面，以坚实的能源基础支撑人工智能（AI）的快速发展；另一方面，利用AI技术赋能能源行业转型升级。其核心目标是推动能源、算力、应用场景、数据与算法模型五大关键要素深度

热心网友

05.20

智谱清影与Runway Gen3视频生成模型对比评测

在挑选文生视频工具时，若您正在智谱清影与Runway Gen-3之间权衡，那么了解两者在生成效果上的具体差异，将有助于您做出更明智的选择。本文将从画质清晰度、细节纹理、运动自然度与视频连贯性等核心维度，通过实测对比为您详细解析。一、画质与分辨率表现首先对比硬性指标。智谱清影基于CogVideoX

热心网友

05.20

通义万象制作数据可视化科技背景的实用教程

想用通义万相生成一张科技感十足的数据可视化背景，但出来的画面总觉得少了点“内味儿”？数字界面、粒子流、电路纹理这些关键元素一个不见，画面平平无奇？这通常不是工具的问题，而是提示词没有精准锚定科技可视化的核心要素，或者模型参数没调到最佳状态。别急，下面这几种方法，能帮你把想法精准地“翻译”成画面。一

热心网友

05.20

Vidu视频慢动作与快进效果制作教程

想要在Vidu生成的视频中实现流畅的慢动作或快进效果？虽然模型界面没有提供直接调整播放速度的滑块，但通过巧妙的提示词设计、利用内置功能，或结合后期处理工具，你完全可以精准掌控视频的节奏与时间感。本文将为你详细解析四种实用方法，从生成前到生成后，全方位满足你的创作需求。一、通过精准提示词引导运动节奏

热心网友

05.20

海螺AI学术论文查重降重功能实测与效果分析

当您使用海螺AI生成的英文论文在提交查重时遭遇高重复率或AIGC检测异常，请不要急于归咎于工具本身。核心原因在于，尽管AI生成的文本格式标准、语法地道，但其语言模式和常见短语组合，并未针对知网、维普、万方等中文查重数据库的语义比对逻辑进行专门优化。换言之，机器认为流畅自然的表达，在查重系统的算法看来

热心网友

05.20