揭秘GPT、Claude、Gemini参数量：仅凭API就能推算？

首页

热心网友

转载

2026-05-17

近期，一项发表于 arXiv 预印本平台的研究在 AI 技术圈内引发了广泛关注。研究者李博杰提出了一种名为“不可压缩知识探针”的创新评测框架，其目标极具挑战性：仅通过黑盒 API 调用，逆向估算任意大语言模型的实际参数规模。

这项研究的灵感，源于一项持续三年的非正式测试。团队长期向各代主流大模型提问同一个冷门问题：“你了解中国科学技术大学的 Hackergame 吗？”——这是一项知名的 CTF 网络安全挑战赛。这个看似简单的提问，如同一个时间戳，清晰地揭示了模型对世界知识认知的演进过程。

观察结果颇具启发性：2024年5月，GPT-4o 的回答仍存在明显的“幻觉”与事实错误；至2025年2月，Claude 3.7 Sonnet 已能准确列举2024年赛季的19道赛题；而到2026年4月，多个前沿模型已能精确回忆连续多届赛事的诸多具体细节。

正是这一现象，催生了正式的研究。在 DeepSeek-V4 发布后，研究团队利用 AI 智能体耗时四天，自主构建了一套完整的 IKP 数据集。该数据集包含1400个问题，并依据信息稀缺性划分为7个层级，随后在涵盖27家厂商的188个模型上进行了全面测试与评估。

核心假设与方法论

整个研究的基石是一个核心假设：模型的逻辑推理能力或许可以通过训练技巧进行压缩或“蒸馏”，但对于冷门“事实性知识”的记忆容量，却难以被大幅压缩。这部分能力，主要取决于模型的物理参数规模——参数越多，能够记忆的“冷知识”潜力就越大。

基于这一思路，研究者在89个参数量已知的开源模型上（规模从1.35亿到1.6万亿参数不等），拟合出了事实准确率与参数量之间的对数线性关系。拟合优度 R² 高达0.917，显示出极强的相关性。随后，他们便利用这一关系，对主流闭源大模型的参数量进行了逆向估算。

根据论文给出的估算结果（其90%置信区间约为0.3至3倍），几个备受关注的 AI 模型规模浮出水面：

GPT-5.5：约 9 万亿参数
Claude Opus 4.7：约 4 万亿参数
GPT-5.4：约 2.2 万亿参数
Claude Sonnet 4.6：约 1.7 万亿参数
Gemini 2.5 Pro：约 1.2 万亿参数

除了这些估算数据，论文还揭示了两项有趣的发现：

其一，模型记忆研究者的模式并不完全取决于“学术名气”。论文引用数量和 h 指数并不能有效预测一位研究者是否会被模型记住。模型更倾向于记住那些在特定领域产生了实质性、标志性影响的学术工作，而非那些虽然高产但影响力相对分散的学者。

其二，通过对跨越三年的96个开源模型数据进行分析，研究者发现模型事实记忆容量的“时间系数”在统计上几乎为零。这意味着，随着时间推移，模型在同等参数规模下记住事实的能力并没有显著提升。这一发现与此前“Densing Law”所预测的模型效率随时间提升的规律相悖。研究者据此认为，当前的推理能力基准测试可能已趋于饱和，而事实容量仍然主要受制于最“硬”的约束——参数规模。

社区反响：数据引发的连锁猜想与质疑

这组直观的估算数据迅速传播，同时也引爆了巨大的争议与讨论。

有技术博主将这组估算数据与近期 Claude Opus 4.7 在部分长文本任务中用户主观体验的波动联系起来，推演出一套完整的叙事：Anthropic 由于算力储备仅为 OpenAI 的四分之一，在训练了 Mythos 模型后资源见底，被迫将 Opus 4.7 的参数量从上一代的 5.3T “反向升级”阉割至 4T；而 OpenAI 则凭借充足的算力将 GPT-5.5 堆叠到了 9T，从而实现了用户体验上的反转。

当然，更多的声音则是对估算数字和方法论本身提出了不同程度的质疑。

对于 GPT-5.5 约 9 万亿参数的估算，不少行业从业者感觉与实际服务体验不符。有观点指出，如果规模真达到这一量级，以 OpenAI 现有的基础设施，难以支撑其此前的快速迭代与推出节奏。此外，从 GPT-5.4 到 GPT-5.5 的性能提升幅度，似乎也与近10倍的参数差距并不匹配。有人认为，两者规模之比约在2倍左右可能更为合理。

方法论层面也受到了挑战。一个关键的质疑点在于：通过定向引入“合成数据”进行针对性微调，同样能显著提升模型对特定冷门知识的掌握度。这直接动摇了“事实知识不可压缩”这一核心前提的有效性。

估算结果与行业既有认知的冲突，也加剧了争议。根据该方法，Gemini 2.5 Pro 和 Claude Sonnet 的规模约 1.7T，而行业已知的国内模型如 Kimi k2.6 和 GLM 5.1 约为 800B。如果参数差距仅在两倍左右，单纯的数据差异似乎极难解释目前两者之间存在的巨大性能鸿沟。

更直接的矛盾点在于历史数据。业内长期流传 GPT-4 的规模约 1.7T，这与论文对 GPT-5.4 约 2.2T 的估算结果出入极大，引发了对其校准基准可靠性的疑问。

值得注意的是，发起相关讨论的博主本人也补充说明：“这些数字不应被视为事实，置信区间非常大，我私下收到的反馈表明某些模型的估算可能相差甚远。”

建设性探讨：超越争议的思考

在争议之外，技术社区也涌现出许多极具建设性的正向探讨，试图深化对这一问题的理解。

例如，有观点指出，MoE（混合专家）架构和传统的稠密模型在知识压缩与存储效率上可能存在本质不同。在 MoE 模型中，事实知识可能被分散存储在不同的专家网络中，这或许会影响 IKP 方法的测量准确性。因此，建议将这两类模型分开统计，以观察更清晰的趋势。

无论如何，这项研究及其引发的广泛讨论，都指向了一个核心议题：在模型规模成为核心商业机密和竞争壁垒的今天，如何从外部客观、可靠地评估这一关键指标？IKP 框架提供了一种新颖的思路与工具，尽管其准确性、普适性和可靠性仍有待更多实证检验，但它无疑为这场“黑盒猜谜”游戏，投下了一枚引人深思的探针，推动了关于大模型评估方法的深度思考。

来源:https://www.163.com/dy/article/KRSALOBJ0511AQHO.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：文心一言4.0长文档解析收费详情与万字分析价格下一篇：AI购物助手全新上线：个性化推荐精准度提升80%