首页 游戏 软件 资讯 排行榜 专题
首页
AI
揭秘GPT、Claude、Gemini参数量:仅凭API就能推算?

揭秘GPT、Claude、Gemini参数量:仅凭API就能推算?

热心网友
48
转载
2026-05-17

近期,一项发表于 arXiv 预印本平台的研究在 AI 技术圈内引发了广泛关注。研究者李博杰提出了一种名为“不可压缩知识探针”的创新评测框架,其目标极具挑战性:仅通过黑盒 API 调用,逆向估算任意大语言模型的实际参数规模。

这项研究的灵感,源于一项持续三年的非正式测试。团队长期向各代主流大模型提问同一个冷门问题:“你了解中国科学技术大学的 Hackergame 吗?”——这是一项知名的 CTF 网络安全挑战赛。这个看似简单的提问,如同一个时间戳,清晰地揭示了模型对世界知识认知的演进过程。

观察结果颇具启发性:2024年5月,GPT-4o 的回答仍存在明显的“幻觉”与事实错误;至2025年2月,Claude 3.7 Sonnet 已能准确列举2024年赛季的19道赛题;而到2026年4月,多个前沿模型已能精确回忆连续多届赛事的诸多具体细节。

正是这一现象,催生了正式的研究。在 DeepSeek-V4 发布后,研究团队利用 AI 智能体耗时四天,自主构建了一套完整的 IKP 数据集。该数据集包含1400个问题,并依据信息稀缺性划分为7个层级,随后在涵盖27家厂商的188个模型上进行了全面测试与评估。

核心假设与方法论

整个研究的基石是一个核心假设:模型的逻辑推理能力或许可以通过训练技巧进行压缩或“蒸馏”,但对于冷门“事实性知识”的记忆容量,却难以被大幅压缩。这部分能力,主要取决于模型的物理参数规模——参数越多,能够记忆的“冷知识”潜力就越大。

基于这一思路,研究者在89个参数量已知的开源模型上(规模从1.35亿到1.6万亿参数不等),拟合出了事实准确率与参数量之间的对数线性关系。拟合优度 R² 高达0.917,显示出极强的相关性。随后,他们便利用这一关系,对主流闭源大模型的参数量进行了逆向估算。

根据论文给出的估算结果(其90%置信区间约为0.3至3倍),几个备受关注的 AI 模型规模浮出水面:

  • GPT-5.5:约 9 万亿参数
  • Claude Opus 4.7:约 4 万亿参数
  • GPT-5.4:约 2.2 万亿参数
  • Claude Sonnet 4.6:约 1.7 万亿参数
  • Gemini 2.5 Pro:约 1.2 万亿参数

除了这些估算数据,论文还揭示了两项有趣的发现:

其一,模型记忆研究者的模式并不完全取决于“学术名气”。论文引用数量和 h 指数并不能有效预测一位研究者是否会被模型记住。模型更倾向于记住那些在特定领域产生了实质性、标志性影响的学术工作,而非那些虽然高产但影响力相对分散的学者。

其二,通过对跨越三年的96个开源模型数据进行分析,研究者发现模型事实记忆容量的“时间系数”在统计上几乎为零。这意味着,随着时间推移,模型在同等参数规模下记住事实的能力并没有显著提升。这一发现与此前“Densing Law”所预测的模型效率随时间提升的规律相悖。研究者据此认为,当前的推理能力基准测试可能已趋于饱和,而事实容量仍然主要受制于最“硬”的约束——参数规模。

社区反响:数据引发的连锁猜想与质疑

这组直观的估算数据迅速传播,同时也引爆了巨大的争议与讨论。

有技术博主将这组估算数据与近期 Claude Opus 4.7 在部分长文本任务中用户主观体验的波动联系起来,推演出一套完整的叙事:Anthropic 由于算力储备仅为 OpenAI 的四分之一,在训练了 Mythos 模型后资源见底,被迫将 Opus 4.7 的参数量从上一代的 5.3T “反向升级”阉割至 4T;而 OpenAI 则凭借充足的算力将 GPT-5.5 堆叠到了 9T,从而实现了用户体验上的反转。

当然,更多的声音则是对估算数字和方法论本身提出了不同程度的质疑。

对于 GPT-5.5 约 9 万亿参数的估算,不少行业从业者感觉与实际服务体验不符。有观点指出,如果规模真达到这一量级,以 OpenAI 现有的基础设施,难以支撑其此前的快速迭代与推出节奏。此外,从 GPT-5.4 到 GPT-5.5 的性能提升幅度,似乎也与近10倍的参数差距并不匹配。有人认为,两者规模之比约在2倍左右可能更为合理。

方法论层面也受到了挑战。一个关键的质疑点在于:通过定向引入“合成数据”进行针对性微调,同样能显著提升模型对特定冷门知识的掌握度。这直接动摇了“事实知识不可压缩”这一核心前提的有效性。

估算结果与行业既有认知的冲突,也加剧了争议。根据该方法,Gemini 2.5 Pro 和 Claude Sonnet 的规模约 1.7T,而行业已知的国内模型如 Kimi k2.6 和 GLM 5.1 约为 800B。如果参数差距仅在两倍左右,单纯的数据差异似乎极难解释目前两者之间存在的巨大性能鸿沟。

更直接的矛盾点在于历史数据。业内长期流传 GPT-4 的规模约 1.7T,这与论文对 GPT-5.4 约 2.2T 的估算结果出入极大,引发了对其校准基准可靠性的疑问。

值得注意的是,发起相关讨论的博主本人也补充说明:“这些数字不应被视为事实,置信区间非常大,我私下收到的反馈表明某些模型的估算可能相差甚远。”

建设性探讨:超越争议的思考

在争议之外,技术社区也涌现出许多极具建设性的正向探讨,试图深化对这一问题的理解。

例如,有观点指出,MoE(混合专家)架构和传统的稠密模型在知识压缩与存储效率上可能存在本质不同。在 MoE 模型中,事实知识可能被分散存储在不同的专家网络中,这或许会影响 IKP 方法的测量准确性。因此,建议将这两类模型分开统计,以观察更清晰的趋势。

无论如何,这项研究及其引发的广泛讨论,都指向了一个核心议题:在模型规模成为核心商业机密和竞争壁垒的今天,如何从外部客观、可靠地评估这一关键指标?IKP 框架提供了一种新颖的思路与工具,尽管其准确性、普适性和可靠性仍有待更多实证检验,但它无疑为这场“黑盒猜谜”游戏,投下了一枚引人深思的探针,推动了关于大模型评估方法的深度思考。

来源:https://www.163.com/dy/article/KRSALOBJ0511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

AI编程基准测试新作发布主流模型表现引热议
AI
AI编程基准测试新作发布主流模型表现引热议

编辑|Sia SWE-Bench的缔造者们,最近又扔出了一枚重磅冲击波——一个堪称地狱级难度的新基准测试。 结果一出,整个圈子都安静了。 Claude Opus 4 7、GPT-5 4、GPT-5 mini、Gemini 3 1 Pro、Gemini 3 Flash……这一代所有站在金字塔尖的顶级模

热心网友
05.16
Claude Code创始人谈编程未来:代码将简化为百行以内
AI
Claude Code创始人谈编程未来:代码将简化为百行以内

在Anthropic公司内部,有这样一个角色:他一行代码不写,每天却能合并几十甚至上百个Pull Request。这个人就是Boris Cherny,Claude Code的缔造者。 在最近的AI Ascent 2026大会上,他接受了红杉资本合伙人Lauren Reeder的专访,分享了一个在外界

热心网友
05.16
Claude获亚马逊50亿美元投资与5GW算力支持 贝索斯布局AI新格局
AI
Claude获亚马逊50亿美元投资与5GW算力支持 贝索斯布局AI新格局

AI领域的军备竞赛,刚刚刷新了所有人的认知。 4月20日,Anthropic与亚马逊联手投下了一枚深水冲击波——双方签署了一份史无前例的超级AI基础设施协议。其规模之大,足以重新定义行业竞争的底层逻辑。 千亿美元豪赌:锁定未来十年的算力 这份协议的核心数字令人震撼:1000亿美元,为期十年,全部投入

热心网友
05.16
Claude金融智能体十大模板解析与应用指南
AI
Claude金融智能体十大模板解析与应用指南

Claude这次瞄准的,可是金融行业最核心的战场。 就在昨晚,Anthropic一口气发布了十款面向金融服务业的“开箱即用”智能体模板,覆盖了研究与分析、风险合规、客户运营和财务工作流等关键领域。这些模板,精准地指向了金融从业者日常工作中那些最耗时、最繁琐的核心环节——从制作招投标书、审查KYC文件

热心网友
05.16
Claude Code设计理念解析与核心优势解读
AI
Claude Code设计理念解析与核心优势解读

在AI编程助手领域,Claude Code已成为行业事实标准。如今各类智能体(Agent)架构设计,几乎都能看到它的设计理念渗透其中。其架构简洁优雅,背后的设计逻辑值得每一位开发者深入探究。 上图完整展示了Claude Code的核心架构:Agent Loop作为系统大脑驱动决策循环,Permiss

热心网友
05.16

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

美国将比特币列为国家安全资产对全球局势与加密市场的影响
web3.0
美国将比特币列为国家安全资产对全球局势与加密市场的影响

在全球紧张局势下,美国国防部将比特币重新定义为国家安全资产,反映出其战略价值提升。美国国库持有大量比特币,大国博弈中加密货币已成为国家安全筹码。市场普遍认为这一身份转变将增强机构需求,推动价格上涨。后续需关注美国政策动向、地缘政治变化及相关监管动态。

热心网友
05.17
Windows蓝屏代码0x00000012修复指南 内核异常解决方法详解
系统平台
Windows蓝屏代码0x00000012修复指南 内核异常解决方法详解

当Windows系统遭遇蓝屏时,那些含义不明的错误代码往往令人困扰。例如代码0x00000012 (TRAP_CAUSE_UNKNOWN),其官方解释为“内核捕获到无法识别的异常”。这就像一个笼统的系统警报,提示底层发生了问题,但并未指明具体故障点。此类错误通常不关联特定系统文件,反而更常见于新硬件

热心网友
05.17
Win10系统安装Java环境详细步骤与JDK配置指南
系统平台
Win10系统安装Java环境详细步骤与JDK配置指南

必须安装JDK并配置JA VA_HOME与Path环境变量;先下载JDK 17 21 LTS版本,安装时取消“Add to PATH”,再手动设置JA VA_HOME指向安装目录,并在Path中添加%JA VA_HOME% bin,最后用ja va -version等命令验证。 在Windows 1

热心网友
05.17
Mac图片文字提取技巧 苹果自带OCR功能使用指南
系统平台
Mac图片文字提取技巧 苹果自带OCR功能使用指南

对于Mac用户而言,从图片中提取文字其实无需额外安装第三方OCR软件。macOS系统自身就集成了强大的光学字符识别功能,它基于苹果自研的Vision框架与Core ML机器学习模型。最大的优势在于完全离线运行,所有图片处理均在本地完成,无需上传至任何云端服务器,充分保障了用户的隐私与数据安全。本文将

热心网友
05.17
Linux服务器开启TCP Keepalive防止数据库连接断开教程
系统平台
Linux服务器开启TCP Keepalive防止数据库连接断开教程

数据库长连接在静默中突然断开,是很多运维和开发都踩过的坑。你以为启用了TCP Keepalive就万事大吉?真相是,如果应用层、内核层和基础设施层的配置没有协同对齐,这个“保活”机制基本等于形同虚设。 问题的核心在于,一个完整的TCP Keepalive生效链条涉及三个环节:你的应用程序或连接池是否

热心网友
05.17