GPT-5.5参数规模真相：10T传闻不实，实际仅1.5T

首页

热心网友

转载

2026-05-17

五一假期前夕，AI领域被一则重磅消息引爆：一篇最新论文声称，通过一种创新的“黑盒探测方法”，成功推算出GPT-5.5可能拥有接近10万亿参数的惊人规模。这一数字迅速在技术社区引发热议，因为它比外界普遍推测的GPT-4参数量高出数倍。然而，热度尚未消退，剧情便迎来了反转。

这篇题为《不可压缩知识探针》的论文，由Pine AI首席科学家李博杰发布在预印本平台arXiv上。其公布的估算结果极具冲击力：

GPT-5.5：9.7万亿参数
Claude Opus 4.7：4.0万亿参数
o1：3.5万亿参数

很快，来自加州大学伯克利分校CHAI实验室的Lawrence Chan与英国AISI的研究员Ben Sturgeon对这项研究进行了深入审查。他们发现，论文中存在一些关键的方法论与代码实现偏差。

逻辑的漏洞：从10万亿到1.5万亿的估算缩水内幕

在修正了这些问题后，结论发生了戏剧性变化。最受瞩目的GPT-5.5，其参数估算值从9.7万亿急剧下降至约1.5万亿，并且90%置信区间变得异常宽泛（从2560亿到8.3万亿）。

问题究竟出在哪里？主要集中在以下两个核心环节。

被修饰的拟合曲线

论文作者声称未对模型得分进行“保底处理”，但复现者发现，在计算小型模型得分时，负分被悄然归零了。这一点至关重要：当模型面对完全未知的冷僻知识时，若进行随机猜测，得分很可能为负。移除这一“归零”操作后，小模型的得分显著降低，导致原本陡峭的“得分-参数”拟合曲线趋于平缓，最终使得对大语言模型的参数估算严重高估。

“人工智障”出题：25%的题目本身存在错误

另一个硬伤在于测试数据集的质量。研究者指出，用于探测模型知识容量的那套“冷知识题库”本身质量堪忧。大约四分之一的题目存在歧义（例如研究员姓名重复问题），甚至部分标准答案本身就是错误的。使用这样的数据集来衡量大型语言模型的“知识储备”，其可靠性与准确性自然大打折扣。

更具戏剧性的是，论文作者李博杰后来坦言，这项研究是在AI智能体的辅助下，仅用4天时间完成的早期探索。这种开发模式被Lawrence Chan戏称为“充满槽点的Vibe-coding”。

核心理论依然坚挺

尽管具体数值遭遇“打假”，但这项研究提出的核心思想——不可压缩知识探针理论——依然获得了学术界的认可。这或许是整个事件中最有价值的收获。

简而言之，IKP理论认为，大语言模型的能力可以拆解为两个部分：

程序性能力（如逻辑推理、代码生成）：这部分是“可压缩”的。通过模型架构和训练算法的优化，参数量更小的模型完全可能具备更强的推理能力。
事实性知识（如历史日期、冷门概念）：这部分是“不可压缩”的。你可以将模型视为一个存储设备，记忆一个事实就需要占用一定的“存储空间”。知道就是知道，不知道就是不知道，很难通过压缩或纯粹推理获得。

因此，通过测试模型掌握了多少这类“不可压缩”的冷知识，来反推其参数规模，这个方法论的方向本身是成立的。修正偏差后，基于IKP的估算虽然数值变化巨大，但不同模型之间的相对“知识容量”排名依然具有参考意义。

修正后的估算结果显示：

GPT-5.5：从9.7万亿降至约1.5万亿
Claude Opus 4.7：从4.0万亿降至约1.1万亿
DeepSeek R1（实际大小6710亿）：从4240亿修正至约7600亿

谁才是真正的“知识之王”？

抛开具体的数字争议，这次探测依然揭示了一些关于大模型能力的深刻洞见。

梯队格局： GPT-5.5在超冷门知识（T6级别）的测试表现上依然遥遥领先，稳居第一梯队。Claude Opus 4.7、o1、Grok-4等模型则构成了竞争激烈的第二梯队，其有效知识容量非常接近。

MoE模型的秘密： 研究证实，对于混合专家模型而言，其知识总量取决于模型的总参数量，而非每次推理时激活的参数量。这意味着，若要构建一个知识渊博的AI模型，增加参数总量仍然是无法绕开的硬性条件。

“思考模式”的玄学： 测试还表明，开启“思维链”模式并不能显著增加模型的知识储备。这再次印证了一个直观的道理：深度思考能帮助模型更好地组织和运用已知信息，但无法凭空生成它从未学习过的知识。

Lawrence Chan在总结中略带调侃地指出，这项工作的粗糙风格，确实符合“AI智能体四天速成”项目的典型特征。

Scaling Law失效了吗？

这场“参数神话”的破灭，与其说是一次失败，不如说是一次有益的行业纠偏。它提醒我们：盲目崇拜参数规模的时代正在成为过去。

GPT-5.5的估算参数从10万亿“缩水”到1.5万亿，绝不意味着它能力变弱。恰恰相反，这可能暗示着OpenAI在训练数据质量、模型训练效率和神经网络架构优化上取得了更惊人的突破，能够以更少的参数实现更强大的综合性能。

正如研究者所言，GPT-5.5的确切参数规模我们依然无法确定。但IKP这种方法，为我们窥探那些如同“黑箱”的巨型语言模型的内部结构，开辟了一条新的、颇具潜力的技术路径。它启示我们，在通往通用人工智能的道路上，我们追求的或许不再是单纯的“更大的存储硬盘”，而是“更高效、更智能的数据索引与处理范式”。

原论文作者李博杰也对此保持了开放态度，他承认早期估算存在很大不确定性，并直言“任何单一的点估计都不够诚实”。他将IKP视为一个有价值的研究起点，而非终点，期待后续工作能将其进一步完善。

来源:https://www.163.com/dy/article/KS164EH10511ABV6.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：Llama 3多卡并行NCCL初始化失败排查与显卡互联配置下一篇：AI直播预告视频制作教程：快速生成专业宣传片

热门推荐

阿里AI生态全景解析：从夸克到通义千问的流量入口布局与未来展望

如果你发现阿里系AI应用近期密集上线、品牌标识迅速统一、生态能力集中释放，这并非偶然——背后是一场精心布局的战略升级。阿里正在全面重构其AI时代的流量入口体系，具体正沿着以下几条关键路径加速推进。一、品牌体系收束：从多头并进到千问单极过去，阿里在AI产品线上采取分散布局：夸克侧重智能搜索，灵光聚

热心网友

05.17

业界动态

UiPath中国名称是什么？五大国产RPA替代软件推荐

2023年初，一家欧洲奢侈品牌的中国区数字化负责人，收到了一份令人尴尬的年度审计报告。在“业务流程自动化覆盖率”这项关键指标上，中国区在全球各分公司的排名中，位列倒数第三。总部力推的UiPath平台，在中国团队的实际使用率竟不足30%。报告一针见血地指出，问题并非出在态度上，而是源于“工具与土壤的错

热心网友

05.17

业界动态

Excel跨表提取整行数据的实用方法与步骤详解

在Excel数据分析与报表制作中，跨工作表提取整行信息是一项常见且关键的操作。无论是进行多表数据整合、制作动态查询看板，还是完成日常数据核对，掌握高效的跨表提取技巧都能显著提升工作效率。本文将系统介绍六种实用方法，涵盖从基础函数到自动化工具的多种场景，帮助您根据数据结构和任务复杂度灵活选择最佳方案。

热心网友

05.17

业界动态

小红书数据采集工具哪个好？免费采集软件推荐与使用指南

在小红书运营和内容创作中，分析爆款笔记、借鉴优质同行文案是提升账号表现的关键。然而，手动逐个点开笔记查看不仅耗时耗力，效率也难以保证。市面上虽然存在不少数据采集工具，但许多都需要付费订阅。实际上，也有免费且功能强大的替代方案，例如“实在Agent”平台推出的小红书采集智能体。它集成了热门笔记采集分析

热心网友

05.17

业界动态

实在智能RPA财务机器人价格解析与选购全攻略

在探讨实在智能RPA财务机器人的市场价格时，许多企业会发现其报价并非固定数值，而是呈现出从数千元到数十万元不等的宽幅区间。这种价格差异的背后，实际上是品牌实力、功能配置、性能水平、服务支持以及企业具体需求等多重因素共同作用的结果。要清晰理解实在智能RPA财务机器人的定价逻辑，我们可以从以下几个核心

热心网友

05.17