OpenAI研发高效推理方案降低模型运行成本50%

时间：2026-07-01 12:22

你可能会觉得，大模型的推理成本这两年已经降了不少，但接下来这个消息，恐怕会让你重新定义“便宜”这个词。据知情人士透露，就在本月初，OpenAI的工程师向团队内部汇报了一项重要进展——依托多项全新研发的优化技术，他们成功找到了一套能将模型推理成本直接砍掉一半以上的方案。别小看这个数字，在大模型大规模部

你可能会觉得，大模型的推理成本这两年已经降了不少，但接下来这个消息，恐怕会让你重新定义“便宜”这个词。

据知情人士透露，就在本月初，OpenAI的工程师向团队内部汇报了一项重要进展——依托多项全新研发的优化技术，他们成功找到了一套能将模型推理成本直接砍掉一半以上的方案。别小看这个数字，在大模型大规模部署的当下，成本每降一个百分点，都意味着商业模型和竞争格局的剧烈变化。

更具体的场景是：当这套技术被应用到无免费或付费账户的访客ChatGPT使用场景后，过去需要大量英伟达GPU来支撑的繁重推理任务，竟然一度被压缩到只需要数百块GPU就能搞定。效率提升有多显著，可见一斑。

说到这里，就不得不提另一个重磅消息——OpenAI与博通联合研发的ASIC芯片项目，代号“墨西哥胡椒”。这颗芯片完全是从零开始、针对大模型推理而设计的。当专用芯片彻底摆脱通用GPU架构的束缚时，带来的就不再是温和的升级，而是实质性的重构。据透露，仅靠这颗芯片，推理成本最高可以直接再降一半。

当然，硬件突破从来不是孤立事件。随着头部AI厂商开始掌握自主算力源头，对英伟达GPU的依赖正在逐步减少。曾经由通用硬件的产能与定价权构成的制约，正在被一一打破。这意味着，整个AI生态的话语权，正在静悄悄地发生转移——谁掌握算力底座，谁就掌握未来。

OpenAI研发高效推理方案：模型运行成本降低50%