你可能会觉得,大模型的推理成本这两年已经降了不少,但接下来这个消息,恐怕会让你重新定义“便宜”这个词。
据知情人士透露,就在本月初,OpenAI的工程师向团队内部汇报了一项重要进展——依托多项全新研发的优化技术,他们成功找到了一套能将模型推理成本直接砍掉一半以上的方案。别小看这个数字,在大模型大规模部署的当下,成本每降一个百分点,都意味着商业模型和竞争格局的剧烈变化。
更具体的场景是:当这套技术被应用到无免费或付费账户的访客ChatGPT使用场景后,过去需要大量英伟达GPU来支撑的繁重推理任务,竟然一度被压缩到只需要数百块GPU就能搞定。效率提升有多显著,可见一斑。
说到这里,就不得不提另一个重磅消息——OpenAI与博通联合研发的ASIC芯片项目,代号“墨西哥胡椒”。这颗芯片完全是从零开始、针对大模型推理而设计的。当专用芯片彻底摆脱通用GPU架构的束缚时,带来的就不再是温和的升级,而是实质性的重构。据透露,仅靠这颗芯片,推理成本最高可以直接再降一半。
当然,硬件突破从来不是孤立事件。随着头部AI厂商开始掌握自主算力源头,对英伟达GPU的依赖正在逐步减少。曾经由通用硬件的产能与定价权构成的制约,正在被一一打破。这意味着,整个AI生态的话语权,正在静悄悄地发生转移——谁掌握算力底座,谁就掌握未来。

