11月20日消息,OpenAI于11月19日正式推出GPT-5.1-Codex-Max智能编程模型,该版本在长程推理能力、执行效率与实时交互性能方面均有显著提升。同时,这一全新模型将取代现有的GPT-5.1-Codex,成为Codex集成界面中的默认编程模型。
此次发布紧接在谷歌Gemini 3 Pro之后,但在多项关键编程基准测试中,Codex-Max展现出更卓越的实际表现。例如,在衡量实际软件开发问题解决能力的SWE-Bench Verified测试中,Codex-Max以77.9%的准确率小幅领先Gemini 3 Pro的76.2%。
Codex-Max在Terminal-Bench 2.0测试中同样表现出色,达到58.1%的准确率,而Gemini的准确率为54.2%;在竞争更为激烈的LiveCodeBench Pro编码能力评估中,它与Gemini的2439分持平。
GPT-5.1-Codex-Max引入了一项名为“上下文压缩”(Compaction)的重要架构机制。该技术使模型在接近上下文窗口限制时,能够智能保留关键信息并舍弃冗余细节,从而在跨越数百万token的持续任务处理中保持稳定性能,避免效率衰减。
得益于此,该模型在内部测试中已成功实现超过24小时的无间断复杂任务处理,例如进行多步骤代码重构与自主调试。与此同时,这项技术还带来约30%的token效率提升,有效降低了运行成本与响应延迟。
目前新版模型已全面集成至OpenAI自家的多个Codex开发环境中,涵盖其最新命令行工具Codex CLI、内部代码审核系统以及各类交互式编程界面。
开发者可通过这些工具实时体验模型的强大交互能力,例如在可视化界面中进行强化学习训练,或是模拟光学定律的实现过程。不过GPT-5.1-Codex-Max尚未开放公共API接口,但官方最新消息表示即将对外开放。普通用户则需要订阅ChatGPT Plus、Pro或企业版等付费方案方可使用。
OpenAI透露,公司内部95%的工程师每周都会使用Codex系列工具。自采用以来,这些工程师平均多提交了约70%的代码合并请求,显著提升了产品迭代速度。
尽管Codex-Max具备高度自主性,OpenAI仍强调其定位是编程“助手”而非人类替代品。为保障透明度,模型会生成完整的终端日志与测试引用,方便开发者审核并验证其生成的所有代码。此外,模型默认运行在严格的沙盒环境中,并禁用网络访问功能,以确保操作安全性。
