OpenAI正式发布专为长时间编码任务设计的全新Agentic模型——GPT-5.1-Codex-Max。这款创新模型通过突破性的"压缩技术",成功打破了传统上下文窗口的限制,能够在单次任务中稳定处理百万量级的Token,同时显著提升资源利用效率。相较于前代产品,新版模型在响应速度与处理性能方面均有质的飞跃,特别适合需要持续运行的复杂编程场景。
在模型训练过程中,研发团队引入了真实软件工程任务数据集,涵盖代码审查、前端优化、技术问答及PR创建等核心开发环节。权威测试结果显示,该模型在多项编程评估中表现优异:SWE-Bench Verified(500样本)得分达77.9%,SWE-Lancer IC SWE测评取得79.9%成绩,TerminalBench 2.0测评达到58.1%,三项关键指标均超越前代模型。针对Windows开发环境,团队还进行了专项优化,使模型在跨平台支持方面展现出更强适应性。
面对长时间运行任务,GPT-5.1-Codex-Max展现出独特优势。传统模型常因上下文限制导致任务中断,而新模型能在接近容量阈值时自动压缩对话内容,实现持续运行数小时甚至超过24小时。内部测试表明,在复杂代码重构和持续代理循环场景中,该模型能保持稳定输出,有效解决开发过程中的上下文丢失问题。
推理效率的提升进一步增强了模型实用性。在SWE-Bench Verified测试中,新模型完成相同任务所需的思考Token减少30%,通过"Extra High(xhigh)"模式可针对复杂逻辑进行深度分析。这种优化不仅降低了计算成本,还显著提升了代码生成的准确率,特别适合需要多步骤推理的编程任务。
目前,该模型已集成至Codex CLI、IDE扩展、云端服务及代码评审系统,面向ChatGPT高级订阅用户开放使用,涵盖Plus、Pro、Business、Edu及Enterprise全层级。OpenAI计划近期通过API向开发者提供服务,并逐步将其设为Codex平台的默认模型。此次升级标志着Agentic编程工具向工业化应用迈出关键一步,为大规模软件开发提供更可靠的自动化支持。
