AI编程助手Cursor近期公布了一项内部评估结果:在处理周期漫长、高度自主的复杂软件开发任务时,OpenAI推出的最新版本GPT-5.2模型,在代码稳定性与任务一致性方面表现优于Anthropic的Claude Opus 4.5。
为了深入检验模型的实际工程能力,Cursor研究团队发起了一项极具挑战性的实验——从零开始完整实现一个具备基础功能的Web浏览器,涵盖HTML解析器、CSS渲染引擎以及轻量级JavaScript虚拟机等核心底层模块。

测试显示,GPT-5.2在涉及数百万行代码、持续数周的“马拉松式”开发流程中,展现出更强的指令理解精度与上下文维持能力,显著降低了长程任务中常见的“目标偏移”或“意图遗忘”现象。而Claude Opus 4.5尽管在短时、高密度推理任务中表现优异,但在面对此类超大规模系统构建时,更容易出现主动中断执行、简化设计路径,或过早将控制权交还给用户的情况。
目前,Cursor已正式在其开发平台中集成GPT-5.2模型,以进一步探索AI代理独立承担传统上需多人协作、耗时数月的复杂工程项目的能力边界。除浏览器项目外,该模型还成功实现了Windows 7兼容模拟器的构建,并完成了一个超百万行代码规模的跨平台系统迁移任务,有力印证了生成式AI在自主化工程实践中的突破性进展。
