Investinglive的分析师Adam+Button于12月12日表示,萨姆·阿尔特曼发布的GPT-5.2模型思维能力测评结果,其数据的飞跃程度令人震惊。这并非渐进式的改良,而是实现了质的飞跃。对于追求通用人工智能纯粹主义的研究者而言,ARC-AGI-2是关键的核心衡量指标。GPT-5.2在该基准测试中的表现,从上一代的17.6%飞跃至52.9%。这表明,大语言模型在抽象推理与泛化能力这一长期短板领域,取得了前所未有的巨大突破。衡量模型经济价值的重要指标GDPval,其得分也从38.8%飙升至70.9%。这突显了模型扩展与推理能力的同步跃升,因为该测试模型已启用了最大的推理效能。尽管近期OpenAI因Gemini模型的扩张成功而略显被动,但此次数据表明,其推理能力正在将过去看似难以企及的目标变为现实。

