什么?决定 AI 能力上限的已不再是基础模型,而是外围的「推理编排」(Orchestration)机制。
在底层的 LLM 完全未发生变化的情况下,仅依靠一套 Agentic System,就能让 AI 的智能表现实现显著跃升。
在深入了解「AI 推理与自我改进系统」初创公司 Poetiq 的最新评测后,不少业内人士得出了这一结论。

评测截图(部分)
近日,Poetiq 公布的最新结果显示,在 ARC-AGI-2 测试集上,借助其自研的 meta-system 运行 GPT-5.2 X-High,成绩十分亮眼。ARC-AGI-2 这一测试集常用于衡量当前最先进模型在复杂抽象推理任务上的表现水平。
具体而言,在相同的 Poetiq 测试平台上,GPT‑5.2 X‑High 在完整的 PUBLIC-EVAL 数据集上取得了高达 75% 的成绩。这意味着什么?它比此前的 SOTA(最优成绩)高出约 15%,并且每个问题的处理成本被控制在了 8 美元以内。
这里的 PUBLIC-EVAL 是 ARC 测试的一部分,包含较为基础的推理任务以及标准的 NLP、数学推理测试,适合进行广泛的模型评测,数据集也更公开、更标准化。而 ARC-AGI-2 则包含更多复杂且富有挑战性的推理问题,专门考察模型的抽象推理、常识推理、创新能力等,堪称针对高水平模型的极限测试。

下图展示了各个 SOTA 模型在 PUBLIC-EVAL 数据集上的成绩分布:

值得特别指出的是,Poetiq 并未对 GPT-5.2 进行任何再训练或针对特定模型的优化。也就是说,完全凭借 meta-system 自身的能力,在短短时间内,同时实现了准确率和成本的双重显著改进。
Poetiq 进一步推断:如果在 PUBLIC-EVAL 测试中表现优异的规律能够延续到 ARC Prize 官方的 SEMI-PRIVATE 测试中,那么「GPT-5.2 X-High + Poetiq」的组合,将比以往任何系统配置都更强大、更出色。
ARC Prize 总裁 Greg Kamradt 对此评论道:「很高兴看到 Poetiq 发布 GPT-5.2 X-High 的结果。如果这个成绩能够保持下去,他们的系统看起来能很好地处理模型交换。当然,在 OpenAI API 的基础设施问题解决之前,结果还未得到完全验证。」
这里提到的「模型交换」,指的是系统能够根据不同的任务需求切换不同的模型,而无需对系统或模型本身进行大规模的调整或重新训练。

OpenAI 总裁 Greg Brockman 也转发了这条消息,并表示 GPT-5.2 在 ARC-AGI-2 上已经超越了人类基准成绩。

对于这一全新测试结果,评论区自然出现了更多疑问,例如「每个任务平均需要多长时间」。
Poetiq 回复称:「我们现在没有专门收集这些统计数据,最简单的问题大约在 8 到 10 分钟后就能完成,而最难的问题必须在 12 小时之前终止,以保持在时间限制内。因此,未来肯定还有改进的空间。」

还有人指出:大部分改进似乎来自测试框架和协调机制,而非任何模型特定的调优。在没有进行任何训练变更的情况下,ARC-AGI-2 上的成绩提升了大约 15%,这本身就说明,仅在搜索、路由和终止逻辑方面,就还有巨大的提升空间。
另一个有趣的问题是:为什么在这个设置中,X-High 每个任务的成本反而比 High 还要低?是因为它通过更早找到正确的解决方案而更快收敛,还是因为测试框架更积极地修剪了无效的推理过程?
对于这个问题,Poetiq 肯定了「X-High 只是比 High 更快地收敛到正确的答案」这一观点。

6 人团队打造 Meta-system 系统
Poetiq 是一支由 6 位研究员和工程师组成的团队,多位核心成员来自 Google DeepMind 。
Ian Fischer (联合创始人 & 联席 CEO): 曾是 Google DeepMind 的资深研究员;
Shumeet Baluja (联合创始人 & 联席 CEO): 同样出身于 Google/DeepMind 的资深专家。

Poetiq 能够取得上述成绩,关键在于其构建的 meta-system(元系统)。
Meta-system 不依赖特定的大模型,可以与任何前沿模型配合使用(如 Gemini 3、GPT-5.1、Grok 等),而不是训练或微调模型本身。这意味着它能随着新模型发布快速适配并提升性能。
Poetiq meta-system 构建了一种迭代式推理过程,与传统一次性生成答案的方法截然不同,它有两个主要机制:
迭代式的问题求解循环:系统并不是只向模型提出一次问题,而是利用大语言模型(LLM)生成一个潜在的解决方案,随后接收反馈、分析反馈,并再次调用 LLM 对方案进行改进。这种多步骤、自我改进的过程,使系统能够逐步构建并不断完善最终答案。
自我审计(Self-Auditing):系统能够自主审计自身的运行进度,并自行判断何时已经获得足够的信息、当前解决方案是否令人满意,从而决定终止整个过程。这种自我监控机制对于避免不必要的计算浪费、有效降低整体成本至关重要。
Poetiq 还特别强调,他们所有 meta-system 的适配工作是在新模型发布前完成的,而且系统从未直接接触过 ARC-AGI 任务集。即便如此,它依然在多个不同模型上取得了跨版本、跨模型族的性能提升,这说明 meta-system 对 reasoning 策略具有良好的泛化能力。
正是这种灵活、强大且具备递归能力的架构,使得 Poetiq 这样一支小规模团队,能够在极短时间内取得一系列最先进(SOTA)的成果。
对于这个 meta-system,有人评价道:「太棒了。在模型之上构建智能,而不是在模型内部构建,意味着可以在几个小时内适配新模型,非常高明。适配开源模型,并且成功迁移到新的封闭模型,这表明捕捉到的东西是推理过程本身的基本规律,而不是模型特定的怪癖。」

参考链接:https://poetiq.ai/posts/arcagi_verified/
