游乐游手机版
首页/AI教程/文章详情

辅助系统无需微调使GPT-5.2准确率创75%纪录

时间:2026-06-19 13:52
Poetiq构建的元系统无需重新训练或微调模型,仅通过迭代式推理循环和自我审计机制,使GPT-5 2X-High在ARC-AGI-2的PUBLIC-EVAL测试中达到75%准确率,较此前最优成绩提升约15%,且单任务成本控制在8美元以内。该系统可适配Gemini3、GPT-5 1等不同前沿模型,体现了推理策略的泛化能力。

什么?决定 AI 能力上限的已不再是基础模型,而是外围的「推理编排」(Orchestration)机制。

在底层的 LLM 完全未发生变化的情况下,仅依靠一套 Agentic System,就能让 AI 的智能表现实现显著跃升。

在深入了解「AI 推理与自我改进系统」初创公司 Poetiq 的最新评测后,不少业内人士得出了这一结论。

评测截图(部分)

近日,Poetiq 公布的最新结果显示,在 ARC-AGI-2 测试集上,借助其自研的 meta-system 运行 GPT-5.2 X-High,成绩十分亮眼。ARC-AGI-2 这一测试集常用于衡量当前最先进模型在复杂抽象推理任务上的表现水平。

具体而言,在相同的 Poetiq 测试平台上,GPT‑5.2 X‑High 在完整的 PUBLIC-EVAL 数据集上取得了高达 75% 的成绩。这意味着什么?它比此前的 SOTA(最优成绩)高出约 15%,并且每个问题的处理成本被控制在了 8 美元以内。

这里的 PUBLIC-EVAL 是 ARC 测试的一部分,包含较为基础的推理任务以及标准的 NLP、数学推理测试,适合进行广泛的模型评测,数据集也更公开、更标准化。而 ARC-AGI-2 则包含更多复杂且富有挑战性的推理问题,专门考察模型的抽象推理、常识推理、创新能力等,堪称针对高水平模型的极限测试。

下图展示了各个 SOTA 模型在 PUBLIC-EVAL 数据集上的成绩分布:

值得特别指出的是,Poetiq 并未对 GPT-5.2 进行任何再训练或针对特定模型的优化。也就是说,完全凭借 meta-system 自身的能力,在短短时间内,同时实现了准确率和成本的双重显著改进。

Poetiq 进一步推断:如果在 PUBLIC-EVAL 测试中表现优异的规律能够延续到 ARC Prize 官方的 SEMI-PRIVATE 测试中,那么「GPT-5.2 X-High + Poetiq」的组合,将比以往任何系统配置都更强大、更出色。

ARC Prize 总裁 Greg Kamradt 对此评论道:「很高兴看到 Poetiq 发布 GPT-5.2 X-High 的结果。如果这个成绩能够保持下去,他们的系统看起来能很好地处理模型交换。当然,在 OpenAI API 的基础设施问题解决之前,结果还未得到完全验证。」

这里提到的「模型交换」,指的是系统能够根据不同的任务需求切换不同的模型,而无需对系统或模型本身进行大规模的调整或重新训练。

OpenAI 总裁 Greg Brockman 也转发了这条消息,并表示 GPT-5.2 在 ARC-AGI-2 上已经超越了人类基准成绩。

对于这一全新测试结果,评论区自然出现了更多疑问,例如「每个任务平均需要多长时间」。

Poetiq 回复称:「我们现在没有专门收集这些统计数据,最简单的问题大约在 8 到 10 分钟后就能完成,而最难的问题必须在 12 小时之前终止,以保持在时间限制内。因此,未来肯定还有改进的空间。」

还有人指出:大部分改进似乎来自测试框架和协调机制,而非任何模型特定的调优。在没有进行任何训练变更的情况下,ARC-AGI-2 上的成绩提升了大约 15%,这本身就说明,仅在搜索、路由和终止逻辑方面,就还有巨大的提升空间。

另一个有趣的问题是:为什么在这个设置中,X-High 每个任务的成本反而比 High 还要低?是因为它通过更早找到正确的解决方案而更快收敛,还是因为测试框架更积极地修剪了无效的推理过程?

对于这个问题,Poetiq 肯定了「X-High 只是比 High 更快地收敛到正确的答案」这一观点。

6 人团队打造 Meta-system 系统

Poetiq 是一支由 6 位研究员和工程师组成的团队,多位核心成员来自 Google DeepMind 。

Ian Fischer (联合创始人 & 联席 CEO): 曾是 Google DeepMind 的资深研究员;

Shumeet Baluja (联合创始人 & 联席 CEO): 同样出身于 Google/DeepMind 的资深专家。

Poetiq 能够取得上述成绩,关键在于其构建的 meta-system(元系统)。

Meta-system 不依赖特定的大模型,可以与任何前沿模型配合使用(如 Gemini 3、GPT-5.1、Grok 等),而不是训练或微调模型本身。这意味着它能随着新模型发布快速适配并提升性能。

Poetiq meta-system 构建了一种迭代式推理过程,与传统一次性生成答案的方法截然不同,它有两个主要机制:

迭代式的问题求解循环:系统并不是只向模型提出一次问题,而是利用大语言模型(LLM)生成一个潜在的解决方案,随后接收反馈、分析反馈,并再次调用 LLM 对方案进行改进。这种多步骤、自我改进的过程,使系统能够逐步构建并不断完善最终答案。

自我审计(Self-Auditing):系统能够自主审计自身的运行进度,并自行判断何时已经获得足够的信息、当前解决方案是否令人满意,从而决定终止整个过程。这种自我监控机制对于避免不必要的计算浪费、有效降低整体成本至关重要。

Poetiq 还特别强调,他们所有 meta-system 的适配工作是在新模型发布前完成的,而且系统从未直接接触过 ARC-AGI 任务集。即便如此,它依然在多个不同模型上取得了跨版本、跨模型族的性能提升,这说明 meta-system 对 reasoning 策略具有良好的泛化能力。

正是这种灵活、强大且具备递归能力的架构,使得 Poetiq 这样一支小规模团队,能够在极短时间内取得一系列最先进(SOTA)的成果。

对于这个 meta-system,有人评价道:「太棒了。在模型之上构建智能,而不是在模型内部构建,意味着可以在几个小时内适配新模型,非常高明。适配开源模型,并且成功迁移到新的封闭模型,这表明捕捉到的东西是推理过程本身的基本规律,而不是模型特定的怪癖。」

参考链接:https://poetiq.ai/posts/arcagi_verified/

来源:https://www.aiagiai.com/15876.html
上一篇一个AI顶十人,斯坦福毕业生也突然找不到工作了 下一篇英伟达1400亿收编Groq 黄仁勋并购逻辑与收购史
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年最新JetBrains AI助手Windows本地详细安装配置教程(含下载与环境要求)
AI教程 · 2026-07-03

年最新JetBrains AI助手Windows本地详细安装配置教程(含下载与环境要求)

JetBrainsAIAssistant可在Windows上通过IDE内置市场或离线包安装,需匹配新版JetBrainsIDE、账号登录与稳定网络。配置时应关注版本兼容、隐私设置、项目索引、快捷键和代码提交前复核,避免上传密钥与敏感业务资料。

Amazon Q Developer新手安装指南:从下载到首次运行的保姆级教程
AI教程 · 2026-07-03

Amazon Q Developer新手安装指南:从下载到首次运行的保姆级教程

AmazonQDeveloper可为编码、调试、解释项目和生成测试提供辅助。安装前需确认账号、开发环境和插件来源,按IDE或命令行路径完成配置,并在首次运行时注意权限、数据与项目安全。

Amazon Q Developer安装失败怎么办?报错日志排查与升级回滚方案
AI教程 · 2026-07-03

Amazon Q Developer安装失败怎么办?报错日志排查与升级回滚方案

AmazonQDeveloper安装失败通常与版本兼容、网络连接、身份登录、插件残留或权限配置有关。排查时应先确认环境,再查看IDE与终端日志,必要时采用清理重装、固定版本升级或回滚方案。

Amazon Q Developer本地模型运行:下载、路径与性能优化
AI教程 · 2026-07-03

Amazon Q Developer本地模型运行:下载、路径与性能优化

AmazonQDeveloper以云端能力为主,本地模型方案更适合离线补充、代码检索和私有环境辅助。配置时需确认版本、模型来源、路径权限、硬件资源与IDE集成方式,并通过量化、上下文控制和缓存策略优化性能。

Amazon Q Developer插件安装全流程:浏览器编辑器扩展市场配置
AI教程 · 2026-07-03

Amazon Q Developer插件安装全流程:浏览器编辑器扩展市场配置

AmazonQDeveloper可在浏览器控制台、VSCode、JetBrains等环境中辅助写代码、解释项目和生成测试。安装前需确认账号权限、编辑器版本与网络环境,配置时重点关注登录授权、工作区信任、数据权限和团队使用规范。