6位DeepMind前成员打造AI指挥官,成本减半刷新SOTA

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新智元报道
编辑:元宇
【新智元导读】6位前DeepMind成员以元系统重塑大模型调用方式,该系统推出的Gemini 3 Pro优化技术在ARC-AGI-2上以54%的成绩夺得榜首,而成本仅为此前最优方法的一半。
最近,6名前Google DeepMind研究员、工程师又搞大事了。
他们的新初创公司Poetiq没去研发更大、更聪明的模型,而是搭建了一个元系统,该系统可以让前沿大模型自动生成解决特定任务的策略和模型组合。
这样不仅解决了前沿模型难以单独解决复杂真实世界问题的痛点,还将整体推理成本降低了一半。
12月8日,ARC Prize官宣验证了该团队的成果。

由Poetiq推出的Gemini 3 Pro优化技术,在ARC-AGI-2 leaderboard上创下新SOTA,得分高达54%,每任务计算成本仅31美元。
这一突破远超此前模型的最优表现,在leaderboard上力压群雄。
Poetiq团队揭秘

Poetiq初创团队均来自Google DeepMind
Poetiq是一个精干且高度技术型的团队,由6名来自Google DeepMind的研究员与工程师组成。
该创始团队成员一共拥有53年的专业经验,他们在Poetiq的目标是「以更优的推理,铺就通过安全超级智能的最快路径」。

12月5日,这家成立不到一年的公司自豪地宣布:
「Poetiq系统已经大幅超越现有方法,并树立了新的行业最佳表现。」

如上图所示,Poetiq系统在ARC-AGI-2半私有评估集上创下新纪录。
11月20日,Poetiq已经公布了自己在ARC-AGI-2上的强劲表现,此次ARC Prize对Poetiq公布的成绩进行了最新验证。

Poetiq开发的一套纯Gemini配置参与了ARC Prize的最新评估。
该系统以每题30.57美元的成本取得了54%的成绩,打破了此前Gemini 3 Deep Think创下的每题成本77.16美元、45%的最佳成绩。
Poetiq团队表示,在ARC-AGI-2公共数据集上,Poetiq系统建立了全新的帕累托前沿,不仅超越以往成果,还进一步推动了成本效益推理的边界。
Poetiq团队将这一成绩,归结为它的元系统。
元系统
在任意模型上构建智能
Poetiq的方法是在任意模型之上构建智能。
其元系统旨在利用任何现成的前沿模型,自动生成能解决特定任务的完整系统,无需构建甚至不需要微调自己的大前沿模型。
这也是为什么Poetiq能在Gemini 3与GPT-5.1发布后数小时内,就将它们快速接入并取得SOTA表现的原因。


如上图所示,Poetiq元系统在ARC-AGI-1和ARC-AGI-2上不仅全面刷新了以往成绩,也再次推进了低成本推理的边界。
相比之下,Gemini 3 Deep Think(预览版)成本明显更高,准确率却更低。Poetiq(Gemini-3-a、b、c)展示了Poetiq如何利用多个大语言模型,在任意成本目标下实现最大化性能。
Poetiq系统可以通过多次调用Gemini-3来程序化地处理ARC-AGI-1和ARC-AGI-2的问题,从而在广泛的计算区间内实现帕累托最优。
Poetiq(Grok-4-Fast)主打极致成本效率,构建于Grok-4-Fast Reasoning模型之上。不仅比原模型报告的结果更便宜、准确率更高,还能达到与价格高两个数量级的模型相当的准确度。
Poetiq(GPT-OSS-b)基于开源权重模型GPT-OSS-120B,在单题不到1美分的成本下仍取得了非常亮眼的准确率。
Poetiq(GPT-OSS-a)基于GPT-OSS-120B的低思考版本,用来展示极限成本条件下的系统表现。
以上这些方案虽然各自都能独立运行,但它们共同的底层是Poetiq灵活的元系统。
这个元系统的核心优势之一即能自动选择模型组合与策略,甚至会自行判断何时要写代码、又该由哪个模型负责写代码。
Poetiq的递归、自我改进系统完全不依赖特定大模型,在接入最新模型时也能充分展现其能力。
使用Poetiq元系统强化主流模型
为了进一步展示Poetiq元系统的能力,研究人员将其应用到多个来自Google DeepMind、OpenAI、Anthropic和xAI的最新模型上。
每一次,Poetiq都实现了「更高准确率+更低成本」的组合。


上图中展示了12个模型(包括ChatGPT、Claude Haiku、Gemini、Grok 4、GPT-OSS)在ARC-AGI-1上经过Poetiq处理后的表现。
Poetiq是如何做到的?秘诀其实只有一句话:
从上到下,全靠大语言模型。
Poetiq使用大模型来构建系统、改进系统、也让系统本身运行起来。
正是这种灵活、强大且递归的系统架构,让Poetiq能快速取得如此一系列SOTA成果。
Poetiq选择开源的具体配置,主要为了展示2个重要理念:
提示词只是接口层,并非智能本体
系统在一个循环式的解题流程中运行:它不会只问一次,而是先让大模型生成一个可能的答案(有时包括代码),根据反馈进行分析,然后再继续利用模型改进答案。
这种多步骤、自我完善的方式,让系统能逐步构建并打磨最终解答。
自我检查
系统会自主检查自己的进展,决定什么时候信息足够、结果可靠,从而自动结束流程。
这种自我监控机制能有效避免浪费算力,让整体成本更低。
为什么选择ARC-AGI?
Poetiq认为ARC-AGI是验证自身核心理念的理想测试场。
大模型蕴含了大量人类知识,但在复杂推理任务上经常出现不稳定的情况。
一个原因是模型表现高度依赖提示词,而其随机性会让知识提取变得不够可靠,从而使推理步骤难以预测。
真正的挑战在于:如何发现一种推理策略,既能找出需要的信息,又能在找到信息时顺利将其组合起来,并智能判断下一步该做什么。
Poetiq的核心目标,就是为了让这一过程能够自动化并不断优化。
Poetiq所构建的系统并不预设推理策略,而是让模型自主发现最适配的推理方式,并能在现实限制(预算、Token或算力)内工作。
这将释放生成式AI在复杂推理方面的真正潜力。
Poetiq的系统能在短时间内适配任务特性与模型特性,而ARC-AGI测试的是模型抽象推理、归纳、逻辑、生成策略能力,这和Poetiq系统的优势也是相互匹配的。
为了使Poetiq的元系统能够随着每次解决新任务而持续进化,任务的多样性也非常关键。
为此,Poetiq的团队正在让系统攻克更多基准任务,涵盖多种推理与检索需求。
此外,Poetiq系统的优点是擅长与其他系统协作。
该系统可以用来优化现有大型系统内部的AI组件。
如果能够在不修改模型本身的前提下,利用前沿模型中丰富的世界知识来解决长时序任务,如果能让底层知识提取机制更适配大模型,也许就不需要进行模型调优,这些正是Poetiq下一步努力的方向之一。
参考资料:
https://poetiq.ai/posts/arcagi_verified/%20
https://x.com/arcprize/status/1997743855203148038?s=20
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!
相关攻略
谷歌TurboQuant算法遭中国博士后质疑,论文争议点深度剖析 近日,AI模型压缩领域发生了一场引人关注的学术风波。事件的起因是谷歌研究院在3月25日重磅发布的全新极端压缩算法TurboQuant。该技术旨在破解大语言模型推理过程中的核心瓶颈——键值缓存(KV Cache)所导致的庞大内存占用问题
新智元报道编辑:倾倾【新智元导读】全世界都在等ASI降临,OpenAI却在年初悄悄上线广告位。9亿用户撑不起数百亿美元的算力账单,智力正在贬值,神仙也得下凡赚钱!2025年底,一份名为ChatGPT
谷歌Willow量子处理器启动限时早期访问,加速商业应用落地 近期,谷歌在量子计算领域的连续动作引发了业界广泛关注,其商业化节奏明显提速。从中性原子计算路径的探索,到后量子加密技术部署时间表的提前,一系列进展均显示出强烈的推进意图。而最新发布的 Willow 量子处理器限量早期访问计划,更被视为其从
谷歌 Pixel 手机将推“通勤模式”:智能优化公共交通出行体验 科技领域的最新动向显示,谷歌即将为其 Pixel 智能手机引入一项备受期待的新功能——“通勤模式”(Transit Mode)。该功能旨在深度优化用户在乘坐地铁、公交等公共交通工具时的手机使用体验,帮助乘客在嘈杂或拥挤的环境中更好地管
12 月 9 日消息,科技媒体 Android Authority 今天(12 月 9 日)发布博文,通过拆解谷歌翻译(Google Translate)安卓版 v9 29 安装包代码,发现了多项
热门专题
热门推荐
洛克王国世界40级进阶无推图阵容打法攻略 在《洛克王国世界》的成长之旅中,达到40级是一个关键的进阶门槛。许多玩家可能会发现自己并未刻意组建一支成型的推图队伍,面对这个挑战时有些无从下手。这篇攻略将为你详细解析一套无需专门推图阵容的通关思路,帮助你利用现有资源,轻松突破40级进阶关卡。 核心阵容搭配
这城有良田主C僚属红品宝玉词条搭配攻略 在《这城有良田》中,红品宝玉的词条选择,是决定你主C僚属最终伤害上限的核心环节。面对各式各样的属性词条,不少玩家会感到困惑:如何搭配才能最大程度激发核心输出的潜力?本文将为你系统解析主C位红品宝玉的挑选逻辑与进阶策略,助你在资源投入上实现收益最大化,显著提升队
哔哩猫手表版优化指南:适配小屏的关键设置 想在智能手表上流畅体验哔哩猫?直接安装手机版本,往往会遇到界面拥挤、操作不便的问题。其实,只需调整几个核心选项,就能让哔哩猫完美匹配手表的小屏幕,操作体验大幅提升。 1、DPI优化:精准调节显示密度 手表屏幕空间有限,默认的显示比例常常导致文字过大、布局浪费
《深海迷航冰点之下》咖啡机使用全攻略:生存必备热饮制作指南 在《深海迷航冰点之下》这片危机四伏的极地海域中,新手面临的第一个致命威胁往往是持续不断的体温流失。与前作不同,身体失温在游戏前期是核心生存挑战之一。有效应对失温的方法主要有:尽快解锁并制作抗压潜水服的升级模块——防寒服、靠近能提供热源的炽热
三国志王道天下吕布骑阵容玩法攻略 在策略手游《三国志王道天下》中,构建强力阵容是核心乐趣。以飞将吕布为核心的群雄骑兵队,以其惊人的爆发力与爽快的操作体验,备受玩家关注。本攻略将为你详细解析这套阵容的构建精髓、核心机制与实战搭配思路,助你打造一支所向披靡的突击铁骑。 阵容构成 这套阵容以纯粹的群雄阵营





