游乐游手机版
首页/AI热点日报/热点详情

斯坦福创企AgentQ竟是爆料OpenAI草莓的智能体账号

类型:热点整理2026-06-03
近期AI领域的话题热度持续攀升。OpenAI尚未公开传说中的「Q*」项目,但一个名为“草莓哥”的账号却频繁放出“重大消息即将公布”的预告,引发广泛关注和期待,然而最终都未兑现。更为戏剧性的是,这个跟随Sam Altman动态的营销账号,其背后竟然是一个AI智能体? 一家名为MultiOn的AI智能体

近期AI领域的话题热度持续攀升。OpenAI尚未公开传说中的「Q*」项目,但一个名为“草莓哥”的账号却频繁放出“重大消息即将公布”的预告,引发广泛关注和期待,然而最终都未兑现。更为戏剧性的是,这个跟随Sam Altman动态的营销账号,其背后竟然是一个AI智能体?

一家名为MultiOn的AI智能体初创公司创始人公开承认:他们开发了一款全新智能体Agent Q,正是操控“草莓哥”账号的幕后推手。这一操作令许多人感到意外——OpenAI尚未发布「Q*」,却先为他人营销提供了契机。不少业内人士为等待所谓的“重大新闻”而彻夜未眠,Sam Altman本人甚至在草莓照片下回复“惊喜即将到来”。

然而,MultiOn创始人Div Garg随后悄然删除了认领帖。但无论事件真伪,他们发布的Agent Q确实引发了广泛关注——这是一款融合蒙特卡洛树搜索(MCTS)与自我批评机制的突破性AI智能体,通过直接偏好优化(DPO)算法从人类反馈中学习。

据官方介绍,Agent Q的性能达到LLama 3基线零样本性能的3.4倍,在真实场景任务评估中成功率高达95.4%。其应用场景包括:在线预订餐厅座位——自动查找餐厅页面、查询空位并完成预订;或预订航班——根据指定日期、航线及座位偏好,一站式处理完成。

然而,网友对此反应不一。更多人质疑:这究竟是不是借“草莓哥”进行炒作?有网友直接批评他们是不道德的营销行为。

Agent Q重要组件与方法详解

Agent Q的相关论文已由MultiOn与斯坦福大学联合发表,研究成果计划于今年晚些时候向开发者和普通用户开放。核心思路在于:Agent Q能够自主在网页上规划路径并自我纠错,通过从成功与失败中学习,持续提升在复杂任务中的表现。

  • 论文地址:https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf

技术细节上,Agent Q主要包括三个组件:

使用MCTS进行引导式搜索:通过探索多种操作和网页状态自主生成数据,平衡探索与利用。采用高采样温度和多样化提示来扩展操作空间,确保轨迹的多样性与最优性。

AI自我批评机制:每一步都基于AI的自我批评提供反馈,优化决策过程。对于长期任务而言,这种步骤级反馈尤为关键——稀疏的信号往往会导致学习困难。

直接偏好优化(DPO):从MCTS生成的数据中构建偏好对,用于微调模型。这种离线策略训练方法使模型能够从聚合数据集(包括搜索过程中探索的次优分支)中高效学习,从而提升在复杂环境中的成功率。

网页环境中MCTS算法的应用

研究者重点探索了如何通过MCTS增强智能体的搜索能力。传统MCTS包含选择、扩展、模拟和反向传播四个阶段。他们将网页智能体执行过程形式化为网页树搜索——状态由智能体历史与当前网页的DOM树构成。与棋盘游戏不同,此处智能体的操作空间是开放且可变的。

基础模型被用作操作建议分布,在每个节点(网页)上采样固定数量的可能操作。一旦在浏览器中选中并执行某个操作,系统将跳转到下一个网页,该网页与更新后的历史记录共同构成新节点。反馈模型经过多次迭代查询,每次从列表中剔除上次选中的最佳操作,直至所有操作被完全排序。下图4展示了完整的AI反馈流程。

扩展与回溯:在浏览器环境中选中并执行一个操作后,到达新节点(页面)。从选定状态节点轨迹开始,用当前策略展开轨迹直至终止状态。环境在轨迹结束时返回奖励:成功时r=1,否则r=0。接着通过从叶节点到根节点自下而上更新每个节点的值,完成反向传播。

下图3展示了所有结果与基线对比。当智能体在测试阶段能够搜索信息——即对基础xLAM-v0.1-r模型应用MCTS——成功率从28.6%提升至48.4%,接近人类平均表现(50.0%),显著超越了仅通过结果监督训练的零样本DPO模型。

研究者进一步对基础模型进行微调,结果比基础DPO模型提高了0.9%。在精心训练的Agent Q模型上再次应用MCTS,智能体性能提升至50.5%,略高于人类平均表现。

研究者认为,即使智能体经过了大量强化学习训练,在测试时具备搜索能力仍然是一个重要的范式转变。与未经过训练的零样本智能体相比,这是显著的进步。此外,尽管密集级监督相比纯粹基于结果的监督有所改进,但在WebShop环境中提升不大——因为该环境决策路径较短,可以通过结果来学习信用分配。

Agent Q在真实场景中的评估结果

研究者选用OpenTable官网的订餐任务来测试Agent Q框架在真实世界中的表现。智能体需要依次完成:查找餐厅页面、选择日期和时间、挑选座位、提交联系方式,才能成功预订。最初使用xLAM-v0.1-r模型时成功率为0.0%,改用LLaMa 70B Instruct模型后才取得初步成功。

由于OpenTable是实时环境,难以通过编程或自动测量进行评估。研究者使用GPT-4-V根据四项指标收集奖励:日期时间正确、聚会规模正确、用户信息正确、点击完成预订。所有条件均满足才算成功。结果监督设置如下图5所示。

Agent Q将LLaMa-3模型的零样本成功率从18.6%大幅提升至81.7%——仅通过单日自主数据收集就实现了340%的显著增长。引入在线搜索功能后,成功率进一步攀升至95.4%

来源:https://www.53ai.com/news/zhinengyingxiao/2024081482630.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。