斯坦福创企AgentQ竟是爆料OpenAI草莓的智能体账号_AI热点日报

斯坦福创企AgentQ竟是爆料OpenAI草莓的智能体账号

类型：热点整理2026-06-03

近期AI领域的话题热度持续攀升。OpenAI尚未公开传说中的「Q*」项目，但一个名为“草莓哥”的账号却频繁放出“重大消息即将公布”的预告，引发广泛关注和期待，然而最终都未兑现。更为戏剧性的是，这个跟随Sam Altman动态的营销账号，其背后竟然是一个AI智能体？一家名为MultiOn的AI智能体

近期AI领域的话题热度持续攀升。OpenAI尚未公开传说中的「Q*」项目，但一个名为“草莓哥”的账号却频繁放出“重大消息即将公布”的预告，引发广泛关注和期待，然而最终都未兑现。更为戏剧性的是，这个跟随Sam Altman动态的营销账号，其背后竟然是一个AI智能体？

一家名为MultiOn的AI智能体初创公司创始人公开承认：他们开发了一款全新智能体Agent Q，正是操控“草莓哥”账号的幕后推手。这一操作令许多人感到意外——OpenAI尚未发布「Q*」，却先为他人营销提供了契机。不少业内人士为等待所谓的“重大新闻”而彻夜未眠，Sam Altman本人甚至在草莓照片下回复“惊喜即将到来”。

然而，MultiOn创始人Div Garg随后悄然删除了认领帖。但无论事件真伪，他们发布的Agent Q确实引发了广泛关注——这是一款融合蒙特卡洛树搜索（MCTS）与自我批评机制的突破性AI智能体，通过直接偏好优化（DPO）算法从人类反馈中学习。

据官方介绍，Agent Q的性能达到LLama 3基线零样本性能的3.4倍，在真实场景任务评估中成功率高达95.4%。其应用场景包括：在线预订餐厅座位——自动查找餐厅页面、查询空位并完成预订；或预订航班——根据指定日期、航线及座位偏好，一站式处理完成。

然而，网友对此反应不一。更多人质疑：这究竟是不是借“草莓哥”进行炒作？有网友直接批评他们是不道德的营销行为。

Agent Q重要组件与方法详解

Agent Q的相关论文已由MultiOn与斯坦福大学联合发表，研究成果计划于今年晚些时候向开发者和普通用户开放。核心思路在于：Agent Q能够自主在网页上规划路径并自我纠错，通过从成功与失败中学习，持续提升在复杂任务中的表现。

论文地址：https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf

技术细节上，Agent Q主要包括三个组件：

使用MCTS进行引导式搜索：通过探索多种操作和网页状态自主生成数据，平衡探索与利用。采用高采样温度和多样化提示来扩展操作空间，确保轨迹的多样性与最优性。

AI自我批评机制：每一步都基于AI的自我批评提供反馈，优化决策过程。对于长期任务而言，这种步骤级反馈尤为关键——稀疏的信号往往会导致学习困难。

直接偏好优化（DPO）：从MCTS生成的数据中构建偏好对，用于微调模型。这种离线策略训练方法使模型能够从聚合数据集（包括搜索过程中探索的次优分支）中高效学习，从而提升在复杂环境中的成功率。

网页环境中MCTS算法的应用

研究者重点探索了如何通过MCTS增强智能体的搜索能力。传统MCTS包含选择、扩展、模拟和反向传播四个阶段。他们将网页智能体执行过程形式化为网页树搜索——状态由智能体历史与当前网页的DOM树构成。与棋盘游戏不同，此处智能体的操作空间是开放且可变的。

基础模型被用作操作建议分布，在每个节点（网页）上采样固定数量的可能操作。一旦在浏览器中选中并执行某个操作，系统将跳转到下一个网页，该网页与更新后的历史记录共同构成新节点。反馈模型经过多次迭代查询，每次从列表中剔除上次选中的最佳操作，直至所有操作被完全排序。下图4展示了完整的AI反馈流程。

扩展与回溯：在浏览器环境中选中并执行一个操作后，到达新节点（页面）。从选定状态节点轨迹开始，用当前策略展开轨迹直至终止状态。环境在轨迹结束时返回奖励：成功时r=1，否则r=0。接着通过从叶节点到根节点自下而上更新每个节点的值，完成反向传播。

下图3展示了所有结果与基线对比。当智能体在测试阶段能够搜索信息——即对基础xLAM-v0.1-r模型应用MCTS——成功率从28.6%提升至48.4%，接近人类平均表现（50.0%），显著超越了仅通过结果监督训练的零样本DPO模型。

研究者进一步对基础模型进行微调，结果比基础DPO模型提高了0.9%。在精心训练的Agent Q模型上再次应用MCTS，智能体性能提升至50.5%，略高于人类平均表现。

研究者认为，即使智能体经过了大量强化学习训练，在测试时具备搜索能力仍然是一个重要的范式转变。与未经过训练的零样本智能体相比，这是显著的进步。此外，尽管密集级监督相比纯粹基于结果的监督有所改进，但在WebShop环境中提升不大——因为该环境决策路径较短，可以通过结果来学习信用分配。

Agent Q在真实场景中的评估结果

研究者选用OpenTable官网的订餐任务来测试Agent Q框架在真实世界中的表现。智能体需要依次完成：查找餐厅页面、选择日期和时间、挑选座位、提交联系方式，才能成功预订。最初使用xLAM-v0.1-r模型时成功率为0.0%，改用LLaMa 70B Instruct模型后才取得初步成功。

由于OpenTable是实时环境，难以通过编程或自动测量进行评估。研究者使用GPT-4-V根据四项指标收集奖励：日期时间正确、聚会规模正确、用户信息正确、点击完成预订。所有条件均满足才算成功。结果监督设置如下图5所示。

Agent Q将LLaMa-3模型的零样本成功率从18.6%大幅提升至81.7%——仅通过单日自主数据收集就实现了340%的显著增长。引入在线搜索功能后，成功率进一步攀升至95.4%。

来源：https://www.53ai.com/news/zhinengyingxiao/2024081482630.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。