Anthropic发布AI自我反省技术智能体如何像人类一样思考

首页

热心网友

转载

2026-05-10

Anthropic 刚刚将 AI 智能体技术推向了全新高度。最新发布的“Dreaming”（梦境学习）功能，首次赋予 AI 像人类一样复盘经验、提炼方法论的能力，使其能在后续任务中实现持续自我优化。结合“成果评分”与“多智能体协作”两大功能，AI 正从“会对话”的辅助工具，进化为真正能独立承担复杂工作的数字员工。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

在旧金山举办的第二届“Code with Claude”开发者大会上，Anthropic 为其 Claude 托管智能体平台带来了一系列突破性更新。其中最引人瞩目的，是名为“Dreaming”的全新功能。该功能允许 AI 智能体从历史会话中自主学习，并随时间推移不断优化自身表现。这标志着 AI 系统朝着企业级应用的核心需求——即在承担实际生产负载前，就具备自我修正与迭代改进的能力——迈出了关键一步。

与此同时，此前处于实验阶段的“成果评分”和“多智能体编排”功能，已从研究预览版升级为公开测试版，面向所有 Claude 平台开发者开放。这三项功能共同瞄准了规模化部署 AI 智能体时最关键的挑战：如何确保输出准确性、如何实现持续学习，以及如何在复杂多步骤任务中避免性能瓶颈。

早期采用者的反馈证实了显著成效。法律 AI 公司 Harvey 应用“Dreaming”功能后，任务完成率提升了约 6 倍。医疗文件审核企业 Wisedocs 借助“成果评分”功能，将文件处理时间缩短了 50%。而 Netflix 则利用“多智能体编排”功能，高效并行处理了数百个构建版本的日志分析。

这些发布正值 Anthropic 增长势头迅猛之际。公司首席执行官 Dario Amodei 在大会访谈中透露，其业务增速甚至超过了内部原本已相当激进的预测。2026 年第一季度，Anthropic 的年化营收与使用量增长率达到惊人的 80 倍，远超公司设定的 10 倍年增长目标。Claude 平台 API 调用量同比增长近 70 倍，使用 Claude Code 的开发者平均每周在该工具上投入时间达 20 小时。

“我们曾为年增长 10 倍的情况制定了周密的规划，”Amodei 坦言，“然而实际增速达到了 80 倍。这也正是我们在计算资源方面面临挑战的原因。”

Anthropic “Dreaming”功能：如何让 AI 智能体从历史经验中学习

“Dreaming”是本次发布中最具创新性的功能，Anthropic 也着重将其与传统记忆系统区分开来。尽管公司今年早些时候已推出智能体记忆功能，允许 Claude 在单次及跨会话中保留偏好与上下文，但“Dreaming”在更高层次的抽象维度发挥作用。

它是一个计划性流程，会主动回溯智能体的过往会话与记忆存储，从中提取模式，并对这些记忆进行归纳整理，从而驱动智能体持续改进。它能揭示出单次会话中无法自行发现的深层洞见：例如重复出现的错误模式、多个智能体独立形成却趋于一致的工作流程，以及智能体团队共享的协作偏好。

Anthropic 研究产品管理负责人 Alex Albert 在采访中阐释了这一概念。他将“Dreaming”类比为组织成员在完成任务后形成专业技能的过程。“他们可能与 Claude 协同完成一个工作流，在流程结束时，经过多次迭代与探索，他们希望记录下从起点到终点的最优路径，”Albert 表示，“‘Dreaming’实现了类似的效果——区别在于，它不是由人工创建技能，而是模型自主完成这一过程，从而为未来的会话提供相同的优化上下文。”

关键在于，“Dreaming”并不会修改底层模型的权重。“我们不会通过‘Dreaming’改变模型本身——它不会更新权重等参数，”Albert 强调。相反，智能体会将所学内容以纯文本笔记和结构化的“操作手册”形式记录下来，供未来会话参考。这使得整个过程对人类而言是可观察、可审计的。当被问及智能体整合自身知识所涉及的信任问题时，Albert 承认“确实需要一定程度的信任”，但他指出所有记忆均可被检查，且更智能的模型在管理这一流程方面正变得越来越出色。“它们正在学习为未来的自己撰写更优质的笔记。”他补充道。

现场演示：AI 智能体在无人干预下实现隔夜自我优化

在主题演讲中，Anthropic 团队通过一个名为“Lumara”的虚构航空航天初创公司案例，现场演示了这三项功能如何协同工作。该公司的任务是自主在月球上降落无人机以进行资源勘探。演示团队配置了一个多智能体系统，包含三个专业智能体：负责整体任务成功的指挥智能体、识别高质量着陆点的探测智能体，以及处理无人机安全飞行与着陆的导航智能体。团队还定义了成功的具体标准：实现软着陆、着陆点地表清晰，并且保留足够的返回地球燃料储备。

对六个假设着陆点进行的首次模拟产生了良好但不完美的结果。为提升性能，演示者直接从 Claude 开发者控制台触发了“Dreaming”会话。一夜之间，“Dreaming”智能体回顾了所有过往模拟会话，并撰写了一份详细的下降操作手册——一套从多次任务运行模式中提炼的综合启发式规则。次日，当团队将这份基于“Dreaming”生成的操作手册存入记忆并运行新模拟时，此前表现不佳的着陆点结果得到了显著改善。

“我们所做的只是让 Caitlin 按下一个按钮，”Claude 平台产品负责人 Angela Jiang 在谈到台上的同事时表示，“其余全部由‘Dreaming’自主完成。”

此次演示清晰展现了三项功能的实际联动：多智能体编排负责将复杂任务分配给拥有独立上下文窗口的专业智能体；“成果评分”功能提供了客观评估标准，并由独立的评分智能体依据该标准对每次运行进行评价；而“Dreaming”则从这些评估中提取经验教训，用以提升未来性能。这形成了一个 Anthropic 所描述的持续改进闭环，在迭代间无需人工干预。

Anthropic 为何构建独立“评分”智能体来校验 Claude 自身输出

现已进入公开测试版的“成果评分”功能，为开发者提供了一种定义成功标准的方式。开发者可以设定一套准则（如结构框架、展示要求、品牌语调或任何其他规范），然后让智能体自主向该标准迭代。从架构上看，“成果评分”功能的独特之处在于其关注点分离：当工作智能体完成任务后，一个独立的评分智能体会在全新的上下文窗口中，依据开发者定义的标准对输出进行评估。由于评分智能体运行在独立上下文中，它不会受到工作智能体推理过程或会话中累积偏见的影响。

当评分智能体发现输出与标准存在差距时，它会明确指出需修改的内容，随后工作智能体再次尝试。这一循环将持续进行，直至满足所有标准要求——整个过程无需人工审查每次迭代。

Albert 将 Anthropic 更广泛的验证策略描述为运用“更多的测试时算力，让更多模型以更长时间思考一个问题，以检查另一个模型的工作”。他承认，让模型检查自身工作会引发合理质疑，但表示在一个全新上下文窗口中审查已完成工作的模型，其表现始终优于让同一长时间运行线程去识别自身错误。“如果你将输出交给一个全新的 Claude 实例，询问‘你发现了哪些错误？’，你会获得更高的成功率，”他指出，“在非常长的会话中，注意力确实会下降。我们正积极努力，在未来模型中解决这一局限。”

这种方法与 GitHub 已采用的策略不谋而合。GitHub 首席产品官 Mario Rodriguez 在大会另一场演讲中描述了 Copilot 如何使用类似的“顾问模式”——将一个更小、更经济的模型作为执行者，与一个更大的模型作为导师配对。当较小模型遇到超出其能力的问题时，它会向较大模型寻求指导，然后继续自主执行。Rodriguez 表示，这种方法以显著更低的成本提供了接近顶级模型（Opus 级别）的智能水平。GitHub 在编码工作流的三个特定节点插入了这种批判性模型：在起草计划之后、完成复杂实现之后，以及在编写测试之后但运行测试之前。

并行 AI 智能体：如何高效处理单模型线程无法胜任的复杂任务

第三个进入公开测试版的功能是“多智能体编排”。它允许一个主导智能体将大型任务分解为多个子任务，并将每个子任务委托给一个专业智能体——每个专业智能体都拥有自己的模型实例、系统提示、工具集和独立的上下文窗口。该过程的每一步都可在 Claude 控制台中追踪，清晰显示哪个智能体执行了什么操作、按什么顺序执行以及为何这样执行。

这种设计为每个子智能体提供了隔离的上下文。Anthropic 表示，这比让单个智能体试图在一个线程中处理所有复杂任务能产生更优的结果。“每个子智能体都有自己独立的线程和上下文窗口，”主题演讲者解释道，“这是有意为之的设计。我们发现，通过拆分工作然后合并结果，我们能获得更出色的成果。”

Albert 分享了关于何时使用多智能体架构、何时坚持使用单个线程的经验法则。“并行智能体更适合调查类工作，”他表示——即那些会产生大量最终将被丢弃的上下文信息的情况。“如果你试图回答一个具体问题，你并不需要来自未找到答案区域的所有搜索结果，你只需要最终的答案。”他描述了为特定检索任务启动一次性子智能体，并将结果带回主线程的做法。他认为，模型本身将越来越多地决定何时需要进行并行处理。“未来，你可能无需真正关心它是一个智能体还是多智能体，或者底层发生了什么。你只需与 Claude 对话，它会自动为你部署最合适的架构。”

Anthropic 的核心战略：弥合 AI 能力与实际企业应用之间的鸿沟

这三项功能是 Anthropic 在整个大会期间所强调的更广泛平台战略的一部分，其核心目标是缩小“AI 技术能力与其实际为人们创造的价值之间的差距”。Anthropic 首席产品官 Ami Vora 在开幕主题演讲中确立了这一主题，她指出，虽然模型能力正呈指数级增长，但大多数组织仍以线性路径在采纳 AI。

Anthropic 研究团队产品负责人 Dianne Penn 将公司衡量进展的标准描述为“任务时长”——即一个 AI 智能体在提升交付成果质量的同时能够自主工作的时间长度。“去年此时，模型只能独立工作几分钟，”她表示，“现在，我们大多数用户的智能体都能连续工作数小时。展望未来，我们将拥有主动的、始终在线的智能体，它们知道该执行什么工作，并且不会偏离核心目标。”

大会还宣布了几项旨在帮助开发者跟上发展步伐的基础设施更新。Anthropic 表示，将把 Pro、Max、Team 和 Enterprise 计划的五小时速率限制提高一倍，并大幅提升 API 速率限制。此外，公司宣布与 SpaceX 建立合作伙伴关系，将利用其 Colossus 数据中心的全部容量来扩大算力供应——这是对 Amodei 所描述的需求激增的直接回应。

所有这些新功能都内置于 Claude 托管智能体平台中。该平台于 4 月 8 日以公开测试版形式推出，作为一个集成了最佳实践（包括记忆、工具集成和操作处理）的专用框架。Anthropic 表示，使用托管智能体的团队，其部署速度比那些从头开始构建自身智能体基础设施的团队快 10 倍。Albert 用操作系统来比喻该平台：“使用托管智能体，你无需考虑设置所有周边系统的技术细节，”他表示，“这就像在为 Mac 开发应用程序——你肯定不想重新实现 macOS 的每一个底层细节。”

“Dreaming”、“成果评分”与“多智能体编排”将如何塑造企业 AI 的未来

这些功能的发布，其行业竞争影响不容小觑。随着 OpenAI、谷歌等公司的 AI 智能体平台竞相争夺开发者，Anthropic 押注于生产环境下的可靠性——而不仅仅是原始模型的智能水平——将成为赢得企业预算的关键。“Dreaming”功能尤其开辟了新赛道：虽然其他平台也提供记忆和工具使用功能，但让智能体系统回溯自身历史以提取可重用知识的理念，更接近于企业在将高风险工作委托给 AI 之前所期望的持续改进体系。

大会展示了已在此规模上运营的企业案例。拉丁美洲最大的电子商务平台 Mercado Libre 有 23,000 名工程师使用 Claude Code，在人工监督下审查了超过 50 万份拉取请求，并目标在当年第三季度实现 90% 的自主编码。Shopify 不仅在工程团队，还在设计、产品和数据科学团队中部署了 Claude Code。

但 Dario Amodei 对这一切的发展方向阐述了最宏大的愿景。他描述了从单个智能体到多个智能体，再到整个组织智能的演进过程——从“一个房间里的一群聪明人”到他所谓的“数据中心里的一群天才”。他还重申了大约一年前做出的一个预测：2026 年将出现第一家由一个人运营的十亿美元级公司。“这尚未完全实现，”他表示，“但我们还有七个月时间。”

目前，“Dreaming”功能已提供研究预览版。“成果评分”和“多智能体编排”功能则处于公开测试版阶段，Claude 平台上的所有开发者均可使用。七个月时间是否足够一位独立创始人建立一家十亿美元级公司，仍是一个未知数。但可以肯定的是，本次大会之后，他们手中拥有了更多值得尝试的强大工具。

来源:https://www.51cto.com/article/842651.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：法院终审认定AI搜索盗版链接平台无主观过错不构成侵权下一篇：奥迪E7X携L3自动驾驶进军30万级市场能否挑战新势力格局