智能体AI工程实践：平衡确定性工具与探索性Agent_AI热点日报

智能体AI工程实践：平衡确定性工具与探索性Agent

类型：热点整理2025-12-24

Erickson认为，当我们将代理式AI视为真实运营系统之上的一个抽象层，而不是完全替代这些系统时，它才会变得真正有价值。模型可以理解问题、检索证据、分类情况并提出行动建议，而确定性系统则负责执行操

埃里克森指出，当我们把智能体AI视为在现有业务系统之上的一个抽象层，而不是完全取代这些系统时，它才能真正发挥价值。模型擅长理解问题、检索证据、分类情况并提出行动建议，而确定性系统则负责执行操作、强制执行约束，并提供使整个循环能够被评估的遥测数据。

在2025年的QCon纽约AI大会上，Aaron Erickson提出了一个颠覆性的观点：智能体AI本质上是一个工程问题，而非提示词技巧的练习。

他的核心观点是，系统的可靠性源于将概率性组件与确定性边界相结合。

智能体AI作为系统层，而非替代品

埃里克森认为，只有当我们将智能体AI视为真实运营系统之上的一个抽象层，而非完全替代这些系统时，它才会变得真正有价值。

模型可以理解问题、检索证据、分类情况并提出行动建议，而确定性系统则负责执行操作、强制执行约束，并提供使整个循环能够被评估的遥测数据。

自然语言到SQL的常见陷阱

埃里克森描述了在自然语言转SQL以及类似查询生成模式中的一个常见陷阱。

最初几个演示之所以能够成功，是因为问题简单且数据库模式较小。但当模式变得复杂，查询空间包含大量连接、边缘情况或重载字段时，准确性会急剧下降。

他强调的一个缓解策略是减少自由度：扁平化模式、约束查询形式，并将表达能力视为必须通过更多评估和额外保障措施来支付的成本。

分类与代码生成的关键差异

埃里克森还观察到了分类任务和代码生成之间的实用差异。

当系统的任务是从一小组已知类别中进行选择时，模型可以非常有效。但系统的任务是在一个巨大的搜索空间中发明任意程序时，错误率会攀升。

这个差距成为了一个设计杠杆：你可以让模型先对意图进行分类，然后路由到确定性查询模板或有界工具调用。

工具选择本身就是可靠性问题

埃里克森展示了一张包含大量芝士蛋挞菜单的幻灯片，用以说明工具选择本身就是一个可靠性问题。

“大语言模型可能遭受‘选择悖论’”

当太多工具看起来相似时，选择质量会下降，模型可能会自信地选择一个次优或不安全的路径。

工程上的启示是，工具目录和工具接口是产品的一部分。

工具应该具有差异化、描述清晰且受到约束，否则智能体会表现得像一个盯着巨大菜单不知所措的用户，埃里克森说道。

角色专业化的重要性

埃里克森随后阐述了为什么角色专业化很重要。

一个“对一切都略知一二”的通用智能体可能在路由和摘要方面很有帮助，但系统的正确性取决于为特定任务构建的、具有狭窄约定的专用组件。

他描述了一个类似管理层的委托层，但将其视为编排层，而不是领域逻辑应该存在的地方。在他看来，重要的工作在于实际接触底层系统的专用智能体和确定性工具。

智能体行为分类体系

这引出了他对智能体行为的分类体系。

最具体的例子之一是“工人智能体”幻灯片，展示了一个人在石头上画螺旋，配以提示词来检查大量集群并标记值得关注的集群。

他认为智能体可以部署在数千条相似记录上，重复执行相同的分析，并存储结构化输出以供后续审查。

他描述了随着系统增长而帮助控制复杂性的其他角色：

• 工具选择智能体：当有多种方式实现结果时，可以帮助减少歧义

• 观察者或咨询式智能体：可以监控组件之间的交互，标记不安全的通信模式、策略违规或质量回归

• 导演智能体：可以在其他智能体之间委派工作，并跟踪朝着可衡量结果的进展

这个信息反映了经典的测试指导原则：尽可能将信心推入测试中，并保留完整的系统运行以验证集成行为。

确定性锚点的必要性

埃里克森还使用了一个简单的运维类比来证明确定性锚点的必要性。

他问：你是否每次都重新发明常规操作？

答案是：你不会。你会为操作员提供确定性的运行手册。

他认为代理式系统应该继承这个习惯。在可重复性重要的地方，将可重复性编码到工具和运行手册中，让智能体决定何时应用运行手册，而不是允许智能体为每个事件发明新流程。

确定性与发现之间的平衡

最后，埃里克森回到了确定性和发现之间的分割。发现是智能体探索、提议和发现异常的地方。

确定性是确定性工具执行有界操作并执行策略的地方。

他认为，两者之间的边界就是平台工程所在之处：身份验证、授权、审计、遥测和安全降级。

来源：https://www.51cto.com/article/832673.html

Agentic AI Agent

延伸阅读

补充最近整理过的热点入口。