智能体AI工程实践:平衡确定性工具与探索性Agent
埃里克森指出,当我们把智能体AI视为在现有业务系统之上的一个抽象层,而不是完全取代这些系统时,它才能真正发挥价值。模型擅长理解问题、检索证据、分类情况并提出行动建议,而确定性系统则负责执行操作、强制执行约束,并提供使整个循环能够被评估的遥测数据。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
在2025年的QCon纽约AI大会上,Aaron Erickson提出了一个颠覆性的观点:智能体AI本质上是一个工程问题,而非提示词技巧的练习。
他的核心观点是,系统的可靠性源于将概率性组件与确定性边界相结合。
智能体AI作为系统层,而非替代品
埃里克森认为,只有当我们将智能体AI视为真实运营系统之上的一个抽象层,而非完全替代这些系统时,它才会变得真正有价值。
模型可以理解问题、检索证据、分类情况并提出行动建议,而确定性系统则负责执行操作、强制执行约束,并提供使整个循环能够被评估的遥测数据。
自然语言到SQL的常见陷阱
埃里克森描述了在自然语言转SQL以及类似查询生成模式中的一个常见陷阱。
最初几个演示之所以能够成功,是因为问题简单且数据库模式较小。但当模式变得复杂,查询空间包含大量连接、边缘情况或重载字段时,准确性会急剧下降。
他强调的一个缓解策略是减少自由度:扁平化模式、约束查询形式,并将表达能力视为必须通过更多评估和额外保障措施来支付的成本。

分类与代码生成的关键差异
埃里克森还观察到了分类任务和代码生成之间的实用差异。
当系统的任务是从一小组已知类别中进行选择时,模型可以非常有效。但系统的任务是在一个巨大的搜索空间中发明任意程序时,错误率会攀升。
这个差距成为了一个设计杠杆:你可以让模型先对意图进行分类,然后路由到确定性查询模板或有界工具调用。
工具选择本身就是可靠性问题
埃里克森展示了一张包含大量芝士蛋挞菜单的幻灯片,用以说明工具选择本身就是一个可靠性问题。
“大语言模型可能遭受‘选择悖论’”
当太多工具看起来相似时,选择质量会下降,模型可能会自信地选择一个次优或不安全的路径。
工程上的启示是,工具目录和工具接口是产品的一部分。
工具应该具有差异化、描述清晰且受到约束,否则智能体会表现得像一个盯着巨大菜单不知所措的用户,埃里克森说道。

角色专业化的重要性
埃里克森随后阐述了为什么角色专业化很重要。
一个“对一切都略知一二”的通用智能体可能在路由和摘要方面很有帮助,但系统的正确性取决于为特定任务构建的、具有狭窄约定的专用组件。
他描述了一个类似管理层的委托层,但将其视为编排层,而不是领域逻辑应该存在的地方。在他看来,重要的工作在于实际接触底层系统的专用智能体和确定性工具。
智能体行为分类体系
这引出了他对智能体行为的分类体系。
最具体的例子之一是“工人智能体”幻灯片,展示了一个人在石头上画螺旋,配以提示词来检查大量集群并标记值得关注的集群。
他认为智能体可以部署在数千条相似记录上,重复执行相同的分析,并存储结构化输出以供后续审查。
他描述了随着系统增长而帮助控制复杂性的其他角色:
• 工具选择智能体:当有多种方式实现结果时,可以帮助减少歧义
• 观察者或咨询式智能体:可以监控组件之间的交互,标记不安全的通信模式、策略违规或质量回归
• 导演智能体:可以在其他智能体之间委派工作,并跟踪朝着可衡量结果的进展
这个信息反映了经典的测试指导原则:尽可能将信心推入测试中,并保留完整的系统运行以验证集成行为。

确定性锚点的必要性
埃里克森还使用了一个简单的运维类比来证明确定性锚点的必要性。
他问:你是否每次都重新发明常规操作?
答案是:你不会。你会为操作员提供确定性的运行手册。
他认为代理式系统应该继承这个习惯。在可重复性重要的地方,将可重复性编码到工具和运行手册中,让智能体决定何时应用运行手册,而不是允许智能体为每个事件发明新流程。
确定性与发现之间的平衡
最后,埃里克森回到了确定性和发现之间的分割。发现是智能体探索、提议和发现异常的地方。
确定性是确定性工具执行有界操作并执行策略的地方。
他认为,两者之间的边界就是平台工程所在之处:身份验证、授权、审计、遥测和安全降级。
相关攻略
2026年北京国际汽车展览会,成为汽车智能化演进的关键里程碑。在这一行业盛会上,火山引擎正式发布了其面向下一代智能汽车的全栈AI解决方案。该方案的核心突破在于,率先将前沿的Agentic AI(智能体AI)架构引入汽车领域,并深度整合了AI智能座舱套件与豆包座舱助手。这标志着车载交互体验正经历一场根
三星Galaxy S25系列发布:智谱Agentic GLM深度赋能,AI体验再升级 2月11日下午,科技圈的目光再次聚焦三星。随着国行版Galaxy S25系列手机的正式亮相,三款新机型——Galaxy S25、S25+以及S25 Ultra也揭开了价格面纱,起步价定在了5999元。 就在发布会后
Agentic OS:当操作系统真正为“AI员工”而生 2026年3月30日,云计算领域迎来一个标志性节点:阿里云正式宣布,其自研操作系统Alibaba Cloud Linux完成了一次关键跃迁,全新推出了专为AI Agent设计的下一代操作系统——Agentic OS。 这个名字本身,就传递出一个
Agentic OS:当操作系统开始为AI“员工”服务 2026年3月30日,阿里云投下了一枚重磅技术冲击波——Agentic OS。这绝非一次普通的系统更新,而是业界首款专为AI智能体(Agent)设计的操作系统。它的出现,清晰地指向一个未来:操作系统服务的用户主体,正从人类逐渐转向海量的AI“数
Agentic是什么 提起AI写作工具,大家可能不陌生,但Agentic的出现,确实给这个领域带来了一些不一样的东西。它由一队深耕AI与内容生产流程的专家团队打造,核心目标很明确:帮你又快又好地“生产”出高质量的博客文章。 具体怎么操作?你可以把它想象成一位随时在线的资深写作助手。从搭建文章框架、填
热门专题
热门推荐
5月11日,一则关于Windows 11测试版隐藏功能“低延迟配置文件”的消息,在科技圈引发了广泛关注与讨论。 该功能的核心机制非常直接:当用户执行高优先级交互操作,例如点击启动应用程序、呼出开始菜单或右键菜单时,系统会瞬间将CPU频率提升至最高状态,并维持1到3秒。其设计目标清晰——显著降低系统响
近期,一份来自数码行业的销售统计报告引发了广泛关注。根据知名科技博主“RD观测”披露的数据,截至2026年第18周,iPhone 17系列在中国市场的累计设备激活量已接近3000万台,具体数字约为2919 09万台。 回顾该博主此前发布的追踪记录,可以看出iPhone 17系列的增长趋势相当稳定。数
注册库币KuCoin时,姓名一致性是KYC流程中最常见的卡点。用户需确保注册姓名与身份证件完全一致,包括中文汉字、拼音格式及顺序。常见的错误包括使用昵称、大小写不当、拼音空格问题以及多音字选择错误。仔细核对并遵循平台指引,能有效避免审核失败,顺利完成身份验证。
你的iPad已经陪伴你多久了?三年、五年,还是更久?这个看似简单的问题,恰恰揭示了一个令苹果自身都感到困扰的行业现实。 尽管iPad在全球平板电脑市场中长期占据主导地位,市场优势看似稳固,但其整体销量下滑的趋势却日益明显。一个有趣的现象是,它面临的最强劲对手并非来自安卓阵营,而是那些依然性能可靠、至
刷机是为手机重装系统,主要有卡刷和线刷两种方式。卡刷通过Recovery模式进行,线刷则需进入Fastboot模式并连接电脑使用专业工具。以OPPOA91为例,具体操作应参考官方指引。选择工具时需关注资源库、教程及智能化程度,掌握原理并借助合适工具即可顺利完成刷机。





