首页 游戏 软件 资讯 排行榜 专题
首页
AI
智能体AI工程实践:平衡确定性工具与探索性Agent

智能体AI工程实践:平衡确定性工具与探索性Agent

热心网友
60
转载
2025-12-24

埃里克森指出,当我们把智能体AI视为在现有业务系统之上的一个抽象层,而不是完全取代这些系统时,它才能真正发挥价值。模型擅长理解问题、检索证据、分类情况并提出行动建议,而确定性系统则负责执行操作、强制执行约束,并提供使整个循环能够被评估的遥测数据。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在2025年的QCon纽约AI大会上,Aaron Erickson提出了一个颠覆性的观点:智能体AI本质上是一个工程问题,而非提示词技巧的练习。

他的核心观点是,系统的可靠性源于将概率性组件与确定性边界相结合。

智能体AI作为系统层,而非替代品

埃里克森认为,只有当我们将智能体AI视为真实运营系统之上的一个抽象层,而非完全替代这些系统时,它才会变得真正有价值。

模型可以理解问题、检索证据、分类情况并提出行动建议,而确定性系统则负责执行操作、强制执行约束,并提供使整个循环能够被评估的遥测数据。

自然语言到SQL的常见陷阱

埃里克森描述了在自然语言转SQL以及类似查询生成模式中的一个常见陷阱。

最初几个演示之所以能够成功,是因为问题简单且数据库模式较小。但当模式变得复杂,查询空间包含大量连接、边缘情况或重载字段时,准确性会急剧下降。

他强调的一个缓解策略是减少自由度:扁平化模式、约束查询形式,并将表达能力视为必须通过更多评估和额外保障措施来支付的成本。

分类与代码生成的关键差异

埃里克森还观察到了分类任务和代码生成之间的实用差异。

当系统的任务是从一小组已知类别中进行选择时,模型可以非常有效。但系统的任务是在一个巨大的搜索空间中发明任意程序时,错误率会攀升。

这个差距成为了一个设计杠杆:你可以让模型先对意图进行分类,然后路由到确定性查询模板或有界工具调用。

工具选择本身就是可靠性问题

埃里克森展示了一张包含大量芝士蛋挞菜单的幻灯片,用以说明工具选择本身就是一个可靠性问题。

“大语言模型可能遭受‘选择悖论’”

当太多工具看起来相似时,选择质量会下降,模型可能会自信地选择一个次优或不安全的路径。

工程上的启示是,工具目录和工具接口是产品的一部分。

工具应该具有差异化、描述清晰且受到约束,否则智能体会表现得像一个盯着巨大菜单不知所措的用户,埃里克森说道。

图片

角色专业化的重要性

埃里克森随后阐述了为什么角色专业化很重要。

一个“对一切都略知一二”的通用智能体可能在路由和摘要方面很有帮助,但系统的正确性取决于为特定任务构建的、具有狭窄约定的专用组件。

他描述了一个类似管理层的委托层,但将其视为编排层,而不是领域逻辑应该存在的地方。在他看来,重要的工作在于实际接触底层系统的专用智能体和确定性工具。

智能体行为分类体系

这引出了他对智能体行为的分类体系。

最具体的例子之一是“工人智能体”幻灯片,展示了一个人在石头上画螺旋,配以提示词来检查大量集群并标记值得关注的集群。

他认为智能体可以部署在数千条相似记录上,重复执行相同的分析,并存储结构化输出以供后续审查。

他描述了随着系统增长而帮助控制复杂性的其他角色:

• 工具选择智能体:当有多种方式实现结果时,可以帮助减少歧义

• 观察者或咨询式智能体:可以监控组件之间的交互,标记不安全的通信模式、策略违规或质量回归

• 导演智能体:可以在其他智能体之间委派工作,并跟踪朝着可衡量结果的进展

这个信息反映了经典的测试指导原则:尽可能将信心推入测试中,并保留完整的系统运行以验证集成行为。

图片

确定性锚点的必要性

埃里克森还使用了一个简单的运维类比来证明确定性锚点的必要性。

他问:你是否每次都重新发明常规操作?

答案是:你不会。你会为操作员提供确定性的运行手册。

他认为代理式系统应该继承这个习惯。在可重复性重要的地方,将可重复性编码到工具和运行手册中,让智能体决定何时应用运行手册,而不是允许智能体为每个事件发明新流程。

确定性与发现之间的平衡

最后,埃里克森回到了确定性和发现之间的分割。发现是智能体探索、提议和发现异常的地方。

确定性是确定性工具执行有界操作并执行策略的地方。

他认为,两者之间的边界就是平台工程所在之处:身份验证、授权、审计、遥测和安全降级。

来源:https://www.51cto.com/article/832673.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

特赞企业级Agentic AI架构:以模型为公共基础设施
业界动态
特赞企业级Agentic AI架构:以模型为公共基础设施

过去两年,大模型能力的跃迁速度远远快于企业组织结构变化的速度。文本生成、图像生成、数据分析、代码编写等能力迅速成为可以调用的资源,但企业真正的工作方式却没有发生对应级别的变化。原因并不复杂:企业的核

热心网友
03.27
黄仁勋盛赞OpenClaw:三周达成Linux 30年里程碑
业界动态
黄仁勋盛赞OpenClaw:三周达成Linux 30年里程碑

3月6日消息,在摩根士丹利会议上,NVIDIA CEO黄仁勋分享了关于Agentic AI(代理式人工智能)转折点的见解,并将开源软件OpenClaw评价为“当代最重磅的软件发布”。黄仁勋指出,Op

热心网友
03.06
阿里云百炼专属版出海,加速企业构建专属AI引擎
业界动态
阿里云百炼专属版出海,加速企业构建专属AI引擎

3月3日, 阿里云在 2026 年世界移动通信大会上宣布,面向国际市场正式推出企业级Agentic AI开发平台——百炼专属版。该平台专为金融、医疗、公共服务及电信运营商等高合规行业设计,提供从数据

热心网友
03.03
AIOps进化:从监控到智能代理的DevOps崛起之路
AI
AIOps进化:从监控到智能代理的DevOps崛起之路

我们先来聊聊AIOps,你可以把它想象成一个特别聪明的“分析师”。它整天盯着成千上万的监控数据,就像一个侦探在翻阅案件档案。当系统出问题时,它能很快告诉你“出事了”,甚至能猜到是哪个服务或哪次更新导

热心网友
03.02
华为发布Agentic Core方案:加速智能体网络商用落地
科技数码
华为发布Agentic Core方案:加速智能体网络商用落地

3月1日消息,华为将于MWC2026 巴塞罗那期间发布Agentic Core解决方案,通过网元智能、网络智能、业务智能三大引擎协同发力,应对AI时代流量激增、差异化网络需求以及运营商新业务变现等关

热心网友
03.01

最新APP

凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26

热门推荐

vivo Y500s与Y60m对比:双机深度解析,帮你选出最适合的一款
网络安全
vivo Y500s与Y60m对比:双机深度解析,帮你选出最适合的一款

如果你最近关注过手机市场,应该知道一件事:内存涨价了,而且涨得挺狠,相比之前,同配置的内存成本已经涨了近1000块。这对中低端机型的冲击最明显,本来利润就薄,成本一涨,要么涨价,要么砍配置,对于想换

热心网友
03.30
PPT演示模式鼠标消失怎么办?3种方法快速唤回光标
电脑教程
PPT演示模式鼠标消失怎么办?3种方法快速唤回光标

鼠标指针在PPT演示中消失通常因“指针选项”设为隐藏,可通过右键菜单选“可见”、按Ctrl+A快捷键、取消“自动隐藏鼠标指针”设置、Alt+Tab切换窗口重启渲染,或检查演示者视图

热心网友
03.30
豪威集团2025年业绩亮眼:营收净利双增,半导体业务全面开花
科技数码
豪威集团2025年业绩亮眼:营收净利双增,半导体业务全面开花

豪威集团近日发布最新财务公告,显示2025年业绩实现显著增长。全年营业收入达288 55亿元,较上年提升12 14%;净利润突破40 45亿元,同比增长21 73%。这一成绩主要得益于半导体设计业务

热心网友
03.30
乐聚建成国内首条年产万台人形机器人产线
科技数码
乐聚建成国内首条年产万台人形机器人产线

3月29日,国内首条年产能万台级的人形机器人自动化产线在广东正式投入使用,人形机器人规模化量产能力取得重大突破。该产线年产能突破一万台,可实现每30分钟下线一台人形机器人,高效满足市场规模化交付需求

热心网友
03.30
华羿机器人登陆港交所市值破百亿,领跑国内国际市场
AI
华羿机器人登陆港交所市值破百亿,领跑国内国际市场

今日,华沿机器人正式在港交所挂牌上市,开启了其资本市场的新征程。此次上市,华沿机器人发售价定为每股17 00港元,折合人民币约14 99元。开盘时,股价为16 8港元,即人民币14 82元,而收盘价

热心网友
03.30