Agent的瓶颈并非模型智力

首页/AI教程/文章详情

Agent的瓶颈并非模型智力

时间：2026-06-02 17:32

Agent瓶颈不在模型智力，而在上下文理解。通过轻量调度层管理上下文、工具调用和边界守卫，工具层保证确定性以消除幻觉，技能层固化业务流程，实现从概率推理向确定性执行的转变。

归根结底，现阶段智能体（Agent）的性能瓶颈并非单纯依赖模型的“智商”，绝大多数失败案例的根源在于模型无法准确解析上下文——那些隐含规则、行业惯例与问题预设，都处于模型的理解盲区中。

如今，这一层被称作“harness”的组件加以封装。它负责上下文的存取管理、提示词的缓存、工具的识别与调用、将上下文中的噪声降至最低、实现会话信息的结构化，并能够协调多个Agent协同工作。

换言之，这些基础设施的目标并非让模型变得更聪明，而是确保模型获取的上下文正确且可控，避免被各类干扰信息淹没。因此行业内常有人言，同一模型搭配不同的harness，实际效果可能相差十倍之多。

需要强调的是，这一差距无法通过更换更强大的模型或撰写更优质的提示词来弥补。关键在于：上下文是否完整、工具是否能被高效复用、记忆是否能被妥善整理、技能是否能固化沉淀、流程是否能顺畅编排、结果是否能可靠验证。

举一个简单例子。以往我们总认为，给模型提供足够多的上下文就能解决问题，但最终发现推理过程与质量依然不理想。然而换个思路，倘若能为模型配置一个快速且精准的定制化工具，其效率可能提升百倍。

又如，一次性塞给模型40个工具，仅工具定义就占用了近一半的上下文窗口。每个工具来回调用耗时2至3秒，这还只是单次操作。结果便是：Token消耗增加3倍，延迟增加3倍，失败率同样飙升3倍。

因此，这背后实则是一次原则性的转变：从“给模型海量上下文，令其概率性地推理”转向“让模型执行确定性的任务”。

通用Agent的“通用性”核心体现在harness上——例如文件管理、上下文读取与加载、安全校验与审计。而专有领域Agent的上限，则取决于那些凝结了逻辑判断、业务流程与领域知识的skill，这些正是90%价值的来源。

换言之，智能向上收敛至skill，执行向下下沉到tools。

这样来看，harness的职责便十分清晰：其核心是调度，不应也不宜承载过多业务逻辑，必须保持轻量化。主要承担以下工作：文件读写、状态机驱动（无论是ReAct还是Plan-and-Execute）、上下文管理（历史对话维护、Token控制、必要时压缩或截断总结），以及边界守卫（权限越界检测、异常处理、重试机制等）。

再看Resolver，它实际上是一个解析器，同时也是决策中枢。在发布之前，它会先读取docs/EVALS.md文件进行评估，其中包含了各类评估套件、基线分数与准确率信息。只有通过评估器验证的发布，才能被视为可信。

Resolver还扮演着路由表的角色。为了避免将所有skill一股脑塞入上下文，它能智能判断：当任务类型为X时，加载Y相关文档。面对用户的请求与提示词，它基于向量检索与语义路由，找到最匹配当前任务的特定skill。在Claude Code中，它所做的正是根据用户意图与技能描述进行匹配。

Tools这一层是确定性的。为何强调确定性？道理很简单：相同的输入必须每次都产出相同的输出，工具天然能够保证这一点。确定性的工具层是消除模型幻觉的有力武器，使Agent变得可控——判断力交由模型，执行力交由工具。

若要让Agent在专有业务领域高效稳定运行，最佳方式并非灌输大道理或堆砌所有SOP。更有效的方法是将业务流程提炼、沉淀，并固化为一个个skill。

这些skill文件，很类似于编程语言中的类与方法。它们具备明确的输入输出规范、清晰的前置校验逻辑、完整的执行流程，以及严格的约束条件与预期输出。高度结构化的Markdown文件能够使模型的注意力机制更加聚焦，显著降低执行过程中的漂移概率与幻觉问题。

因此，对业务逻辑进行抽象至关重要：输入是什么？前置条件是什么？执行标准是什么？输出格式又是什么？将这些内容沉淀进文件后，大模型在读取时才能保持专注，不易偏离方向。

来源：https://cloud.tencent.com.cn/developer/article/2680917

其他

上一篇Gemini多端使用指南：网页APP电脑三端操作与技术深度剖析 下一篇飞书使用Claude Code开源桥，聊天即可编写代码

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-07

科研人员必读：多肽、蛋白质、重组蛋白区别及定制指南

Section 01 多肽 VS 蛋白质 VS 重组蛋白多肽、蛋白质和重组蛋白，本质上是同宗同源的东西——都是氨基酸串起来的生物大分子。三者的核心区别，说到底无非是三个维度：分子大小、折叠形态，以及生产方式。接下来是一张清晰的对比图，帮你快速建立直觉： ![对比图1](https:

AI教程 · 2026-07-07

知识图谱与本体语义建模的核心区别解析

谈到人工智能如何“理解”知识，有两个概念常被放在一起讨论：知识图谱与本体语义建模。不少人以为它们是同一事物，或者认为后者是前者的进化版。实际上，两者的分工完全不同——打个比方，一个是“记事的本子”，另一个是“写本子之前先定好的规矩”。 1 本体语义建模：先绘制一张“通用分类蓝图” 设想一下，你要整

AI教程 · 2026-07-07

强烈推荐工作搭子WorkBuddy

一次偶然的机会，从朋友那里了解到WorkBuddy这个工具。说实话，在AI产品扎堆的今天，能遇到一个下载即用的助手，确实值得推荐给每一个被日常琐事缠身的人。安装过程没什么难度，双击安装包默认安装即可。需要留意的是，如果在Windows7上折腾了半天没反应，别慌——这工具在高版本Windows下运行

AI教程 · 2026-07-07

跨境电商系统自动化测试与CI/CD流水线构建指南

技术方向：自动化测试与DevOps实践关键词：日本代购、一站式日淘、雅虎代拍系统、煤炉自动代拍一、测试分层策略详解不少人刚开始就想直接搞E2E测试，觉得跑通完整流程才够“真实”。然而，测试金字塔这么多年仍不过时，原因很简单——不同层级的测试各有分工，缺少任何一层都会不稳。来看看这张金字塔图： ┌

AI教程 · 2026-07-07

中小企业AI营销矩阵工具推荐：赛诺贝斯智域蒲公英

天天刷着别人的爆款内容，自己却“有心无力”——这才是2026年绝大多数中小企业运营社交媒体的真实写照。说白了，社交媒体如今早已不是“要不要做”的选择题，而是“怎么做才能真正见效”的生存考验。现实情况是，团队人力就那么几个，预算也紧巴巴，却要同时运营抖音、小红书、知乎、头条、百家号等多个阵地……文案、