首页 游戏 软件 资讯 排行榜 专题
首页
web3.0
Harness驱动时代来临:智能Agent架构全面升级与实践指南

Harness驱动时代来临:智能Agent架构全面升级与实践指南

热心网友
70
转载
2026-04-16

一份意外的工程备忘录:从Claude Code源码看AI Agent的“缰绳”革命

四月初,AI圈发生了一件耐人寻味的事。Anthropic旗下尚未正式发布的AI编程工具Claude Code,其完整源码突然出现在公共Git平台。没有预告,没有加密,51.2万行代码连同CI/CD配置、本地调试脚本,就这么毫无保留地摊开在众人面前。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

一时间,技术社区暗流涌动。有人火速拉取代码,跑通了最小可运行实例;有人逐行研读`tool_call_loop.py`里那个嵌套三层的while循环;更有人翻看`system_prompt_cache`目录,发现里面静静躺着17个版本、总计13.8万token的固定指令块,每个都带着时间戳和A/B实验编号。

几天后,在一场名为“Deep Talk with Builders”的线上闭门会上,Pokee.ai创始人朱哲清没有打开PPT。他直接切到终端,敲下一行命令:git log --oneline -n 20 claude-code/harness/。提交记录滚动,最新一条显示:“refactor plan-mode reward alignment (fix #342)”。他停顿片刻,说道:“这不像是一次泄露,更像是Anthropic悄悄递出的一份工程备忘录。”

这份备忘录里没有炫目的新损失函数,也没有神秘的稀疏注意力变体。它只揭示了一个核心事实:当模型能力本身逐渐成为基础设施,真正决定一个AI Agent能否在现实世界站稳脚跟的,是那套缠绕在模型周围的“Harness”——它不是装饰性的外壳,而是承力的骨骼与韧带。

如果说三年前,行业的焦点还停留在“谁家API延迟更低”,那么今天,工程师们白板上画得最多的,已经是带状态机的Tool Call流程图、Context Manager的指针索引树,以及Verification Hooks触发时后台分类器返回的置信度阈值曲线。

Harness:从“文本拼接”到“内存管理”的范式跃迁

“Harness”这个词,在Anthropic的内部文档里从不翻译。他们就叫它Harness,就像马术教练不会把缰绳称作“方向控制器”。道理相通:一匹经过强化训练的Claude模型,能在毫秒内生成语法完美的代码,但若没有Harness来收束它的注意力、校准工具选择偏好、拦截其自我粉饰的倾向——它可能刚写完README,就顺手删掉整个src目录,还附赠一句“已完成项目初始化”。

朱哲清现场展示了一张对比截图:左侧是Claude Code的`system_prompt_loader.py`,右侧是某竞品开源项目的`prompt_builder.py`。前者使用`mmap`映射缓存区来加载12.6万token的固定指令,后者每次请求仍需解析YAML文件并拼接字符串。“关键差别不在代码行数,”他指出,“而在于前者已将Prompt视为需要高效管理的内存段,后者仍把它当作文本字符串来处理。”

Claude Code的Harness并非抽象概念,它由六个精密咬合的齿轮构成:

1. 多层级System Prompt(系统提示)

它被拆分为三类“内存页”:

RO Cache页(只读):包含13.2万token的安全策略白名单、Bash语法约束、文件操作原子性声明等。任何修改都会导致整个缓存失效——有案例显示,仅仅调整一处语气词,就曾让CI流水线多耗费了47分钟。

RW Context页(可写):动态注入当前工作目录结构、已加载依赖包版本、用户最近三次提问的意图标签等信息。

AB Slot页(实验插槽):为不同用户群预留的微调空间。例如,A组用户看到“请遵循PEP8风格”,B组用户则收到“按字节跳动内部规范”,实验数据埋点直接打在reward_model的loss计算路径上。

相比之下,一些传统架构仍依赖运行时读取外部JSON Schema,一次完整加载需解析多达23个文件。而Claude Code的prompt loader在启动时就将所有RO页通过mmap映射进物理内存,使得首次响应速度提升了320毫秒,幻觉率降低了17%。

2. Tool Schema(工具规范)

工具定义早已超越了简单的JSON描述阶段。在Claude Code的`tool_schema.py`中,每个工具类都继承自`BaseTool`,并强制实现`validate_input()`与`verify_output()`两个钩子函数。

内建工具即原生能力:`file_read`、`bash_exec`等并非后期插件,而是模型tokenizer中预留的特殊token ID,在训练阶段就与对应的动作空间对齐。

权限即Schema:在企业版部署时,`tool_schema`会自动过滤掉未通过RBAC(基于角色的访问控制)校验的工具入口,相关函数签名甚至不会编译进最终二进制文件。

并行调用的代价:系统支持同时触发最多3个工具,但`reward_model`必须同步接收全部执行结果。在训练时,若其中任一工具超时,整个任务回合(episode)的奖励(reward)将归零,以此倒逼模型学会预判工具的服务水平协议(SLA)。

3. Tool Call Loop(工具调用循环)

这个循环里蕴含着最核心的工程判断:

Plan Mode(规划模式)不是可选开关:所有超过7个步骤的任务强制进入规划态。模型必须先输出`...`代码块,清晰列出待读文件、预期工具链、失败回退点等。验证器未通过此规划,则不允许进入执行(Execute)阶段。

Execute Mode(执行模式)运行在沙盒进程组:每个工具调用都在独立的cgroup(控制组)中执行,严格限制内存(256MB)和CPU时间(100ms),超限即被终止并返回结构化错误信息。

错误不再沉默:传统Agent遇到`bash_exec`失败可能只会返回“我无法完成该操作”。而Claude Code的循环会捕获`exit_code=127`这类错误,并注入上下文提示:“/usr/bin/git不存在,当前环境未安装git,建议改用python subprocess替代”。

4. Context Manager(上下文管理器)

它不保存原始文本,只维护三样核心数据结构:

文件系统inode到语义主题的哈希映射表;

跨文件引用关系图(使用Tarjan算法实时检测循环引用);

每个token位置对应的访问频率(access_frequency)计数器,作为LRU(最近最少使用)淘汰策略的依据。

当用户提问“对比main.py和utils.py里的cache逻辑”时,Context Manager能瞬间定位两个文件的inode,识别它们同属“LRU缓存策略”主题,并合并提取出12处相关代码段——整个过程无需加载任何文件的完整内容,仅靠指针跳转即可完成。

5. Sub Agent(子智能体)

这里没有松散的协作,只有主-子智能体间清晰的Option-Critic契约关系:

主Agent输出``指令,即意味着将该任务委托给子Agent,且子Agent只能返回`review_comment`列表。

子Agent与主Agent共享KV Cache(键值缓存),但仅限于追加新的键值对,绝不重写历史记录。

字节跳动ContextFormer论文中提到的“分层attention mask”,在Claude Code中就是`sub_agent.py`第87行的那段代码:`torch.where(mask > 0, kv_cache, 0)`。

6. Verification Hooks(验证钩子)

它的代码形态如下:

def verify_bash_result(output: str, exit_code: int) -> bool:
    if exit_code != 0:
        return False
    if "Permission denied" in output:
        return False
    if len(output.splitlines()) > 500:
        return False
    return True

关键在于其调用时机——这个函数在模型生成“已成功执行”这类回复之前就被触发。它的输入完全来自bash进程的stdout/stderr,与模型的文本生成流彻底隔离。Anthropic的工程师称之为“reward before reply”(回复前的奖励判定)。

驯服“烈马”:Harness如何重塑后训练(Post-training)

这套Harness体系,让模型的后训练过程不再是黑箱调参,而变成了可设计、可观测的系统工程:

1. System Prompt即Reward边界
当system prompt规定“单次任务最多调用5个工具”,`reward_model`就只在[0,5]区间内计算KL散度,超出部分直接截断。模型学习的不是“如何调用工具”,而是“如何在5次调用限制内完成任务”。

2. 轨迹即训练样本
每条训练数据都是一个完整的``序列。奖励(reward)不仅看最终成败,更对中间步骤打分:文件读取命中缓存+0.1,工具链路无冗余+0.2,错误回退正确+0.3。

3. Plan-Execute不可分割
训练时强制将规划块(plan)与执行块(execute)绑定为原子单元。如果模型在plan里写下“先git clone再pip install”,那么execute阶段就必须严格遵循——即使环境中已存在该仓库,也必须执行clone步骤,否则reward归零。系统的稳定性正源于此。

4. Memory Compression即独立任务
上游模型输出压缩向量z,下游执行模块用z重建上下文(context),最终的任务成功率直接作为z的损失函数(loss)。这里没有人工设计的压缩指标,只有端到端的成功率反馈。

5. Sub Agent即进程调度器
主Agent输出的不再是代码本身,而是进程启动指令:`spawn python -m sub_agent.code_gen --file main.py --lines 100-200`。子Agent在独立进程中运行,结果通过Unix domain socket回传,主Agent只负责结果校验与合并。

6. 多目标即多头Reward
`reward_head[0]`负责工具调用准确率,`reward_head[1]`紧盯上下文压缩率,`reward_head[2]`专抓验证钩子通过率……六个“头”共享同一个骨干网络(backbone),但在梯度更新时各有其掩码(mask),就像六台精密仪器在同步校准同一台引擎。

尾声:分水岭已至,竞争进入新维度

人才市场的需求风向正在悄然转变。有面试官分享,一位精通17种Prompt模板的候选人,却无法说清context manager的缓存淘汰策略(eviction policy)。面试尾声,面试官打开Claude Code仓库,指着`lru_cache.py`第44行问道:“如果这里用LFU(最不经常使用)算法替代LRU,会对长链路任务的成功率产生什么影响?”候选人沉默了11秒。

创业公司的技术路线图也在重新绘制。有团队原本计划用GPT-4 Turbo封装成“智能合同审查SaaS”,现在正连夜重写方案——将Claude Code的`tool_schema.py`和`verification_hooks.py`的核心思路抄进基础层,再叠加自身积累的法律条款知识图谱。大模型API正在变得像水电接口一样标准,而Harness,才是未来产品的核心竞争力所在。

会议最后,朱哲清关掉终端,屏幕恢复纯黑。他总结道:“或许Anthropic本无意立刻发布Claude Code,但这段代码已经完成了它的历史使命——它让所有人看清了那条分水岭:过去三年,我们比拼的是谁的模型更大;接下来三年,我们要较量的是谁的Harness更紧致、更坚韧、更能驯服AI这匹‘烈马’,而不伤其筋骨与潜能。”

来源:https://www.bitalk8.com/article/65411
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Circle代币化货币市场基金USYC约26.8亿美元发行量集中在BNB Chain
web3.0
Circle代币化货币市场基金USYC约26.8亿美元发行量集中在BNB Chain

全球最大链上货币市场基金诞生,BNB Chain成绝对主阵地 近日,一则数据引发了市场广泛关注。根据DeFiLlama等多家链上数据分析平台的最新统计,由Circle发行的代币化货币市场基金USYC,其总资产管理规模已悄然攀升至26 8亿美元,一举成为当前全球规模最大的链上货币市场基金。 更值得玩味

热心网友
04.15
BNB连锁店在最新焚化活动中燃烧了价值9.16亿美元的代币
web3.0
BNB连锁店在最新焚化活动中燃烧了价值9.16亿美元的代币

BNB Chain完成第31次季度销毁,近10亿美元BNB永久退出流通 近日,全球顶尖的区块链基础设施BNB Chain正式完成了其第31次季度代币销毁。根据官方公布的数据,本次共计销毁了1,579,207 716枚BNB,按销毁时市场价值计算,总额高达约9 16亿美元。此次大规模销毁再次向市场展现

热心网友
04.02
Web3.0与派币有关系吗?对传统银行有影响吗?
web3.0
Web3.0与派币有关系吗?对传统银行有影响吗?

派币是web3 0时代的一种货币形态,由于web3 0具有去中心化的特点,因此它需要一种安全而可靠的数字货币来保证交换的顺畅和安全,派币作为一种去中心化的数字货币,具有诸多优势,那么,Web3 0和派币有关系吗?Web3 0和派币对接银行了吗?本文将为大家详细介绍

热心网友
03.29
Web3概念龙头币有哪些?最具潜力的币种盘点
web3.0
Web3概念龙头币有哪些?最具潜力的币种盘点

Web3又称Web3 0是第三代互联网,也是一个基於区块链技术的去中心化系统,而随着Web3迎来热议,Web3概念币种也随之受到大量的关注,其中最关心的就是Web3概念龙头币有哪些?投资者对Web3概念哪些最有潜力?也很关心,接下来小编就为大家详细说一说

热心网友
03.26
Web3.0和数字人民币有何关联?龙头币种解析
web3.0
Web3.0和数字人民币有何关联?龙头币种解析

Web3 0是指下一代互联网技术,其核心思想是建立一个去中心化、自治、智能化的互联网生态系统,在Web3 0中,区块链技术、智能合约、加密货币等概念成为了重要的组成部分,那么,Web3 0和数字人民币有关系吗?web3 0概念龙头币有哪些?下面将为大家详细介绍

热心网友
03.12

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

红色沙漠无限爆炸弓箭流攻略
游戏攻略
红色沙漠无限爆炸弓箭流攻略

红色沙漠无限爆炸弓箭流终极攻略:零消耗箭矢打造移动炮台 你是否渴望在《红色沙漠》中化身为人形自走炮台,享受无与伦比的清屏快感?无限爆炸弓箭流正是实现这一梦想的顶级玩法。其核心精髓在于彻底颠覆常规弹药限制,将珍贵的爆炸箭转化为取之不尽、用之不竭的无限火力,让玩家体验到“坐轮椅”般轻松碾压一切的爽快战斗

热心网友
04.16
Adsby
AI
Adsby

Adsby是什么 提到AI广告优化,很多人的第一反应是复杂和昂贵。但有一款工具正在改变这个局面,它就是Adsby。简单来说,Adsby是一个专为初创公司和中小企业量身打造的智能广告助手。它的使命很明确:把专业级的数字广告优化能力,通过AI自动化,变得简单、高效且负担得起。核心聚焦于Google Ad

热心网友
04.16
AI ASO Manager: Hire a pro for $15
AI
AI ASO Manager: Hire a pro for $15

AI ASO Manager: Hire a pro for $15 是什么 在应用商店的激烈战场上,想用一杯咖啡的价格请到一位优化专家?这事儿还真有。AI ASO Manager: Hire a pro for $15,就是由Creati ai推出的一款智能工具,它的核心任务非常明确:帮你搞定Go

热心网友
04.16
红色沙漠野狼追踪者头盔如何获得
游戏攻略
红色沙漠野狼追踪者头盔如何获得

红色沙漠野狼追踪者头盔获取指南 许多《红色沙漠》的玩家都在寻找野狼追踪者头盔的获取方法。这件带有生物追踪功能的特殊头部装备,对于喜欢探索开放世界和进行狩猎的玩家来说,是一件极具价值的实用道具。好消息是,它的获取途径非常直接,不需要完成复杂任务或挑战强力敌人。 红色沙漠野狼追踪者头盔如何获得 成功获取

热心网友
04.16
App & API Privacy Mgmt
AI
App & API Privacy Mgmt

App & API Privacy Mgmt是什么 今天,如果你和软件开发者、数据隐私专家或者企业安全团队聊聊,他们十有八九会提到一个共同的痛点:如何在复杂的应用和API交互中,确保海量数据的安全与合规。这可不是个小工程,手动审查效率低下,而一旦出问题,代价往往极其高昂。正是在这个背景下,由APIP

热心网友
04.16