Anthropic 在 Agent 这事上,可以说是把全部筹码都推到赌桌上了。
他们的工程博客一直是技术团队对外输出实践和方法论的主阵地。从 2024 年 9 月到 2026 年 3 月,和 Agent 架构相关的文章,居然占了全部输出的将近四成——这体量,妥妥的第一主题。
一开始只是聊聊怎么设计一个 Agent,后来是给它配好工具,再后来琢磨怎么让它长时间跑任务不出岔子,直到今年初,16 个 Claude 并行协作,硬生生写出了一个 C 编译器。

这演进路线其实非常清晰:
如何设计Agent → 如何给Agent好工具 → 如何让Agent长时间自主工作 → Agent能做多大的事
串起来看,底层真正的硬约束其实就一个——上下文工程。怎么在有限的 token 里塞进去最多有用的信息,从早期 RAG 的一点点优化,一路演进到了今天一整套系统性的方法论。

逐篇摘要
1. Building Effective Agents (2024-12-19)
这篇基于和几十个团队协作的经验,总结了一套 Agent 设计原则。核心就是先把概念分清楚:workflow 是走预定好的路径,Agent 是自己动态做决策。文章提炼出六种架构模式——增强型 LLM、提示链、路由、并行化、编排者-工作者、评估者-优化者。里面最值得记住的一个主张是:真正好用、能落地的实现,往往都用了简单可组合的模式,而不是去套复杂的大框架。
2. Claude Code: Best Practices for Agentic Coding (2025-04-18)
这份系统性使用指南上来就点明了最关键的约束:上下文窗口是最重要的有限资源,没有之一。实践中哪些手段最有效?让 Claude 自己验证自己(给它提供测试用例是效果翻倍的大杀器)、先探索再规划再写代码、把 CLAUDE.md 配置好、还有主动管理会话——该清空就清空,该回退就回退,别舍不得。
3. How We Built Our Multi-Agent Research System (2025-06-13)
Claude Research 的工程复盘。架构上走了协调者-执行者的路子:一个主智能体并行派出多个子智能体去搜索。效果确实惊人——多智能体方案比单打独斗的 Opus 4 提升了 90.2%。但代价也不小,token 消耗直接飙到 15 倍。文章里总结了八条提示词策略和一套结果导向的评估方法,算是给后来者铺了路。
4. Writing Effective Tools for Agents (2025-09-11)
一个很朴素的道理:Agent 能力的天花板,取决于它手里的工具质量。五大设计原则值得记下来:选对工具、做好命名空间、让工具返回有意义的上下文、优化 token 效率(分页、过滤、截断都用上)、把工具描述当成提示词来写。整篇都在强调同一件事——评测驱动的迭代才是正解。
5. Code Execution with MCP (2025-11-04)
这篇的思路很巧妙——把 MCP 服务器封装成代码 API,而不是直接当工具来调用。Agent 通过文件系统按需加载工具定义,结果令人咋舌:token 消耗从 15 万直降到 2000,减少了 98.7%。核心优势在于渐进式发现、数据过滤、控制流效率提升和状态持久化,省下来的都是真金白银。
6. Effective Harnesses for Long-Running Agents (2025-11-26)
长时运行的 Agent 怎么保持跨会话的连贯性?两种典型的失败模式:要么一次性塞满上下文导致任务不完整,要么后续会话上来就误判任务已经完成。解决方案走了一个两阶段架构:先让初始化 Agent 搭好环境、生成 JSON 功能列表,后面的 Agent 再按固定流程逐个推进,每一步都通过 git 提交来做状态持久化。
7. Building a C Compiler with Parallel Claudes (2026-02-05)
这是整个系列的精彩处:16 个并行的 Claude Opus 4.6 实例,通过 Git 同步协作,两周时间就构建出了一个基于 Rust 的 C 编译器。最终产出了 10 万行代码,编过了 Linux 6.9 内核,GCC torture 测试通过率 99%。代价是消耗了 20 亿输入 token,成本大约 2 万美元。这个案例让所有人都看清了一件事——Agent 能做到的事情,边界比我们想象的远得多。
