如今,站在这场变革最前沿的AI工程师,正被迫向“全栈”方向快速进化。
回溯几年前,职业路径还非常清晰:你只需要掌握模型调用、编写Prompt、搭建一个RAG系统或者套用一个Agent框架,就能捣鼓出一个看上去还不错的AI应用。但步入2026年,真正的难题已经悄然转向——
如何让AI系统在应对高复杂度的任务时,真正做到稳定、可靠且具备可评估性?
这意味着,问题不再局限于单一模块。模型、训练、推理、系统和Agent编排之间的边界变得日益模糊,形成了一个相互纠缠的复杂网络:
训练过程出现异常,可能是优化器选择、数据分布偏差或并行策略不当导致的;
推理延迟居高不下,瓶颈往往隐藏在Attention机制、KV cache或者底层的系统调度中;
Agent系统的失效,通常是模型能力不足、工具接口设计缺陷与记忆机制的局限性共同引发的“连锁事故”。
技术栈正在以前所未有的速度膨胀,但与之相关的工程知识却散落在各处。实践者们迫切需要一张能够将模型、训练、系统和Agent串联起来的完整导航图——而不是一堆零散的知识碎片。
针对这一行业痛点,亚马逊首席应用科学家 Haggai Roitman 撰写了一本面向实践者的统一参考手册。这并非传统意义上的论文综述,而更像是一张贯穿整个 Agentic AI 技术栈的精细化导航图。

链接:https://arxiv.org/abs/2606.24937
对于工程实践者而言,这本书最大的价值在于:当你面对真实世界的复杂问题时,能够快速定位到自己所处的系统层级,并清晰洞察上下游之间的依赖关系与影响链条。
这本书面向的主要读者是谁?
它不只是一本写给AI爱好者的科普读物,其真正的目标读者是那些正在构建AI系统的工程师、研究员和技术决策者。
Roitman 的假设是,读者具备神经网络和基础概率论的知识,但并不要求你已经精通LLM、强化学习或系统工程的深厚背景。
- 如果你是ML工程师,它能帮你深入理解Transformer的核心内部机制、训练基础设施以及主流优化方法;
- 如果你是应用研究人员,它能帮助你横向对比不同的模型架构、微调策略,以及面向特定任务的强化学习技术;
- 如果你是Agent开发者,它系统地梳理了编排模式、记忆架构、工具集成(MCP)、多Agent协调(A2A)以及生产环境中的评估问题;
- 如果你是系统工程师,它涵盖了GPU集群、分布式训练、推理部署和vLLM等关键基础设施;
- 如果你是技术负责人,它更像一张全栈参考图,能帮助你判断架构取舍和资源投入的方向。
读完后,你将收获什么?
理解LLM的内部机制,包括注意力机制、位置编码、MoE路由以及Flash Attention;
掌握GPU系统、分布式训练、推理优化和基于vLLM的生产部署实践;
熟悉LoRA/QLoRA、量化、知识蒸馏、优化器选择和学习率调度等高效训练与微调方法;
理解RLHF、DPO、GRPO、KTO等偏好优化流程,以及奖励黑客和模式崩塌这些常见陷阱;
弄清楚DeepSeek-R1、OpenAI o1/o3和QwQ等推理模型,如何通过强化学习获得强大的推理能力;
学会Agent编排、记忆设计、MCP工具集成、A2A多Agent协调以及Agent系统的评估方法。
这本书讲了什么
全书的叙述线非常清晰。它绝不是术语的大杂烩,而是沿着一条完整的路径逐步展开:一个语言模型从底层架构出发,经历了训练、对齐、推理和评估,最终演变成一个能够自主行动的Agent系统。
第一部分:模型、系统与强化学习的基础
这部分从Transformer、token、注意力机制和优化方法起步,探讨序列建模能力的来源,以及Flash Attention、LoRA、MoE、量化与蒸馏等效率优化技术;同时覆盖GPU架构、分布式训练、vLLM等系统基础,以及MDP、TD Learning、Q-Learning、Policy Gradient、Actor-Critic、GAE等经典强化学习内容。它为后续的对齐、推理与Agent训练构建了坚实的底层框架。
第二部分:LLM的对齐与强化学习方法
这一部分聚焦于语言模型如何被有效对齐、优化与训练。内容涵盖RLHF基础、PPO、DPO、GRPO及多种偏好优化变体,也包括奖励模型训练、SFT最佳实践、大规模训练系统架构,以及面向Agent的轨迹级训练方法。
第三部分:如何让模型获得更强的推理能力?
这部分深入探讨推理能力的形成机制。以DeepSeek-R1、OpenAI o1/o3/o4-mini和QwQ等模型为案例,讨论强化学习、过程奖励、搜索方法与测试时计算,是如何塑造思维链、回溯与自我验证这些高级推理行为的。
第四部分:如何判断一个模型或Agent真的变强了?
这一部分系统讨论了模型与Agent的评估方法。从perplexity、pass@k、ELO等指标,到LLM-as-Judge、人工标注、数据污染检测,再到专门面向Agent的评估体系。核心目标只有一个:建立起对模型质量与Agent能力的可靠衡量方式。
第五部分:如何把训练好的模型变成能够行动的Agent系统?
这部分重点关注Agentic AI的工程实现层。覆盖RAG、记忆系统、上下文管理与编排、设计模式、环境与基准、MCP、Agent Skills、A2A、多Agent系统、开发框架,以及Agentic UI等关键话题。
第六部分:如何把这些知识变成可查、可测、可复用的参考体系?
这部分是全书的评估与参考部分,包括覆盖全书主题的详细问答题库、公式与API速查表、常见故障与修复线索,以及结尾处对未来发展方向和延伸阅读的整理。
关于作者
Haggai Roitman 在AI研究与大规模生产系统的交叉领域深耕了二十多年。他的研究方向涵盖信息检索、推荐系统、自然语言处理、LLM、面向LLM的强化学习以及Agent系统。他发表了超过100篇经过同行评审的论文,持有约100项专利,本科和博士均毕业于以色列理工学院。
他与Agent的渊源,其实早在二十年前就已开启。在攻读信息系统工程本科时,Roitman 就学习了面向智能体的软件工程(AOSE),并使用JADE搭建过多Agent系统。之后,他又借助OntoBuilder构建了购物Agent,尝试让它自动在不同的电商网站上填写搜索和订单,通过本体匹配来理解不同网站的数据结构。
在他看来,2024到2026年之所以意义非凡,是因为几条核心技术路线终于交汇在一起:LLM提供了强大的语言理解与生成能力,强化学习负责推理与对齐,MCP标准化了工具调用,而编排框架则把这些能力组织成可稳定运行的系统。
