GitHub 项目深度笔记 · 2026-06-10 阅读整理

Agentic Design Patterns:从提示技巧到可治理智能体系统

基于 xindoo/agentic-design-patterns 仓库、在线站点与代表性章节反复阅读后整理。本文不是章节搬运,而是把 21 个模式重新压缩成一套能指导工程落地的 Agent 架构地图。

21 + 7核心模式与附录章节
32 / 32README 显示已完成初译
6k+GitHub Stars,2026-06-10 抓取
0 / 32README 显示仍待审核定稿

一、这本书真正讲的是什么

一句话:它把「会聊天的模型」升级成「能规划、能调用工具、能记忆、能协作、能被监控的系统」所需的工程设计模式,整理成一套词汇表。

我的阅读判断:这个项目最有价值的地方,不在于教你写几个更漂亮的 prompt,而在于给 Agent 工程一个分层框架:任务如何拆、什么时候让模型选路、何时调用工具、如何保留状态、怎样把人放回闭环,以及怎么把安全和评估变成系统默认能力。

它不是

不是「万能 Agent 秘籍」,不是某个框架的教程,也不是简单的提示词合集。照抄模式不会自动得到可靠系统。

它更像

Agent 时代的架构模式手册:像软件工程里的 MVC、CQRS、Saga 一样,用固定名称描述常见系统结构。

适合谁读

做 AI 应用、企业工作流、RAG、代码 Agent、多智能体协作、工具调用平台、LLMOps 的工程师和产品架构师。

项目本身的定位

仓库说明写得很直接:这是《Agentic Design Patterns》的中文翻译项目,覆盖 21 个核心模式和多个附录,提供在线阅读、PDF/EPUB 资源。README 同时标注「已完成翻译:32/32」「待审核:32/32」「已审核完成:0/32」。所以阅读时应把它视为一个正在持续优化的中文学习版本,关键概念很完整,但个别术语和句式仍需要对照原文或工程实践校准。

21 个模式可以压缩成 6 个问题

  1. 怎么拆任务?提示链、路由、并行化、反思。
  2. 怎么让模型行动?工具使用、MCP、A2A、CLI/GUI/真实环境交互。
  3. 怎么让 Agent 有目标?规划、目标监控、优先级、探索发现。
  4. 怎么让它记住和查到东西?记忆管理、RAG、GraphRAG、Agentic RAG。
  5. 怎么让多个 Agent 一起工作?专家分工、顺序交接、并行处理、辩论、层级协调。
  6. 怎么让系统可控?异常恢复、人机协同、安全护栏、评估与监控。

二、总体模式地图:Agent 从「回答」走向「执行」

如果把 Agent 看成一个生产系统,而不是一次模型调用,它至少有四条主链路:任务编排、外部行动、状态知识、安全评估。任何严肃 Agent 产品,最后都会长成这四条链路的组合。

模式族解决的问题典型触发条件最大风险
提示链 / 路由 / 并行化把任务切成模型更能稳定处理的小块输入复杂、流程可拆、输出需要中间结构链路越长,错误传播越隐蔽
反思 / 评审让模型检查自己的答案或让另一个模型检查需要高质量输出、代码审查、报告生成自我评审可能形成一致性幻觉
工具使用 / MCP突破模型训练数据边界,接入实时数据和真实动作需要查库、算数、发邮件、改代码、调用 SaaS越权调用、参数污染、工具结果被误读
规划 / 目标监控把高层目标变成可执行步骤,并在受阻时重规划路径未知、任务跨度长、需要动态探索计划看起来合理但执行验证不足
记忆 / RAG让系统拥有长期上下文和外部知识私有知识库、用户画像、跨会话任务检索片段错误、过期、冲突或缺少来源
护栏 / HITL / 监控控制风险、追踪质量、把人放在关键决策点生产环境、敏感数据、金钱/法律/账号操作护栏过弱会失控,过强会让系统不可用

三、编排类模式:先把任务拆到模型能稳定完成

很多 Agent 失败不是因为模型太弱,而是把一个需要十步推理、三次查询、两次校验的任务塞进了一次 prompt。编排类模式的核心是:不要迷信一次回答,把复杂性显式拆开。

Prompt Chaining:把长任务变成流水线

提示链把复杂任务拆成多个顺序步骤:第 1 步抽取事实,第 2 步结构化,第 3 步推理,第 4 步生成输出,第 5 步检查格式。每一步都只做一个相对清楚的子任务,输出再喂给下一步。

适合 信息抽取、复杂问答、内容生成、代码修复、多模态分析。
关键 中间结果最好用 JSON/XML/表格等结构化格式,减少下游误解。

Routing:先判断任务类型,再选处理器

路由模式像客服分诊:账单问题走财务 Agent,代码问题走代码 Agent,法律问题走安全受限流程。它把「一个万能模型处理所有输入」改成「先分类,再交给专门链路」。

适合 多意图入口、企业助手、工单系统。
风险 路由错了,后续链路再强也会跑偏。

Parallelization:能并行就别串行等

并行化把独立子任务同时交给多个模型或工具,例如对同一份材料分别做事实核查、摘要、反方观点、代码扫描。最后由聚合器合并。

适合 研究报告、候选方案比较、批量抽取。
代价 Token 成本和协调成本会上升。

Reflection:让输出接受第二次审视

反思不是让模型「想一想」这么简单,而是把生成器和评论器分开:一个产生结果,另一个按标准检查事实、格式、遗漏、风险,再决定是否修订。

适合 高质量写作、代码生成、复杂推理。
注意 同一模型自评不等于真实评测,关键场景还要外部测试或人审。

四、行动类模式:工具调用是 Agent 的手和脚

工具使用章节的核心观点很朴素:LLM 本身只会生成文本,真实世界的行动必须通过函数、API、数据库、脚本、浏览器、机器人或 SaaS 来完成。Agent 的「智能」很大一部分来自它知道何时该调用什么工具,并能读懂工具返回。

模型负责判断、分解和表达;工具负责事实、计算和动作。两者分工清楚,Agent 才不会把“猜测”伪装成“执行”。

工具调用的标准闭环

  1. 定义工具:名称、描述、参数 schema、权限、返回格式。
  2. 模型决策:模型根据任务判断是否需要工具,以及传什么参数。
  3. 结构化调用:输出函数调用 JSON,而不是自然语言「我去查一下」。
  4. 运行时执行:Agent 框架或工具层实际调用 API、CLI、数据库、浏览器。
  5. 结果回填:工具结果回到上下文,模型基于结果继续推理或生成最终答复。
工具类型典型例子价值需要加的控制
查询工具搜索、数据库、知识库、天气、库存补充实时或私有事实来源记录、过期检测、结果可信度
计算工具Python、SQL、财务计算器、代码执行把数值任务交给确定性程序沙盒、资源限额、输出校验
动作工具发邮件、下单、创建日程、提交 PR把建议变成真实动作权限分级、人类确认、审计日志
界面工具Playwright、Selenium、GUI 操作在没有 API 的网站上完成任务账号风控、截图审计、敏感页面保护
协议工具MCP、A2A、CLI、SDK让工具生态可发现、可组合工具注册、版本管理、最小权限

MCP 与 A2A 的意义

从模式角度看,MCP 解决的是「Agent 如何标准化接入外部工具和上下文」,A2A 解决的是「Agent 之间如何沟通、委托和协作」。前者像 USB-C,后者像组织内的工作协议。它们共同指向一个趋势:未来 AI 应用不会是单个聊天框,而是一个由模型、工具、数据源、执行器、评估器组成的网络。

五、记忆与知识:没有状态,就没有真正的 Agent

单次对话里,模型只有上下文窗口;长期任务里,Agent 需要显式的状态系统。书中把短期记忆、长期记忆、RAG、学习适应放在一起看,是非常正确的工程视角。

短期记忆

主要是当前上下文窗口、当前 session、临时 scratchpad。它适合保存正在进行的推理链、最近几轮对话、尚未完成的中间结果。

问题:窗口贵、会满、会被无关信息污染,不能承担长期事实存储。

长期记忆

通常放在数据库、向量库、图数据库、文件系统或业务系统里。它保存用户偏好、历史任务、项目知识、企业文档、工具执行记录。

问题:写入什么、何时检索、如何遗忘、如何修正错误记忆,都是产品级难题。

RAG 的本质:让模型先看资料,再回答

RAG 不是简单「向量库 + LLM」。它是一条数据管线:文档切块、向量化、索引、检索、重排、上下文组装、引用追踪、生成和评估。书中提到的嵌入、语义相似、chunking、向量数据库、BM25/混合搜索、HNSW,本质上都在服务一个目标:把最相关、最可信、最适合回答的材料放进模型上下文。

GraphRAG 什么时候值得上

GraphRAG 的价值在于关系:人、组织、概念、事件、项目之间有明确连接时,它能比单纯向量相似更好地回答「谁影响了谁」「A 与 B 的共同路径是什么」「这件事的因果链是什么」。但它的代价也明显:实体抽取、消歧、图谱更新、查询规划都更复杂。我的建议是:知识关系天然重要的领域再上 GraphRAG,例如法律、投研、医药、企业知识图谱、复杂工程系统。

六、多智能体:不是越多越强,而是分工更清楚

多智能体协作章节强调的是专业化:一个 Agent 负责规划,一个负责检索,一个负责写作,一个负责审查,一个负责执行工具。这样系统可扩展、可替换、可并行,也更接近人类团队。但多智能体也会带来协调成本、信息丢失、责任边界模糊。

协作形态怎么工作适合场景工程提醒
顺序交接A 做完交给 B,B 再交给 C线性工作流、报告生成、审批链交接对象必须结构化,否则上下文损耗大
并行处理多个 Agent 同时处理不同子任务调研、多方案评估、批量分析最后需要强聚合器解决冲突
辩论 / 共识多个 Agent 提出观点并互相质疑复杂决策、风险分析、策略制定别把“说得像”当成“证据充分”
层级管理Manager Agent 分配任务,Worker Agent 执行长周期项目、多工具任务Manager 需要追踪状态和验收标准
评论者 / 审稿人生成者产出,评论者挑错代码、文档、合规、安全评论者标准要外显,不能只写“检查一下”
多智能体落地原则:先把单 Agent 的任务边界、工具权限、状态存储和评估指标做好,再拆多 Agent。多 Agent 不是补救混乱架构的魔法,而是把已经清晰的职责拆成多个可观测角色。

七、安全、异常、人审、监控:生产 Agent 的底座

书中安全防护和评估监控两章,是从 Demo 走向生产的分水岭。能生成答案只是开始;能被限制、被追踪、被回放、被修复,才是系统。

护栏不是“让 Agent 变笨”,而是让能力可控

安全模式包括输入校验、输出过滤、提示约束、工具权限、外部审核 API、人类干预。对企业来说,最重要的是把风险动作分级:只读查询可以自动执行,写入草稿需要记录,发邮件/转账/删库/公开发布必须人审。

异常处理与恢复

Agent 会遇到网页变动、API 限流、工具失败、检索为空、上下文冲突、计划不可执行。异常恢复模式要求系统不要直接崩掉,而是能重试、降级、换工具、请求澄清、回滚动作或把任务交给人。

评估与监控

评估监控章节的重点是持续测量:准确率、延迟、成本、Token 使用、异常率、工具失败率、漂移、合规风险、RAG 的忠实度和相关性。传统 exact match 对自然语言输出很弱,生产中需要语义相似、LLM-as-judge、人工抽检、回归集和线上指标结合。

指标为什么重要建议记录
任务成功率衡量 Agent 是否真的完成目标输入、计划、工具轨迹、最终状态
事实忠实度防止 RAG 答案脱离来源引用片段、回答句子、证据对应关系
工具错误率定位 API、权限、参数或环境问题工具名、参数摘要、错误码、重试次数
人工介入率判断自动化边界是否合理触发原因、审批结果、后续修订
单位成本Agent 系统很容易因链路过长而成本失控模型、Token、工具费用、运行时长

八、怎么把这本书用于真实项目

最实用的读法不是按章节背概念,而是按项目成熟度逐步引入模式。下面这条路线适合大多数团队。

1. 单任务助手从清晰 prompt + 结构化输出开始,建立最小可用闭环。
2. 链式工作流引入提示链、路由、反思,把长任务拆成可测试节点。
3. 工具型 Agent接入搜索、数据库、CLI、业务 API,记录完整工具轨迹。
4. 状态型 Agent加入 session、memory、RAG,让系统跨轮次和跨任务工作。
5. 可治理系统加入权限、护栏、人审、评估、监控、回放和成本控制。

四类项目的模式组合

项目类型优先模式不要一开始就做
企业知识库问答RAG、路由、引用、评估监控、反馈学习复杂多智能体辩论;先把检索质量做好
研究报告 Agent规划、工具使用、并行检索、反思、来源核查让模型无来源生成长报告
代码 Agent工具使用、CLI、测试执行、反思、异常恢复、人审无沙盒地自动改生产代码
企业流程自动化路由、工具权限、HITL、审计、异常恢复、监控一上来全自动处理高风险动作

我会给团队的落地建议

九、章节导览:从目录看知识结构

README 中列出的核心章节基本覆盖了 Agent 系统的主干。按学习顺序,我建议这样读:

  1. 提示链:理解拆任务
  2. 路由:理解任务分诊
  3. 并行化:理解吞吐与多视角
  4. 反思:理解自检与复审
  5. 工具使用:理解行动能力
  6. 规划:理解目标到步骤
  7. 多智能体协作:理解角色分工
  8. 记忆管理:理解状态
  9. 学习与适应:理解反馈闭环
  10. MCP:理解工具协议化
  11. 目标设定与监控:理解任务控制
  12. 异常处理与恢复:理解失败路径
  13. 人机协同:理解人审边界
  14. 知识检索 RAG:理解外部知识
  15. A2A:理解 Agent 间通信
  16. 资源感知优化:理解成本与延迟
  17. 推理技术:理解模型思考方式
  18. 安全防护模式:理解约束
  19. 评估与监控:理解生产质量
  20. 优先级排序:理解有限资源分配
  21. 探索与发现:理解开放环境任务

附录则把视野扩展到高级提示、GUI 到真实世界交互、Agent 框架、AgentSpace、CLI Agent、推理引擎内部机制和 Coding Agent。对工程师来说,附录 E 和 G 很值得单独读:它们接近未来 Agent Runtime 的真实形态,即模型通过 CLI、文件系统、浏览器、测试工具和代码仓库完成工作。

十、阅读时要带着的三个保留意见

1. 模式不是框架

模式告诉你什么时候该拆链、调工具、加记忆、做人审,但不会替你解决权限、数据质量、延迟和成本。

2. 翻译仍需校对

项目 README 明确显示待审核,遇到关键术语最好对照英文原文或相关框架文档。

3. Demo 与生产差距巨大

Agent Demo 可以靠 prompt 跑通,生产系统必须靠日志、评估、权限、回滚、监控和人审。

资料来源与阅读范围

本文基于公开仓库和在线材料整理,主要做结构化解读与工程化重组,没有大段复刻原文。