读 agent 论文容易跑偏——arXiv 上一个月好几十篇,每篇都在讲新框架、新指标、新 SOTA,但读完合上电脑你大概率不知道自己该写什么代码。
Anthropic 在 2024-2025 年陆续公开了三份文档(其实是三组),合起来基本就是当下做 agent 的工程基本盘:
- Building Effective Agents(2024.12)——讲 agent 的基本原型
- How we built our multi-agent research system(2025.6)——讲 Claude Research 的多智能体架构
- Claude Code 文档族(2025)——尤其是 Best Practices 和 Harness Design for Long-Running Apps
我反复读过几遍,每读一次都会有新东西冒出来。这篇是我自己的精读笔记 + 跨文章联读心得,会在这条系列下持续更新。
为什么选这三篇
不是因为它们最深,而是因为它们最 “系统化”——
- arXiv 上的研究论文重点在”做出了什么 SOTA”,工程细节让位于实验结果
- 大厂技术博客重点在”我们做了什么产品”,技术细节让位于市场叙事
- Anthropic 这三份文档处在中间——既有工程纵深,又把每个设计决策的”为什么”讲清楚
最关键的是,这三篇能互相印证——一份讲原型,一份讲产品案例,一份讲长程系统的工程实践。读完一篇感受是”理解了一种 pattern”,读完三篇感受是”看到了一套底层方法论”。
一、Building Effective Agents
(精读章节待补)
1.1 Workflow vs Agent 的判定标准
1.2 五种基本原型
- Prompt Chaining
- Routing
- Parallelization
- Orchestrator-Workers
- Evaluator-Optimizer
1.3 我自己的判读
二、Multi-Agent Research System
(精读章节待补)
2.1 LeadResearcher + Sub-Agents 架构
2.2 为什么多智能体多消耗 15× tokens 还值得
2.3 跟 Cognition 反方观点的对照
三、Claude Code Harness Design
(精读章节待补)
3.1 Generator-Evaluator Loop
3.2 Context Reset / Initializer Agent
3.3 长程任务的三大类失败
跨文章联读
读完三篇后,几个反复出现的关键词:
- state 管理——三篇都把 agent 的核心难点归于”如何管理跨步骤的状态”
- 失败可恢复——agent 必须假设每一步都可能失败,而不是追求步步成功
- context 是工程问题,不是研究问题——三篇都用了大量篇幅讲 context window 工程
这些主题会展开到本系列后续文章里。
这是 Anthropic Agent 精读 系列的入口文。后续每篇深入一个具体小节,链接会陆续补到这里。