毫无疑问,2026年国内AI求职市场上最稀缺的能力,就是对 Agent与Harness工程 的深刻认知。
就当前的招聘反馈来看,只要你在Harness层面有过深入实践——哪怕只是个人项目——无论是产品岗还是开发岗,收到面试邀请的概率都会大幅提升。
如何有效学习并实践Harness?这篇《How to Become an AI Engineer in 2026 (Builder Roadmap)》恰好给出了答案。作者面向完全零基础的初学者,设计了一条约17周的路线。如果你和我一样已有一些行业积累,大约2~3周就能走完全程。
路线严格遵循 learning by doing 的认知规律:先更新信息源,再建立基础心智模型,然后从最简单的 Agent 开始,一步一个台阶,最终到达生产环境的加固阶段。

先定方向
很多工程师学习 AI Agent 的方法是错的。有人看到 CrewAI 的角色分工 demo 很酷,就开始堆角色;有人追每一个新框架,却从未完成一个真正能用的项目;还有人一上来就搞多 Agent,却连上下文、工具、harness 和 eval 都没搞明白。
这种状态很容易沦为“框架旅游”:学了一堆库,真正能落地的能力却很少。
如果你的目标是成为2026年的 Agent Engineer,并不需要先学12个框架。你需要学会的,是以下这些硬核能力:
- 在真实编排运行时上构建 Agent,例如 LangGraph
- 把 Claude Agent SDK 当作参考 harness 来研究
- 用 Write、Select、Compress、Isolate 管好上下文
- 写出模型愿意正确调用的工具
- 加入记忆、持久化、沙箱和权限边界
- 建立 eval、轨迹检查和 CI 回归门禁
- 将 Agent 推到真实用户面前,并承受真实成本
这篇路线图基于2025年末到2026年初已经落地的工程实践。它真正的价值在于每个阶段都有具体项目、推荐阅读和可验收的里程碑,而不是简单罗列一堆名词。
2026年,Agent Engineer 到底做什么
很多人听到“AI Agent 工程师”,脑子里浮现的是把几个 CrewAI 角色拼起来然后宣布“发版”。现实绝非如此。
现代 Agent Engineer 更像在前沿模型之上构建、约束并运营 Agent 系统的人。他们通常需要做:
- 设计 Agent loop 和工具调度
- 管理上下文:Write、Select、Compress、Isolate
- 编写模型能正确选择的工具
- 用隔离上下文组织子 Agent
- 增加 skill、memory、durability、sandboxing
- 接入 eval、trace 和 CI gate,让“变好了”可以被测量
同一个模型,换个 harness,结果就会完全不同。Anthropic 的 Opus 4.5 在 Claude Code 里做 CORE 可以达到78%,在 Smolagents 里却只有42%。模型没变,差距全来自 harness。
这正是这条路线图要解决的核心问题。
每个 Agent Builder 都应该掌握四个上下文原语:
- Write:把中间结果写进 scratchpad、memory file 或工作文件
- Select:在需要时检索正确材料,而不是把一切塞进上下文
- Compress:当上下文窗口达到85%到95%时进行总结压缩
- Isolate:让子 Agent 拥有自己的上下文窗口
Anthropic 的多 Agent 研究系统正是采用这套模式,在 breadth-first research 上比单 Agent Opus 4 高出90.2%,代价是大约15倍 token。
原文的判断是:2026年值得深入学习的生产栈主要有两个。
- LangGraph 1.0 + Deep Agents
- Claude Agent SDK
其他框架要么会被吸收,要么更适合 demo,要么是这两条路线的弱化版本。

开始之前:建立高质量信息源
在 Phase 0 就订阅一些高信号来源。不要一次性追40个资源,先选一个博客、一个 newsletter、一个 podcast、一个社区,让一手资料持续流入。
工程博客
- Anthropic Engineering Blog:上下文工程、harness、多 Agent 研究、高级工具调用、eval 的第一手信息(也是中文社区被翻译最多的)。
- LangChain Blog:harness、middleware、Deep Agents 的概念都有公开讲解。
- OpenAI Cookbook:API 功能的可运行 notebook,适合跟打。
- Hamel Husain:如果要做 eval,先读《Your AI Product Needs Evals》。
- Eugene Yan:真实产品中的 LLM 系统模式,观点很硬。
- Lilian Weng:Agent、prompt、幻觉、alignment 的长文综述。
- Simon Willison:偏工程师视角,适合用来校准 hype。
- Chip Huyen:生产级 LLM 应用和 ML systems 基础。
- Phil Schmid:HuggingFace、Gemini、微调、部署的端到端实践。
- Cameron Wolfe:长篇 paper breakdown,适合补研究脉络。
免费课程
- DeepLearning.AI Short Courses:LangGraph 课和 Andrew Ng 的 Agentic AI 课值得先做。
- LangChain Academy: Introduction to LangGraph:Phase 2 前完成。
- Anthropic Interactive Prompt Engineering Tutorial:九章 notebook,训练 prompt 基本功。
- HuggingFace Agents Course:覆盖 agents、smolagents、MCP、evaluation。
- HuggingFace LLM Course:tokenizer、transformer、fine-tuning 基础。
- MCP Fundamentals on FreeAcademy:学习 MCP server 和自定义工具。
YouTube、Newsletter、社区
YouTube 重点看 Andrej Karpathy、AI Engineer、LangChain、Anthropic、Yannic Kilcher 和 Lex Fridman 的长访谈。
Newsletter 可以从 Latent Space、The Batch、Import AI、Ben's Bites、TLDR AI、AI Engineer Pack 里选。社区则可以加入 LangChain Discord、HuggingFace Discord、r/LocalLLaMA、AI Engineer World's Fair 和 Anthropic Discord。
重点不是全看完,而是建立稳定的信息流。

Phase 0:基础心智模型,1~2 周
这个阶段的目标:建立正确心智模型。除了临时脚本,不要急着写 Agent 代码。
很多新手跳过这一阶段,直接看框架教程。结果就是能跑 demo,但系统一失败就不知道原因。千万别跳。
1. 理解 augmented LLM,以及 workflow 和 agent 的区别
在碰框架前,先理解 Anthropic 总结的五种 workflow pattern:
- prompt chaining
- routing
- parallelization
- orchestrator-worker
- evaluator-optimizer
还要理解 workflow 和 agent 的区别:Workflow 的控制流是你写死的;Agent 则在循环里自己决定下一步怎么走。这个区分能帮你避免把本该做成 chain 的东西硬做成 agent。
推荐阅读:
- Building Effective Agents by Anthropic:五种工作流模式和 augmented LLM 概念。
- Anthropic Cookbook patterns/agents:跟着 notebook 打一遍,不要只读。
- Simon Willison 对 Building Effective Agents 的注释:适合用来 sanity check。
2. 把 Context Engineering 当成一门工程学
Prompt engineering 作为独立技能已经不够了。新的核心是上下文工程:每一步模型面前到底应该放哪些 token。
必读:
- Effective context engineering for AI agents by Anthropic
- Context Engineering for Agents by Lance Martin
- How we built our multi-agent research system by Anthropic
你要能说清楚 Write、Select、Compress、Isolate 分别在代码里意味着什么,还要知道:子 Agent 首先是隔离上下文的手段,不只是并行工具。
3. 把 harness 理解成操作系统
Harness 不是一个更好听的“框架”。它包含 loop、tool dispatch、context curation、persistence、hooks、sub-agent、observability、sandboxing 等能力。
推荐阅读:
- The Complete Guide to Harness Engineering
- Inside the Claude Agents SDK
- Building agents with the Claude Agent SDK
- Effective harnesses for long-running agents
- Harness design for long-running application development
- How to think about agent frameworks by Harrison Chase
4. 理解2026年的真实状态
LangChain 的 State of Agent Engineering 调研显示,57% 的团队已有 Agent 在生产环境,89% 有可观测性,52% 有 eval。最大障碍不是模型调用,而是质量,比例达32%。
Phase 0 的练习项目不是写代码,而是手写一份两页文档,解释以下概念:
- workflow vs agent
- augmented LLM
- 四个 context primitives
- orchestrator-worker
- harness、model、framework 的区别
- 你预期自己系统里最可能出现的三类失败
如果不能不看资料写出来,就说明还没有真正理解。
Phase 1:写第一个简单 Agent,2~3 周
这个阶段的目标:把同一个 tool-using agent 写两遍——一次用 Anthropic 原始 SDK,一次用 Claude Agent SDK。这是理解 harness 价值最便宜的方法。
1. 从零写 Agent loop
Agent loop 并不神秘:
- 带着 messages 和 tools 调模型
- 解析 tool_use block
- 执行工具
- 追加 tool_result
- 循环,直到 stop_reason 是 end_turn
当你自己写过一版约100行的 loop,之后所有框架都会变得可读。
推荐阅读:
- Tutorial: Build a tool-using agent
- Writing tools for agents
- Equipping agents for the real world with Agent Skills
练习:用 anthropic.messages.create 写一个无框架 Agent。三个工具就够:web_search、read_file、write_file。跑一个研究任务,然后逐步读 trace。
2. 用 Claude Agent SDK 作为标准 harness
Claude Agent SDK 和 Claude Code 共用同一类 harness 思路,你应该把它当作 reference 来学。
要关注:
CLAUDE.md 规则模式
- Skills 的渐进加载
- PreToolUse / PostToolUse hooks
- 通过 Task 工具生成子 Agent
- 权限提示如何处理
练习:用 claude-agent-sdk 重写上一个 Agent。加入一个 CLAUDE.md、一个 Skill、一个 PostToolUse hook,再 spawn 一个子 Agent。
3. 发一个很小但真实运行的东西
教程不算。你需要一个真的按计划运行、你会阅读输出、会修失败的小系统。
实践项目:每日 briefing agent。它读取本地 Markdown 笔记和几个 RSS feed,生成带引用的摘要,写入磁盘,用 cron、launchd 或 systemd 定时跑。跑一周,看它失败,然后修它。
Phase 1 的里程碑:
- 能在100行内写出 tool-using agent loop
- 能解释 stop_reason 和 parallel tool calls
- 能用 Claude Agent SDK 建一个带 Skill、hook、sub-agent 的 Agent
- 用200字说清楚 harness 给了你什么
Phase 2:搭一个真正的 Agent 架构,3~4 周
这个阶段的目标:用 LangGraph 1.0 + LangChain create_agent + Deep Agents,构建一个多步骤、持久化、有状态的 Agent。
原文推荐这条栈,是因为它同时具备 durable execution、checkpointing、human-in-the-loop、LangSmith observability 和 middleware。LangChain 1.0 之后,create_agent 已成为基于 LangGraph runtime 的默认 Agent factory,create_react_agent 则进入过时路径。
Deep Agents 是套在 LangGraph 上的 batteries-included harness:planning、virtual filesystem、sub-agents、summarization、skills 一应俱全。它也是最接近 Claude Code harness 的开源类比,而且模型无关。
1. 学 LangGraph runtime
你要掌握 state graph、nodes、edges、conditional edges,以及 checkpointer 如何支持 resume、rewind、fork。
推荐阅读:
- LangGraph 官方文档
- Doubling down on Deep Agents
- Context Management for Deep Agents
- On Agent Frameworks and Agent Observability
- Deep Agents v0.5 release notes
2. 学 middleware
Middleware 是在不 fork packaged agent 的情况下定制 harness 的方式。重点看 before_agent、wrap_model_call、before_tools、after_tools 这些 hook 位置,理解 SummarizationMiddleware 和 FilesystemMiddleware 怎么组合。
3. 学工具、MCP 和 code execution pattern
简单粗暴地把所有 MCP 工具塞进上下文?这是错的。正确模式是 code execution with MCP。Anthropic 的文章显示,这可以把 150K token 的工具上下文压到 2K。要理解 defer_loading、code execution 作为工具表面,以及为什么让模型反复读写 JSON 很贵。
4. 记忆不等于先上 vector DB
先理解三层 memory:
- thread-scoped:通过 PostgresSaver 这类 checkpointer
- user-scoped:Mem0 / Zep
- self-managed:Letta / filesystem
在没有测出召回问题之前,不要急着造 vector store。
Phase 2 的练习项目是 research analyst deep agent:
- 输入一个研究问题
- lead agent 制定计划,写 TODO 到虚拟文件系统
- 并行生成3个搜索子 Agent,每个有隔离上下文
- 子 Agent 调 Tavily 或 Firecrawl,把结果写入文件,只把短摘要回传给父 Agent
- citation 子 Agent 校验事实
- writer agent 生成带 inline citations 的 Markdown 报告
- 全部状态用 PostgresSaver 持久化
- 中途杀进程后能恢复
- 超过1美元 token 预算前必须 human-in-the-loop 确认
Phase 3:自己写 harness 层,3~4 周
这个阶段的目标:停止依赖 packaged harness,自己写一个薄 harness。不亲手写一次,你很难在生产环境里判断哪些 harness 能力值得加入、哪些不值得。
原文把 harness 拆成以下组件:
- loop control:模型→工具→模型的 while-loop
- tool dispatch:注册表、schema 校验、并行调用、错误恢复、重试
- context management:系统提示拼装、历史压缩、工具结果 offload、prompt caching
- persistence:每个 node 后 checkpoint,支持 resume、rewind、fork
- sub-agent orchestration:生成隔离上下文的子 Agent,把压缩摘要回传
- skills and progressive disclosure:只在相关时加载能力
- hooks:PreToolUse、PostToolUse、PreCompact、Stop、SessionStart
- observability:每次模型调用、工具调用、子 Agent 调用都要有 span、token、延迟
- sandboxing:代码执行和 MCP 工具调用在沙箱里发生
- auth and secrets brokering:凭证不进入模型上下文
推荐阅读:
- The Anatomy of an Agent Harness
- Improving Deep Agents with harness engineering
- Better Harness
- Inside the Claude Agents SDK
- everything-claude-code
- deepagents source
练习项目:写一个约1500行 Python mini-harness。它至少应包含:
- 一个模型无关的 loop
- 用 decorator 注册工具并生成 JSON schema
- 读取
CLAUDE.md 风格规则
- 加载
SKILL.md 的渐进披露系统
- 子 Agent primitive
- 大工具结果写入文件,只给上下文保留路径和10行预览
- 85%上下文窗口触发 compaction
- pre_tool / post_tool / stop hook
- OpenTelemetry tracing
- 每一步写 SQLite,支持按 run ID 恢复
这个阶段真正的交付物不是代码,而是一篇1000字的 post-mortem:对比你的 mini-harness、Claude Agent SDK 和 Deep Agents,说清楚你做对了什么、砍掉了什么、下次会怎么改。
Phase 4:建立 eval 和回归体系,3~4 周
这个阶段的目标:让你的 Agent 可测量。没有 eval,所有“变好了”都只是感觉。

1. 只选一个观测平台
不要同时装多个:
- LangSmith:如果你主要用 LangGraph / LangChain,这是默认选择。
- Braintrust:如果你想要框架无关的 CI quality gate。
- Arize Phoenix / AX:如果你要 OpenTelemetry 原生、漂移检测、OSS 到托管的迁移路径。
- W&B Weave:如果你的团队已经在用 Weights & Biases。
- Inspect:如果你要 benchmark 级别的严谨度。GAIA、SWE-bench、Cybench、BFCL 都有 inspect_evals。
要关注 trace sampling、online vs offline eval、metric 和 guardrail 的区别,以及为什么 CI gating 能把 eval 从看板变成工程约束。
2. 四种 eval 都要做
按照 Anthropic 的分类:
- Single-turn evals:给定输入,输出是否正确。能确定就用 deterministic grader。
- Trajectory evals:Agent 是否调用了正确顺序的工具、传了正确参数。
- LLM-as-judge:开放式输出用 rubric 评分,但要定期和人工标注校准。
- End-state evals:对有状态任务,比较最终环境状态和 ground truth。
实践项目:给 Phase 2 的 research agent 加回归 harness。
- 建立30~50个手工分级的 golden dataset
- 尽量实现 deterministic grader
- 对开放输出做5维 rubric 的 LLM judge
- 做 trajectory eval:是否规划、是否生成至少2个子 Agent、是否引用来源、是否在预算内完成
- 接入 GitHub Actions,分数下降超过阈值就阻塞合并
- 生产环境1% trace 每晚自动评分并报警
- 至少跑一次公开 benchmark,例如 GAIA Level 1 或 τ²-bench retail
Phase 5:生产化加固,持续进行
这个阶段不会结束。目标是让构建的系统能承受真实用户、真实成本和真实失败。
1. 成本纪律
- 大量使用 prompt caching
- 按难度路由模型:简单请求用小模型,规划和高难任务用更强模型
- 对非实时任务使用 Batch API
- 多 Agent 任务预期可能烧掉15倍 token,只在价值足够高时使用
- 每次模型升级后重新测 cost-per-task
2. 延迟
并行工具调用是最大杠杆之一。Anthropic 的研究系统提示里明确要求“创建多个子 Agent 时必须并行调用工具”。同样的原则也适用于你自己的 Agent。
子 Agent fan-out 也很重要:一个60步顺序 Agent,可能可以改成10步 lead + 5个并行10步子 Agent。
3. 安全和沙箱
所有代码执行都应该在沙箱里,例如 Modal、E2B、Daytona 或 LangSmith Sandboxes。不要在主进程里 exec 模型输出。
凭证要在模型上下文之外 broker。不可逆操作必须 human-in-the-loop。PreToolUse hook 应该能阻止危险命令、正则拦截 secrets、校验写入路径。
4. 监控和漂移
低流量阶段可以100% trace;高流量阶段按错误分层抽样1%到10%。
需要报警的东西包括:
- 每次请求 token 成本
- 工具调用失败率
- LLM-as-judge 夜间均分
- p95 latency
- eval regression
每次模型升级后,都要重放流量重新基准化。
5. 韧性
超过60秒的 Agent,durable execution 基本是刚需。每个 node 后 checkpoint。系统被杀后要能恢复,最好还能 rewind 和 fork。
可选方案包括 Inngest、Temporal、LangGraph PostgresSaver。Pydantic Deep Agents 和 LangGraph 都支持类似能力,Claude Agent SDK 的 session log 也能起到类似作用。
今天可以直接采用的建议
如果只学一个框架:LangGraph 1.0 + Deep Agents。它最通用,runtime 成熟,有 PostgresSaver、time-travel debugging、durable execution,通过 LangSmith 做 OTEL-friendly observability,而且模型无关。
如果只学一个 reference harness:Claude Agent SDK + Claude Code。CLAUDE.md、Skills、sub-agents、hooks、plan mode、filesystem-as-memory,这些都是2026年其他 harness 正在收敛的原语。
如果只读一篇上下文工程文章:读 Anthropic 的 Effective context engineering for AI agents。
如果只选一个 observability 工具:
- 用 LangGraph,就选 LangSmith
- 要框架无关 CI gate,就选 Braintrust
- 要 benchmark 级别严谨度,就选 Inspect
2026年可以跳过:
- AutoGen v0.4
- OpenAI Swarm
- Assistants API
- 在没有测量召回问题前自建 vector store 或 memory
- 没有明确目的的 no-code agent platform
只在有具体理由时使用:
- CrewAI:适合 hackathon 和 demo,不是生产默认
- OpenAI Agents SDK:适合 OpenAI 锁定场景
- Pydantic AI / Pydantic Deep Agents:适合严格类型的 FastAPI 团队
- Mastra:TypeScript 团队可考虑
- Smolagents:教学很好,生产较弱
- DSPy 3.0 + GEPA:有明确 metric 时适合优化 prompt 和 topology
- Letta / MemGPT:需要 OS 风格长期自管理 memory 时再用
时间表
如果你是技术基础不错、但刚进入 Agent 领域的工程师,原文给出的里程碑是:
- 第2周:Phase 0 完成,能用普通话解释 harness
- 第5周:Phase 1 完成,Claude Agent SDK Agent 已经带一个 Skill、一个 hook、一个子 Agent
- 第9周:Phase 2 完成,LangGraph deep-agent research analyst 带 PostgresSaver 和 LangSmith trace
- 第13周:Phase 3 完成,1500行 mini-harness 写完并有文档
- 第17周:Phase 4 完成,golden dataset、CI gate、一次公开 benchmark 跑通
- 之后永远:Phase 5
如果你每周只能投入10~15小时,把时间乘以2.5。
提前知道这些坑
第一,benchmark 是移动靶,也会被“刷”。SWE-bench Verified 两年里从1.96%涨到80%以上。τ-bench 之所以加入 pass^k consistency,就是因为单次准确率越来越不够说明问题。任何“某模型得了多少分”的说法,都要连同 harness、scaffold、retry budget 和 system prompt 一起看。不要只看模型名。
第二,多 Agent 被高估了。Anthropic 报告的90.2%提升,主要来自 breadth-first research。对编码和强耦合任务,多 Agent 经常更差,还会消耗15倍 token。默认用单 Agent 加少量 scoped sub-agents。只有任务天然可拆时,再做完整 multi-agent。
第三,2026年有些来源带有推演或营销性质。诸如 “AI 2027” 这类预测,有些本来就是虚构设定,不要当统计数据引用。厂商榜单和 ranking 文章也要看商业动机。
第四,框架格局还会变。LangChain 自己18个月里就从 chains 走到 graphs,再走到 harnesses-on-graphs。押注抽象,不要押注某个库名。
第五,MCP 的生产粗糙边还在。Streamable HTTP、负载均衡、多租户 auth、rate limit、audit log,很多还在2026 roadmap 上。不要过度耦合当前 session model。
第六,模型点版本会改变行为。Opus 4.7 更严格的指令跟随和新 tokenizer,会让 Opus 4.6 的 prompt 表现不同,也可能让同一文本多花1.0~1.35倍 token。每次升级都要重放流量。
第七,eval suite 会腐烂。今天的 golden dataset,几个月后可能饱和。每季度用生产失败案例补充10%~20%,并持续校准 LLM judge。
结论
这条路线不会让你在17周里变成 principal AI engineer,但它可以让你成为一种公司正在大量寻找的人:能把 Agent 系统做出来、上线、测量、回归、控制成本,并在失败后恢复的工程师。
现在的缺口不在“谁会调用 LLM API”,真正的缺口在 eval 和 harness。Anthropic 那个数字已经说明了机会:同一个模型,不同 harness,78%对42%。中间的差距,就是你的工作空间。
所以不要只读框架比较表。每个阶段都选一个项目,做出来,弄坏它,修好它,部署它,然后把 LangSmith trace 和 benchmark score 放进 README。
也不要等到“准备好了”再开始——你永远不会觉得自己准备好了。真正让人被看见的,不是会背框架名,而是能让模型做成一件真实的事,并证明它没有退化。
17周足够改变很多事,前提是你一直在构建,并且一直在测量你构建的东西。
更多实战心得与同行交流,欢迎来云栈社区一起碰撞。