云栈社区»论坛 › 站务中心「 Forum Service 」 › 2026 Agent与Harness人才缺口：零基础转行路线图

发回帖发新帖

4320 积分	0 好友	566 主题

发消息

2026 Agent与Harness人才缺口：零基础转行路线图

发表于 2026-5-25 03:30:09 | 查看: 194| 回复: 0

毫无疑问，2026年国内AI求职市场上最稀缺的能力，就是对 Agent与Harness工程的深刻认知。
就当前的招聘反馈来看，只要你在Harness层面有过深入实践——哪怕只是个人项目——无论是产品岗还是开发岗，收到面试邀请的概率都会大幅提升。

如何有效学习并实践Harness？这篇《How to Become an AI Engineer in 2026 (Builder Roadmap)》恰好给出了答案。作者面向完全零基础的初学者，设计了一条约17周的路线。如果你和我一样已有一些行业积累，大约2~3周就能走完全程。

路线严格遵循 learning by doing 的认知规律：先更新信息源，再建立基础心智模型，然后从最简单的 Agent 开始，一步一个台阶，最终到达生产环境的加固阶段。

Agent Loop 模式与 Skill 理解的技术文档截图

先定方向

很多工程师学习 AI Agent 的方法是错的。有人看到 CrewAI 的角色分工 demo 很酷，就开始堆角色；有人追每一个新框架，却从未完成一个真正能用的项目；还有人一上来就搞多 Agent，却连上下文、工具、harness 和 eval 都没搞明白。

这种状态很容易沦为“框架旅游”：学了一堆库，真正能落地的能力却很少。

如果你的目标是成为2026年的 Agent Engineer，并不需要先学12个框架。你需要学会的，是以下这些硬核能力：

在真实编排运行时上构建 Agent，例如 LangGraph
把 Claude Agent SDK 当作参考 harness 来研究
用 Write、Select、Compress、Isolate 管好上下文
写出模型愿意正确调用的工具
加入记忆、持久化、沙箱和权限边界
建立 eval、轨迹检查和 CI 回归门禁
将 Agent 推到真实用户面前，并承受真实成本

这篇路线图基于2025年末到2026年初已经落地的工程实践。它真正的价值在于每个阶段都有具体项目、推荐阅读和可验收的里程碑，而不是简单罗列一堆名词。

2026年，Agent Engineer 到底做什么

很多人听到“AI Agent 工程师”，脑子里浮现的是把几个 CrewAI 角色拼起来然后宣布“发版”。现实绝非如此。

现代 Agent Engineer 更像在前沿模型之上构建、约束并运营 Agent 系统的人。他们通常需要做：

设计 Agent loop 和工具调度
管理上下文：Write、Select、Compress、Isolate
编写模型能正确选择的工具
用隔离上下文组织子 Agent
增加 skill、memory、durability、sandboxing
接入 eval、trace 和 CI gate，让“变好了”可以被测量

同一个模型，换个 harness，结果就会完全不同。Anthropic 的 Opus 4.5 在 Claude Code 里做 CORE 可以达到78%，在 Smolagents 里却只有42%。模型没变，差距全来自 harness。

这正是这条路线图要解决的核心问题。

每个 Agent Builder 都应该掌握四个上下文原语：

Write：把中间结果写进 scratchpad、memory file 或工作文件
Select：在需要时检索正确材料，而不是把一切塞进上下文
Compress：当上下文窗口达到85%到95%时进行总结压缩
Isolate：让子 Agent 拥有自己的上下文窗口

Anthropic 的多 Agent 研究系统正是采用这套模式，在 breadth-first research 上比单 Agent Opus 4 高出90.2%，代价是大约15倍 token。

原文的判断是：2026年值得深入学习的生产栈主要有两个。

LangGraph 1.0 + Deep Agents
Claude Agent SDK

其他框架要么会被吸收，要么更适合 demo，要么是这两条路线的弱化版本。

核心能力栈

开始之前：建立高质量信息源

在 Phase 0 就订阅一些高信号来源。不要一次性追40个资源，先选一个博客、一个 newsletter、一个 podcast、一个社区，让一手资料持续流入。

工程博客

Anthropic Engineering Blog：上下文工程、harness、多 Agent 研究、高级工具调用、eval 的第一手信息（也是中文社区被翻译最多的）。
LangChain Blog：harness、middleware、Deep Agents 的概念都有公开讲解。
OpenAI Cookbook：API 功能的可运行 notebook，适合跟打。
Hamel Husain：如果要做 eval，先读《Your AI Product Needs Evals》。
Eugene Yan：真实产品中的 LLM 系统模式，观点很硬。
Lilian Weng：Agent、prompt、幻觉、alignment 的长文综述。
Simon Willison：偏工程师视角，适合用来校准 hype。
Chip Huyen：生产级 LLM 应用和 ML systems 基础。
Phil Schmid：HuggingFace、Gemini、微调、部署的端到端实践。
Cameron Wolfe：长篇 paper breakdown，适合补研究脉络。

免费课程

DeepLearning.AI Short Courses：LangGraph 课和 Andrew Ng 的 Agentic AI 课值得先做。
LangChain Academy: Introduction to LangGraph：Phase 2 前完成。
Anthropic Interactive Prompt Engineering Tutorial：九章 notebook，训练 prompt 基本功。
HuggingFace Agents Course：覆盖 agents、smolagents、MCP、evaluation。
HuggingFace LLM Course：tokenizer、transformer、fine-tuning 基础。
MCP Fundamentals on FreeAcademy：学习 MCP server 和自定义工具。

YouTube 重点看 Andrej Karpathy、AI Engineer、LangChain、Anthropic、Yannic Kilcher 和 Lex Fridman 的长访谈。

Newsletter 可以从 Latent Space、The Batch、Import AI、Ben's Bites、TLDR AI、AI Engineer Pack 里选。社区则可以加入 LangChain Discord、HuggingFace Discord、r/LocalLLaMA、AI Engineer World's Fair 和 Anthropic Discord。

重点不是全看完，而是建立稳定的信息流。

17 周路线图

Phase 0：基础心智模型，1~2 周

这个阶段的目标：建立正确心智模型。除了临时脚本，不要急着写 Agent 代码。

很多新手跳过这一阶段，直接看框架教程。结果就是能跑 demo，但系统一失败就不知道原因。千万别跳。

1. 理解 augmented LLM，以及 workflow 和 agent 的区别

在碰框架前，先理解 Anthropic 总结的五种 workflow pattern：

prompt chaining
routing
parallelization
orchestrator-worker
evaluator-optimizer

还要理解 workflow 和 agent 的区别：Workflow 的控制流是你写死的；Agent 则在循环里自己决定下一步怎么走。这个区分能帮你避免把本该做成 chain 的东西硬做成 agent。

推荐阅读：

Building Effective Agents by Anthropic：五种工作流模式和 augmented LLM 概念。
Anthropic Cookbook patterns/agents：跟着 notebook 打一遍，不要只读。
Simon Willison 对 Building Effective Agents 的注释：适合用来 sanity check。

2. 把 Context Engineering 当成一门工程学

Prompt engineering 作为独立技能已经不够了。新的核心是上下文工程：每一步模型面前到底应该放哪些 token。

必读：

Effective context engineering for AI agents by Anthropic
Context Engineering for Agents by Lance Martin
How we built our multi-agent research system by Anthropic

你要能说清楚 Write、Select、Compress、Isolate 分别在代码里意味着什么，还要知道：子 Agent 首先是隔离上下文的手段，不只是并行工具。

3. 把 harness 理解成操作系统

Harness 不是一个更好听的“框架”。它包含 loop、tool dispatch、context curation、persistence、hooks、sub-agent、observability、sandboxing 等能力。

推荐阅读：

The Complete Guide to Harness Engineering
Inside the Claude Agents SDK
Building agents with the Claude Agent SDK
Effective harnesses for long-running agents
Harness design for long-running application development
How to think about agent frameworks by Harrison Chase

4. 理解2026年的真实状态

LangChain 的 State of Agent Engineering 调研显示，57% 的团队已有 Agent 在生产环境，89% 有可观测性，52% 有 eval。最大障碍不是模型调用，而是质量，比例达32%。

Phase 0 的练习项目不是写代码，而是手写一份两页文档，解释以下概念：

workflow vs agent
augmented LLM
四个 context primitives
orchestrator-worker
harness、model、framework 的区别
你预期自己系统里最可能出现的三类失败

如果不能不看资料写出来，就说明还没有真正理解。

Phase 1：写第一个简单 Agent，2~3 周

这个阶段的目标：把同一个 tool-using agent 写两遍——一次用 Anthropic 原始 SDK，一次用 Claude Agent SDK。这是理解 harness 价值最便宜的方法。

1. 从零写 Agent loop

Agent loop 并不神秘：

带着 messages 和 tools 调模型
解析 tool_use block
执行工具
追加 tool_result
循环，直到 stop_reason 是 end_turn

当你自己写过一版约100行的 loop，之后所有框架都会变得可读。

推荐阅读：

Tutorial: Build a tool-using agent
Writing tools for agents
Equipping agents for the real world with Agent Skills

练习：用 anthropic.messages.create 写一个无框架 Agent。三个工具就够：web_search、read_file、write_file。跑一个研究任务，然后逐步读 trace。

2. 用 Claude Agent SDK 作为标准 harness

Claude Agent SDK 和 Claude Code 共用同一类 harness 思路，你应该把它当作 reference 来学。

要关注：

CLAUDE.md 规则模式
Skills 的渐进加载
PreToolUse / PostToolUse hooks
通过 Task 工具生成子 Agent
权限提示如何处理

练习：用 claude-agent-sdk 重写上一个 Agent。加入一个 CLAUDE.md、一个 Skill、一个 PostToolUse hook，再 spawn 一个子 Agent。

3. 发一个很小但真实运行的东西

教程不算。你需要一个真的按计划运行、你会阅读输出、会修失败的小系统。

实践项目：每日 briefing agent。它读取本地 Markdown 笔记和几个 RSS feed，生成带引用的摘要，写入磁盘，用 cron、launchd 或 systemd 定时跑。跑一周，看它失败，然后修它。

Phase 1 的里程碑：

能在100行内写出 tool-using agent loop
能解释 stop_reason 和 parallel tool calls
能用 Claude Agent SDK 建一个带 Skill、hook、sub-agent 的 Agent
用200字说清楚 harness 给了你什么

Phase 2：搭一个真正的 Agent 架构，3~4 周

这个阶段的目标：用 LangGraph 1.0 + LangChain create_agent + Deep Agents，构建一个多步骤、持久化、有状态的 Agent。

原文推荐这条栈，是因为它同时具备 durable execution、checkpointing、human-in-the-loop、LangSmith observability 和 middleware。LangChain 1.0 之后，create_agent 已成为基于 LangGraph runtime 的默认 Agent factory，create_react_agent 则进入过时路径。

Deep Agents 是套在 LangGraph 上的 batteries-included harness：planning、virtual filesystem、sub-agents、summarization、skills 一应俱全。它也是最接近 Claude Code harness 的开源类比，而且模型无关。

1. 学 LangGraph runtime

你要掌握 state graph、nodes、edges、conditional edges，以及 checkpointer 如何支持 resume、rewind、fork。

推荐阅读：

LangGraph 官方文档
Doubling down on Deep Agents
Context Management for Deep Agents
On Agent Frameworks and Agent Observability
Deep Agents v0.5 release notes

2. 学 middleware

Middleware 是在不 fork packaged agent 的情况下定制 harness 的方式。重点看 before_agent、wrap_model_call、before_tools、after_tools 这些 hook 位置，理解 SummarizationMiddleware 和 FilesystemMiddleware 怎么组合。

3. 学工具、MCP 和 code execution pattern

简单粗暴地把所有 MCP 工具塞进上下文？这是错的。正确模式是 code execution with MCP。Anthropic 的文章显示，这可以把 150K token 的工具上下文压到 2K。要理解 defer_loading、code execution 作为工具表面，以及为什么让模型反复读写 JSON 很贵。

4. 记忆不等于先上 vector DB

先理解三层 memory：

thread-scoped：通过 PostgresSaver 这类 checkpointer
user-scoped：Mem0 / Zep
self-managed：Letta / filesystem

在没有测出召回问题之前，不要急着造 vector store。

Phase 2 的练习项目是 research analyst deep agent：

输入一个研究问题
lead agent 制定计划，写 TODO 到虚拟文件系统
并行生成3个搜索子 Agent，每个有隔离上下文
子 Agent 调 Tavily 或 Firecrawl，把结果写入文件，只把短摘要回传给父 Agent
citation 子 Agent 校验事实
writer agent 生成带 inline citations 的 Markdown 报告
全部状态用 PostgresSaver 持久化
中途杀进程后能恢复
超过1美元 token 预算前必须 human-in-the-loop 确认

Phase 3：自己写 harness 层，3~4 周

这个阶段的目标：停止依赖 packaged harness，自己写一个薄 harness。不亲手写一次，你很难在生产环境里判断哪些 harness 能力值得加入、哪些不值得。

原文把 harness 拆成以下组件：

loop control：模型→工具→模型的 while-loop
tool dispatch：注册表、schema 校验、并行调用、错误恢复、重试
context management：系统提示拼装、历史压缩、工具结果 offload、prompt caching
persistence：每个 node 后 checkpoint，支持 resume、rewind、fork
sub-agent orchestration：生成隔离上下文的子 Agent，把压缩摘要回传
skills and progressive disclosure：只在相关时加载能力
hooks：PreToolUse、PostToolUse、PreCompact、Stop、SessionStart
observability：每次模型调用、工具调用、子 Agent 调用都要有 span、token、延迟
sandboxing：代码执行和 MCP 工具调用在沙箱里发生
auth and secrets brokering：凭证不进入模型上下文

推荐阅读：

The Anatomy of an Agent Harness
Improving Deep Agents with harness engineering
Better Harness
Inside the Claude Agents SDK
everything-claude-code
deepagents source

练习项目：写一个约1500行 Python mini-harness。它至少应包含：

一个模型无关的 loop
用 decorator 注册工具并生成 JSON schema
读取 CLAUDE.md 风格规则
加载 SKILL.md 的渐进披露系统
子 Agent primitive
大工具结果写入文件，只给上下文保留路径和10行预览
85%上下文窗口触发 compaction
pre_tool / post_tool / stop hook
OpenTelemetry tracing
每一步写 SQLite，支持按 run ID 恢复

这个阶段真正的交付物不是代码，而是一篇1000字的 post-mortem：对比你的 mini-harness、Claude Agent SDK 和 Deep Agents，说清楚你做对了什么、砍掉了什么、下次会怎么改。

Phase 4：建立 eval 和回归体系，3~4 周

这个阶段的目标：让你的 Agent 可测量。没有 eval，所有“变好了”都只是感觉。

评估与回归体系

1. 只选一个观测平台

不要同时装多个：

LangSmith：如果你主要用 LangGraph / LangChain，这是默认选择。
Braintrust：如果你想要框架无关的 CI quality gate。
Arize Phoenix / AX：如果你要 OpenTelemetry 原生、漂移检测、OSS 到托管的迁移路径。
W&B Weave：如果你的团队已经在用 Weights & Biases。
Inspect：如果你要 benchmark 级别的严谨度。GAIA、SWE-bench、Cybench、BFCL 都有 inspect_evals。

要关注 trace sampling、online vs offline eval、metric 和 guardrail 的区别，以及为什么 CI gating 能把 eval 从看板变成工程约束。

2. 四种 eval 都要做

按照 Anthropic 的分类：

Single-turn evals：给定输入，输出是否正确。能确定就用 deterministic grader。
Trajectory evals：Agent 是否调用了正确顺序的工具、传了正确参数。
LLM-as-judge：开放式输出用 rubric 评分，但要定期和人工标注校准。
End-state evals：对有状态任务，比较最终环境状态和 ground truth。

实践项目：给 Phase 2 的 research agent 加回归 harness。

建立30~50个手工分级的 golden dataset
尽量实现 deterministic grader
对开放输出做5维 rubric 的 LLM judge
做 trajectory eval：是否规划、是否生成至少2个子 Agent、是否引用来源、是否在预算内完成
接入 GitHub Actions，分数下降超过阈值就阻塞合并
生产环境1% trace 每晚自动评分并报警
至少跑一次公开 benchmark，例如 GAIA Level 1 或 τ²-bench retail

Phase 5：生产化加固，持续进行

这个阶段不会结束。目标是让构建的系统能承受真实用户、真实成本和真实失败。

1. 成本纪律

大量使用 prompt caching
按难度路由模型：简单请求用小模型，规划和高难任务用更强模型
对非实时任务使用 Batch API
多 Agent 任务预期可能烧掉15倍 token，只在价值足够高时使用
每次模型升级后重新测 cost-per-task

2. 延迟

并行工具调用是最大杠杆之一。Anthropic 的研究系统提示里明确要求“创建多个子 Agent 时必须并行调用工具”。同样的原则也适用于你自己的 Agent。

子 Agent fan-out 也很重要：一个60步顺序 Agent，可能可以改成10步 lead + 5个并行10步子 Agent。

3. 安全和沙箱

所有代码执行都应该在沙箱里，例如 Modal、E2B、Daytona 或 LangSmith Sandboxes。不要在主进程里 exec 模型输出。

凭证要在模型上下文之外 broker。不可逆操作必须 human-in-the-loop。PreToolUse hook 应该能阻止危险命令、正则拦截 secrets、校验写入路径。

4. 监控和漂移

低流量阶段可以100% trace；高流量阶段按错误分层抽样1%到10%。

需要报警的东西包括：

每次请求 token 成本
工具调用失败率
LLM-as-judge 夜间均分
p95 latency
eval regression

每次模型升级后，都要重放流量重新基准化。

5. 韧性

超过60秒的 Agent，durable execution 基本是刚需。每个 node 后 checkpoint。系统被杀后要能恢复，最好还能 rewind 和 fork。

可选方案包括 Inngest、Temporal、LangGraph PostgresSaver。Pydantic Deep Agents 和 LangGraph 都支持类似能力，Claude Agent SDK 的 session log 也能起到类似作用。

今天可以直接采用的建议

如果只学一个框架：LangGraph 1.0 + Deep Agents。它最通用，runtime 成熟，有 PostgresSaver、time-travel debugging、durable execution，通过 LangSmith 做 OTEL-friendly observability，而且模型无关。

如果只学一个 reference harness：Claude Agent SDK + Claude Code。CLAUDE.md、Skills、sub-agents、hooks、plan mode、filesystem-as-memory，这些都是2026年其他 harness 正在收敛的原语。

如果只读一篇上下文工程文章：读 Anthropic 的 Effective context engineering for AI agents。

如果只选一个 observability 工具：

用 LangGraph，就选 LangSmith
要框架无关 CI gate，就选 Braintrust
要 benchmark 级别严谨度，就选 Inspect

2026年可以跳过：

AutoGen v0.4
OpenAI Swarm
Assistants API
在没有测量召回问题前自建 vector store 或 memory
没有明确目的的 no-code agent platform

只在有具体理由时使用：

CrewAI：适合 hackathon 和 demo，不是生产默认
OpenAI Agents SDK：适合 OpenAI 锁定场景
Pydantic AI / Pydantic Deep Agents：适合严格类型的 FastAPI 团队
Mastra：TypeScript 团队可考虑
Smolagents：教学很好，生产较弱
DSPy 3.0 + GEPA：有明确 metric 时适合优化 prompt 和 topology
Letta / MemGPT：需要 OS 风格长期自管理 memory 时再用

时间表

如果你是技术基础不错、但刚进入 Agent 领域的工程师，原文给出的里程碑是：

第2周：Phase 0 完成，能用普通话解释 harness
第5周：Phase 1 完成，Claude Agent SDK Agent 已经带一个 Skill、一个 hook、一个子 Agent
第9周：Phase 2 完成，LangGraph deep-agent research analyst 带 PostgresSaver 和 LangSmith trace
第13周：Phase 3 完成，1500行 mini-harness 写完并有文档
第17周：Phase 4 完成，golden dataset、CI gate、一次公开 benchmark 跑通
之后永远：Phase 5

如果你每周只能投入10~15小时，把时间乘以2.5。

提前知道这些坑

第一，benchmark 是移动靶，也会被“刷”。SWE-bench Verified 两年里从1.96%涨到80%以上。τ-bench 之所以加入 pass^k consistency，就是因为单次准确率越来越不够说明问题。任何“某模型得了多少分”的说法，都要连同 harness、scaffold、retry budget 和 system prompt 一起看。不要只看模型名。

第二，多 Agent 被高估了。Anthropic 报告的90.2%提升，主要来自 breadth-first research。对编码和强耦合任务，多 Agent 经常更差，还会消耗15倍 token。默认用单 Agent 加少量 scoped sub-agents。只有任务天然可拆时，再做完整 multi-agent。

第三，2026年有些来源带有推演或营销性质。诸如 “AI 2027” 这类预测，有些本来就是虚构设定，不要当统计数据引用。厂商榜单和 ranking 文章也要看商业动机。

第四，框架格局还会变。LangChain 自己18个月里就从 chains 走到 graphs，再走到 harnesses-on-graphs。押注抽象，不要押注某个库名。

第五，MCP 的生产粗糙边还在。Streamable HTTP、负载均衡、多租户 auth、rate limit、audit log，很多还在2026 roadmap 上。不要过度耦合当前 session model。

第六，模型点版本会改变行为。Opus 4.7 更严格的指令跟随和新 tokenizer，会让 Opus 4.6 的 prompt 表现不同，也可能让同一文本多花1.0~1.35倍 token。每次升级都要重放流量。

第七，eval suite 会腐烂。今天的 golden dataset，几个月后可能饱和。每季度用生产失败案例补充10%~20%，并持续校准 LLM judge。

结论

这条路线不会让你在17周里变成 principal AI engineer，但它可以让你成为一种公司正在大量寻找的人：能把 Agent 系统做出来、上线、测量、回归、控制成本，并在失败后恢复的工程师。

现在的缺口不在“谁会调用 LLM API”，真正的缺口在 eval 和 harness。Anthropic 那个数字已经说明了机会：同一个模型，不同 harness，78%对42%。中间的差距，就是你的工作空间。

所以不要只读框架比较表。每个阶段都选一个项目，做出来，弄坏它，修好它，部署它，然后把 LangSmith trace 和 benchmark score 放进 README。

也不要等到“准备好了”再开始——你永远不会觉得自己准备好了。真正让人被看见的，不是会背框架名，而是能让模型做成一件真实的事，并证明它没有退化。

17周足够改变很多事，前提是你一直在构建，并且一直在测量你构建的东西。

更多实战心得与同行交流，欢迎来云栈社区一起碰撞。

上一篇：嵌入式状态机SimpleFSM实战：告别标志位地狱
下一篇：Transformer训练优化新思路：CODA如何将内存密集型操作融入GEMM尾声

Agent, Harness, LangGraph, 学习路线, 零基础转行

2026 Agent与Harness人才缺口：零基础转行路线图

先定方向

2026年，Agent Engineer 到底做什么

开始之前：建立高质量信息源

工程博客

免费课程

YouTube、Newsletter、社区

Phase 0：基础心智模型，1~2 周

1. 理解 augmented LLM，以及 workflow 和 agent 的区别

2. 把 Context Engineering 当成一门工程学

3. 把 harness 理解成操作系统

4. 理解2026年的真实状态

Phase 1：写第一个简单 Agent，2~3 周

1. 从零写 Agent loop

2. 用 Claude Agent SDK 作为标准 harness

3. 发一个很小但真实运行的东西

Phase 2：搭一个真正的 Agent 架构，3~4 周

1. 学 LangGraph runtime

2. 学 middleware

3. 学工具、MCP 和 code execution pattern

4. 记忆不等于先上 vector DB

Phase 3：自己写 harness 层，3~4 周

Phase 4：建立 eval 和回归体系，3~4 周

1. 只选一个观测平台

2. 四种 eval 都要做

Phase 5：生产化加固，持续进行

1. 成本纪律

2. 延迟

3. 安全和沙箱

4. 监控和漂移

5. 韧性

今天可以直接采用的建议

时间表

提前知道这些坑

结论

相关帖子