找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3798

积分

0

好友

502

主题
发表于 1 小时前 | 查看: 3| 回复: 0

毫无疑问,2026年国内AI求职市场上最稀缺的能力,就是对 Agent与Harness工程 的深刻认知。
就当前的招聘反馈来看,只要你在Harness层面有过深入实践——哪怕只是个人项目——无论是产品岗还是开发岗,收到面试邀请的概率都会大幅提升。

如何有效学习并实践Harness?这篇《How to Become an AI Engineer in 2026 (Builder Roadmap)》恰好给出了答案。作者面向完全零基础的初学者,设计了一条约17周的路线。如果你和我一样已有一些行业积累,大约2~3周就能走完全程。

路线严格遵循 learning by doing 的认知规律:先更新信息源,再建立基础心智模型,然后从最简单的 Agent 开始,一步一个台阶,最终到达生产环境的加固阶段。

Agent Loop 模式与 Skill 理解的技术文档截图

先定方向

很多工程师学习 AI Agent 的方法是错的。有人看到 CrewAI 的角色分工 demo 很酷,就开始堆角色;有人追每一个新框架,却从未完成一个真正能用的项目;还有人一上来就搞多 Agent,却连上下文、工具、harness 和 eval 都没搞明白。

这种状态很容易沦为“框架旅游”:学了一堆库,真正能落地的能力却很少。

如果你的目标是成为2026年的 Agent Engineer,并不需要先学12个框架。你需要学会的,是以下这些硬核能力:

  • 在真实编排运行时上构建 Agent,例如 LangGraph
  • 把 Claude Agent SDK 当作参考 harness 来研究
  • 用 Write、Select、Compress、Isolate 管好上下文
  • 写出模型愿意正确调用的工具
  • 加入记忆、持久化、沙箱和权限边界
  • 建立 eval、轨迹检查和 CI 回归门禁
  • 将 Agent 推到真实用户面前,并承受真实成本

这篇路线图基于2025年末到2026年初已经落地的工程实践。它真正的价值在于每个阶段都有具体项目、推荐阅读和可验收的里程碑,而不是简单罗列一堆名词。

2026年,Agent Engineer 到底做什么

很多人听到“AI Agent 工程师”,脑子里浮现的是把几个 CrewAI 角色拼起来然后宣布“发版”。现实绝非如此。

现代 Agent Engineer 更像在前沿模型之上构建、约束并运营 Agent 系统的人。他们通常需要做:

  • 设计 Agent loop 和工具调度
  • 管理上下文:Write、Select、Compress、Isolate
  • 编写模型能正确选择的工具
  • 用隔离上下文组织子 Agent
  • 增加 skill、memory、durability、sandboxing
  • 接入 eval、trace 和 CI gate,让“变好了”可以被测量

同一个模型,换个 harness,结果就会完全不同。Anthropic 的 Opus 4.5 在 Claude Code 里做 CORE 可以达到78%,在 Smolagents 里却只有42%。模型没变,差距全来自 harness。

这正是这条路线图要解决的核心问题。

每个 Agent Builder 都应该掌握四个上下文原语:

  • Write:把中间结果写进 scratchpad、memory file 或工作文件
  • Select:在需要时检索正确材料,而不是把一切塞进上下文
  • Compress:当上下文窗口达到85%到95%时进行总结压缩
  • Isolate:让子 Agent 拥有自己的上下文窗口

Anthropic 的多 Agent 研究系统正是采用这套模式,在 breadth-first research 上比单 Agent Opus 4 高出90.2%,代价是大约15倍 token。

原文的判断是:2026年值得深入学习的生产栈主要有两个。

  • LangGraph 1.0 + Deep Agents
  • Claude Agent SDK

其他框架要么会被吸收,要么更适合 demo,要么是这两条路线的弱化版本。

核心能力栈

开始之前:建立高质量信息源

在 Phase 0 就订阅一些高信号来源。不要一次性追40个资源,先选一个博客、一个 newsletter、一个 podcast、一个社区,让一手资料持续流入。

工程博客

  • Anthropic Engineering Blog:上下文工程、harness、多 Agent 研究、高级工具调用、eval 的第一手信息(也是中文社区被翻译最多的)。
  • LangChain Blog:harness、middleware、Deep Agents 的概念都有公开讲解。
  • OpenAI Cookbook:API 功能的可运行 notebook,适合跟打。
  • Hamel Husain:如果要做 eval,先读《Your AI Product Needs Evals》。
  • Eugene Yan:真实产品中的 LLM 系统模式,观点很硬。
  • Lilian Weng:Agent、prompt、幻觉、alignment 的长文综述。
  • Simon Willison:偏工程师视角,适合用来校准 hype。
  • Chip Huyen:生产级 LLM 应用和 ML systems 基础。
  • Phil Schmid:HuggingFace、Gemini、微调、部署的端到端实践。
  • Cameron Wolfe:长篇 paper breakdown,适合补研究脉络。

免费课程

  • DeepLearning.AI Short Courses:LangGraph 课和 Andrew Ng 的 Agentic AI 课值得先做。
  • LangChain Academy: Introduction to LangGraph:Phase 2 前完成。
  • Anthropic Interactive Prompt Engineering Tutorial:九章 notebook,训练 prompt 基本功。
  • HuggingFace Agents Course:覆盖 agents、smolagents、MCP、evaluation。
  • HuggingFace LLM Course:tokenizer、transformer、fine-tuning 基础。
  • MCP Fundamentals on FreeAcademy:学习 MCP server 和自定义工具。

YouTube、Newsletter、社区

YouTube 重点看 Andrej Karpathy、AI Engineer、LangChain、Anthropic、Yannic Kilcher 和 Lex Fridman 的长访谈。

Newsletter 可以从 Latent Space、The Batch、Import AI、Ben's Bites、TLDR AI、AI Engineer Pack 里选。社区则可以加入 LangChain Discord、HuggingFace Discord、r/LocalLLaMA、AI Engineer World's Fair 和 Anthropic Discord。

重点不是全看完,而是建立稳定的信息流。

17 周路线图

Phase 0:基础心智模型,1~2 周

这个阶段的目标:建立正确心智模型。除了临时脚本,不要急着写 Agent 代码。

很多新手跳过这一阶段,直接看框架教程。结果就是能跑 demo,但系统一失败就不知道原因。千万别跳。

1. 理解 augmented LLM,以及 workflow 和 agent 的区别

在碰框架前,先理解 Anthropic 总结的五种 workflow pattern:

  • prompt chaining
  • routing
  • parallelization
  • orchestrator-worker
  • evaluator-optimizer

还要理解 workflow 和 agent 的区别:Workflow 的控制流是你写死的;Agent 则在循环里自己决定下一步怎么走。这个区分能帮你避免把本该做成 chain 的东西硬做成 agent。

推荐阅读:

  • Building Effective Agents by Anthropic:五种工作流模式和 augmented LLM 概念。
  • Anthropic Cookbook patterns/agents:跟着 notebook 打一遍,不要只读。
  • Simon Willison 对 Building Effective Agents 的注释:适合用来 sanity check。

2. 把 Context Engineering 当成一门工程学

Prompt engineering 作为独立技能已经不够了。新的核心是上下文工程:每一步模型面前到底应该放哪些 token。

必读:

  • Effective context engineering for AI agents by Anthropic
  • Context Engineering for Agents by Lance Martin
  • How we built our multi-agent research system by Anthropic

你要能说清楚 Write、Select、Compress、Isolate 分别在代码里意味着什么,还要知道:子 Agent 首先是隔离上下文的手段,不只是并行工具。

3. 把 harness 理解成操作系统

Harness 不是一个更好听的“框架”。它包含 loop、tool dispatch、context curation、persistence、hooks、sub-agent、observability、sandboxing 等能力。

推荐阅读:

  • The Complete Guide to Harness Engineering
  • Inside the Claude Agents SDK
  • Building agents with the Claude Agent SDK
  • Effective harnesses for long-running agents
  • Harness design for long-running application development
  • How to think about agent frameworks by Harrison Chase

4. 理解2026年的真实状态

LangChain 的 State of Agent Engineering 调研显示,57% 的团队已有 Agent 在生产环境,89% 有可观测性,52% 有 eval。最大障碍不是模型调用,而是质量,比例达32%。

Phase 0 的练习项目不是写代码,而是手写一份两页文档,解释以下概念:

  • workflow vs agent
  • augmented LLM
  • 四个 context primitives
  • orchestrator-worker
  • harness、model、framework 的区别
  • 你预期自己系统里最可能出现的三类失败

如果不能不看资料写出来,就说明还没有真正理解。

Phase 1:写第一个简单 Agent,2~3 周

这个阶段的目标:把同一个 tool-using agent 写两遍——一次用 Anthropic 原始 SDK,一次用 Claude Agent SDK。这是理解 harness 价值最便宜的方法。

1. 从零写 Agent loop

Agent loop 并不神秘:

  1. 带着 messages 和 tools 调模型
  2. 解析 tool_use block
  3. 执行工具
  4. 追加 tool_result
  5. 循环,直到 stop_reason 是 end_turn

当你自己写过一版约100行的 loop,之后所有框架都会变得可读。

推荐阅读:

  • Tutorial: Build a tool-using agent
  • Writing tools for agents
  • Equipping agents for the real world with Agent Skills

练习:用 anthropic.messages.create 写一个无框架 Agent。三个工具就够:web_searchread_filewrite_file。跑一个研究任务,然后逐步读 trace。

2. 用 Claude Agent SDK 作为标准 harness

Claude Agent SDK 和 Claude Code 共用同一类 harness 思路,你应该把它当作 reference 来学。

要关注:

  • CLAUDE.md 规则模式
  • Skills 的渐进加载
  • PreToolUse / PostToolUse hooks
  • 通过 Task 工具生成子 Agent
  • 权限提示如何处理

练习:用 claude-agent-sdk 重写上一个 Agent。加入一个 CLAUDE.md、一个 Skill、一个 PostToolUse hook,再 spawn 一个子 Agent。

3. 发一个很小但真实运行的东西

教程不算。你需要一个真的按计划运行、你会阅读输出、会修失败的小系统。

实践项目:每日 briefing agent。它读取本地 Markdown 笔记和几个 RSS feed,生成带引用的摘要,写入磁盘,用 cron、launchd 或 systemd 定时跑。跑一周,看它失败,然后修它。

Phase 1 的里程碑:

  • 能在100行内写出 tool-using agent loop
  • 能解释 stop_reason 和 parallel tool calls
  • 能用 Claude Agent SDK 建一个带 Skill、hook、sub-agent 的 Agent
  • 用200字说清楚 harness 给了你什么

Phase 2:搭一个真正的 Agent 架构,3~4 周

这个阶段的目标:用 LangGraph 1.0 + LangChain create_agent + Deep Agents,构建一个多步骤、持久化、有状态的 Agent。

原文推荐这条栈,是因为它同时具备 durable execution、checkpointing、human-in-the-loop、LangSmith observability 和 middleware。LangChain 1.0 之后,create_agent 已成为基于 LangGraph runtime 的默认 Agent factory,create_react_agent 则进入过时路径。

Deep Agents 是套在 LangGraph 上的 batteries-included harness:planning、virtual filesystem、sub-agents、summarization、skills 一应俱全。它也是最接近 Claude Code harness 的开源类比,而且模型无关。

1. 学 LangGraph runtime

你要掌握 state graph、nodes、edges、conditional edges,以及 checkpointer 如何支持 resume、rewind、fork。

推荐阅读:

  • LangGraph 官方文档
  • Doubling down on Deep Agents
  • Context Management for Deep Agents
  • On Agent Frameworks and Agent Observability
  • Deep Agents v0.5 release notes

2. 学 middleware

Middleware 是在不 fork packaged agent 的情况下定制 harness 的方式。重点看 before_agentwrap_model_callbefore_toolsafter_tools 这些 hook 位置,理解 SummarizationMiddleware 和 FilesystemMiddleware 怎么组合。

3. 学工具、MCP 和 code execution pattern

简单粗暴地把所有 MCP 工具塞进上下文?这是错的。正确模式是 code execution with MCP。Anthropic 的文章显示,这可以把 150K token 的工具上下文压到 2K。要理解 defer_loading、code execution 作为工具表面,以及为什么让模型反复读写 JSON 很贵。

4. 记忆不等于先上 vector DB

先理解三层 memory:

  • thread-scoped:通过 PostgresSaver 这类 checkpointer
  • user-scoped:Mem0 / Zep
  • self-managed:Letta / filesystem

在没有测出召回问题之前,不要急着造 vector store。

Phase 2 的练习项目是 research analyst deep agent:

  • 输入一个研究问题
  • lead agent 制定计划,写 TODO 到虚拟文件系统
  • 并行生成3个搜索子 Agent,每个有隔离上下文
  • 子 Agent 调 Tavily 或 Firecrawl,把结果写入文件,只把短摘要回传给父 Agent
  • citation 子 Agent 校验事实
  • writer agent 生成带 inline citations 的 Markdown 报告
  • 全部状态用 PostgresSaver 持久化
  • 中途杀进程后能恢复
  • 超过1美元 token 预算前必须 human-in-the-loop 确认

Phase 3:自己写 harness 层,3~4 周

这个阶段的目标:停止依赖 packaged harness,自己写一个薄 harness。不亲手写一次,你很难在生产环境里判断哪些 harness 能力值得加入、哪些不值得。

原文把 harness 拆成以下组件:

  • loop control:模型→工具→模型的 while-loop
  • tool dispatch:注册表、schema 校验、并行调用、错误恢复、重试
  • context management:系统提示拼装、历史压缩、工具结果 offload、prompt caching
  • persistence:每个 node 后 checkpoint,支持 resume、rewind、fork
  • sub-agent orchestration:生成隔离上下文的子 Agent,把压缩摘要回传
  • skills and progressive disclosure:只在相关时加载能力
  • hooks:PreToolUse、PostToolUse、PreCompact、Stop、SessionStart
  • observability:每次模型调用、工具调用、子 Agent 调用都要有 span、token、延迟
  • sandboxing:代码执行和 MCP 工具调用在沙箱里发生
  • auth and secrets brokering:凭证不进入模型上下文

推荐阅读:

  • The Anatomy of an Agent Harness
  • Improving Deep Agents with harness engineering
  • Better Harness
  • Inside the Claude Agents SDK
  • everything-claude-code
  • deepagents source

练习项目:写一个约1500行 Python mini-harness。它至少应包含:

  • 一个模型无关的 loop
  • 用 decorator 注册工具并生成 JSON schema
  • 读取 CLAUDE.md 风格规则
  • 加载 SKILL.md 的渐进披露系统
  • 子 Agent primitive
  • 大工具结果写入文件,只给上下文保留路径和10行预览
  • 85%上下文窗口触发 compaction
  • pre_tool / post_tool / stop hook
  • OpenTelemetry tracing
  • 每一步写 SQLite,支持按 run ID 恢复

这个阶段真正的交付物不是代码,而是一篇1000字的 post-mortem:对比你的 mini-harness、Claude Agent SDK 和 Deep Agents,说清楚你做对了什么、砍掉了什么、下次会怎么改。

Phase 4:建立 eval 和回归体系,3~4 周

这个阶段的目标:让你的 Agent 可测量。没有 eval,所有“变好了”都只是感觉。

评估与回归体系

1. 只选一个观测平台

不要同时装多个:

  • LangSmith:如果你主要用 LangGraph / LangChain,这是默认选择。
  • Braintrust:如果你想要框架无关的 CI quality gate。
  • Arize Phoenix / AX:如果你要 OpenTelemetry 原生、漂移检测、OSS 到托管的迁移路径。
  • W&B Weave:如果你的团队已经在用 Weights & Biases。
  • Inspect:如果你要 benchmark 级别的严谨度。GAIA、SWE-bench、Cybench、BFCL 都有 inspect_evals。

要关注 trace sampling、online vs offline eval、metric 和 guardrail 的区别,以及为什么 CI gating 能把 eval 从看板变成工程约束。

2. 四种 eval 都要做

按照 Anthropic 的分类:

  • Single-turn evals:给定输入,输出是否正确。能确定就用 deterministic grader。
  • Trajectory evals:Agent 是否调用了正确顺序的工具、传了正确参数。
  • LLM-as-judge:开放式输出用 rubric 评分,但要定期和人工标注校准。
  • End-state evals:对有状态任务,比较最终环境状态和 ground truth。

实践项目:给 Phase 2 的 research agent 加回归 harness。

  • 建立30~50个手工分级的 golden dataset
  • 尽量实现 deterministic grader
  • 对开放输出做5维 rubric 的 LLM judge
  • 做 trajectory eval:是否规划、是否生成至少2个子 Agent、是否引用来源、是否在预算内完成
  • 接入 GitHub Actions,分数下降超过阈值就阻塞合并
  • 生产环境1% trace 每晚自动评分并报警
  • 至少跑一次公开 benchmark,例如 GAIA Level 1 或 τ²-bench retail

Phase 5:生产化加固,持续进行

这个阶段不会结束。目标是让构建的系统能承受真实用户、真实成本和真实失败。

1. 成本纪律

  • 大量使用 prompt caching
  • 按难度路由模型:简单请求用小模型,规划和高难任务用更强模型
  • 对非实时任务使用 Batch API
  • 多 Agent 任务预期可能烧掉15倍 token,只在价值足够高时使用
  • 每次模型升级后重新测 cost-per-task

2. 延迟

并行工具调用是最大杠杆之一。Anthropic 的研究系统提示里明确要求“创建多个子 Agent 时必须并行调用工具”。同样的原则也适用于你自己的 Agent。

子 Agent fan-out 也很重要:一个60步顺序 Agent,可能可以改成10步 lead + 5个并行10步子 Agent。

3. 安全和沙箱

所有代码执行都应该在沙箱里,例如 Modal、E2B、Daytona 或 LangSmith Sandboxes。不要在主进程里 exec 模型输出。

凭证要在模型上下文之外 broker。不可逆操作必须 human-in-the-loop。PreToolUse hook 应该能阻止危险命令、正则拦截 secrets、校验写入路径。

4. 监控和漂移

低流量阶段可以100% trace;高流量阶段按错误分层抽样1%到10%。

需要报警的东西包括:

  • 每次请求 token 成本
  • 工具调用失败率
  • LLM-as-judge 夜间均分
  • p95 latency
  • eval regression

每次模型升级后,都要重放流量重新基准化。

5. 韧性

超过60秒的 Agent,durable execution 基本是刚需。每个 node 后 checkpoint。系统被杀后要能恢复,最好还能 rewind 和 fork。

可选方案包括 Inngest、Temporal、LangGraph PostgresSaver。Pydantic Deep Agents 和 LangGraph 都支持类似能力,Claude Agent SDK 的 session log 也能起到类似作用。

今天可以直接采用的建议

如果只学一个框架:LangGraph 1.0 + Deep Agents。它最通用,runtime 成熟,有 PostgresSaver、time-travel debugging、durable execution,通过 LangSmith 做 OTEL-friendly observability,而且模型无关。

如果只学一个 reference harness:Claude Agent SDK + Claude Code。CLAUDE.md、Skills、sub-agents、hooks、plan mode、filesystem-as-memory,这些都是2026年其他 harness 正在收敛的原语。

如果只读一篇上下文工程文章:读 Anthropic 的 Effective context engineering for AI agents

如果只选一个 observability 工具:

  • 用 LangGraph,就选 LangSmith
  • 要框架无关 CI gate,就选 Braintrust
  • 要 benchmark 级别严谨度,就选 Inspect

2026年可以跳过:

  • AutoGen v0.4
  • OpenAI Swarm
  • Assistants API
  • 在没有测量召回问题前自建 vector store 或 memory
  • 没有明确目的的 no-code agent platform

只在有具体理由时使用:

  • CrewAI:适合 hackathon 和 demo,不是生产默认
  • OpenAI Agents SDK:适合 OpenAI 锁定场景
  • Pydantic AI / Pydantic Deep Agents:适合严格类型的 FastAPI 团队
  • Mastra:TypeScript 团队可考虑
  • Smolagents:教学很好,生产较弱
  • DSPy 3.0 + GEPA:有明确 metric 时适合优化 prompt 和 topology
  • Letta / MemGPT:需要 OS 风格长期自管理 memory 时再用

时间表

如果你是技术基础不错、但刚进入 Agent 领域的工程师,原文给出的里程碑是:

  • 第2周:Phase 0 完成,能用普通话解释 harness
  • 第5周:Phase 1 完成,Claude Agent SDK Agent 已经带一个 Skill、一个 hook、一个子 Agent
  • 第9周:Phase 2 完成,LangGraph deep-agent research analyst 带 PostgresSaver 和 LangSmith trace
  • 第13周:Phase 3 完成,1500行 mini-harness 写完并有文档
  • 第17周:Phase 4 完成,golden dataset、CI gate、一次公开 benchmark 跑通
  • 之后永远:Phase 5

如果你每周只能投入10~15小时,把时间乘以2.5。

提前知道这些坑

第一,benchmark 是移动靶,也会被“刷”。SWE-bench Verified 两年里从1.96%涨到80%以上。τ-bench 之所以加入 pass^k consistency,就是因为单次准确率越来越不够说明问题。任何“某模型得了多少分”的说法,都要连同 harness、scaffold、retry budget 和 system prompt 一起看。不要只看模型名。

第二,多 Agent 被高估了。Anthropic 报告的90.2%提升,主要来自 breadth-first research。对编码和强耦合任务,多 Agent 经常更差,还会消耗15倍 token。默认用单 Agent 加少量 scoped sub-agents。只有任务天然可拆时,再做完整 multi-agent。

第三,2026年有些来源带有推演或营销性质。诸如 “AI 2027” 这类预测,有些本来就是虚构设定,不要当统计数据引用。厂商榜单和 ranking 文章也要看商业动机。

第四,框架格局还会变。LangChain 自己18个月里就从 chains 走到 graphs,再走到 harnesses-on-graphs。押注抽象,不要押注某个库名。

第五,MCP 的生产粗糙边还在。Streamable HTTP、负载均衡、多租户 auth、rate limit、audit log,很多还在2026 roadmap 上。不要过度耦合当前 session model。

第六,模型点版本会改变行为。Opus 4.7 更严格的指令跟随和新 tokenizer,会让 Opus 4.6 的 prompt 表现不同,也可能让同一文本多花1.0~1.35倍 token。每次升级都要重放流量。

第七,eval suite 会腐烂。今天的 golden dataset,几个月后可能饱和。每季度用生产失败案例补充10%~20%,并持续校准 LLM judge。

结论

这条路线不会让你在17周里变成 principal AI engineer,但它可以让你成为一种公司正在大量寻找的人:能把 Agent 系统做出来、上线、测量、回归、控制成本,并在失败后恢复的工程师。

现在的缺口不在“谁会调用 LLM API”,真正的缺口在 eval 和 harness。Anthropic 那个数字已经说明了机会:同一个模型,不同 harness,78%对42%。中间的差距,就是你的工作空间。

所以不要只读框架比较表。每个阶段都选一个项目,做出来,弄坏它,修好它,部署它,然后把 LangSmith trace 和 benchmark score 放进 README。

也不要等到“准备好了”再开始——你永远不会觉得自己准备好了。真正让人被看见的,不是会背框架名,而是能让模型做成一件真实的事,并证明它没有退化。

17周足够改变很多事,前提是你一直在构建,并且一直在测量你构建的东西。

更多实战心得与同行交流,欢迎来云栈社区一起碰撞。




上一篇:嵌入式状态机SimpleFSM实战:告别标志位地狱
下一篇:Transformer训练优化新思路:CODA如何将内存密集型操作融入GEMM尾声
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-5-25 05:21 , Processed in 0.616379 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表