云栈社区»论坛 › 面试求职「 Job 」 › Agent开发实战：为何高手阶段“手搓”核心逻辑，而非全盘依赖框 ...

发回帖发新帖

5528 积分	0 好友	754 主题

发消息

[面试题] Agent开发实战：为何高手阶段“手搓”核心逻辑，而非全盘依赖框架？

发表于 2026-4-6 12:05:25 | 查看: 82| 回复: 0

面试官：（翻完简历，直击重点）问你个工程实践题：为什么有时候选择「手搓」Agent，而不是直接用成熟框架？

我：（慌了神，瞎蒙一通）啊这…肯定是框架不好用啊！手搓多牛啊，显得我技术强，框架都是给新手用的，我肯定选手搓！

面试官：（皱紧眉头，语气变冷）你这叫回答？纯纯靠感觉瞎扯！工程实践讲的是落地和痛点，不是装样子，好好想清楚再答！

我：（额头冒冷汗，支支吾吾）我…我错了面试官，我没说到点子上，您再给我一次机会，我好好说清楚框架的痛点和手搓的优势！

面试踩雷名场面！这道关于 Agent 开发选型的面试高频题，核心是吃透「手搓Agent」和「成熟框架」的取舍逻辑。下面我们抛开感觉，从工程实践的视角拆解真实考量和正确思路。

💡 简要回答

框架的优势在于上手快，但在实际项目推进中，痛点会逐渐浮现：

抽象层过多，调试困难：报错栈追溯深，定位问题需要穿透不熟悉的框架内部逻辑。
破坏性升级风险：第三方框架的接口变更可能直接导致线上服务不可用，稳定性受制于人。
通用设计 vs 定制需求：框架为通用性设计的逻辑，可能与具体业务场景不匹配，带来冗余开销和定制障碍。

“手搓”的核心价值在于完全掌控：代码链路透明、可观测性好；可以按需裁剪，无性能浪费；依赖稳定，不受外部升级影响。因此，一个务实的策略是：核心逻辑手写，仅在工具性周边功能上借用框架。

📝 详细解析

想象一下，你从零开始搭一个 Agent。
你需要定义工具的格式，让 LLM 能正确理解每个工具是什么、需要哪些参数；你需要解析 LLM 返回的工具调用结果；你需要在每次调用之间正确维护对话历史，不能丢消息也不能顺序错；你需要处理工具调用失败时的重试逻辑；你可能还需要接入向量数据库做知识检索……这些事情，每一个 Agent 项目都得做一遍，而且大同小异。

框架的价值就在这里：把上面这些重复工作全部封装好，你直接用，不用每次都造轮子。

从零开始构建Agent与使用框架的对比图

以 LangChain 为例，一个 @tool 装饰器就能快速注册工具，AgentExecutor 把整个 ReAct loop（思考→行动→观察）封装进去，还内置了 Tracing、Callback、记忆管理等高级功能。在项目早期，尤其是快速验证 Idea 的 POC 阶段，这种便利性几乎是决定性的——将原本可能需要数周的工作缩短到几天，且几乎没有明显的副作用。

痛点在什么时候开始出现？

框架的问题并非一开始就暴露，而是随着项目生命周期的演进，在不同阶段逐渐浮出水面。

探索期（POC阶段），框架的体验是极佳的。你的核心目标是“跑通流程”，LangChain 帮你省掉了大量样板代码，几十行就搭起一个能用的 Agent，心情愉悦。

框架痛点随项目阶段演进图

第一个转折点出现在调试时。当 Agent 在某个特定场景下输出了错误的工具参数，你开始排查。自己写的核心代码可能只有五十行，但报错的 Stack Trace 却深达四十层，一直追到了框架的内部实现。你无法立刻判断问题是出在自己的逻辑里，还是框架某个版本的隐藏 Bug，抑或是某个 Callback 的触发时机不对。排查过程变成了在 GitHub Issue 中搜索相似问题，或者硬着头皮阅读框架源码。

这个过程的认知负担很重。好比开老式车，引擎盖一开，哪根管子漏油一目了然；而现代豪华车（高度抽象的框架）引擎盖下全是封装好的电子模块，出了问题只能依赖专用诊断仪（读源码、查文档），自主排查难度大增。

第二个痛点来自版本升级。线上服务平稳运行了几个月，一次常规的依赖升级后，LangChain 某个接口发生了破坏性变更（Breaking Change），你的服务直接报错。此时你面临两难：紧急回滚版本，或者连夜修改代码以适配新接口——后者可能涉及十几处散落的改动。如果核心业务逻辑高度依赖一个仍在快速迭代、变更频繁的第三方框架，那么线上服务的稳定性就会持续暴露在这种不确定性之下。

第三个痛点则在规模化阶段凸显。当流量上来，你开始关注性能和成本时，会发现问题。一次 LLM 调用本身很快，但 Agent 整体的响应延迟却超出预期。通过性能剖析（Profiling）工具，你发现框架内部在每次调用时都执行了许多对你的场景而言不必要的操作：比如序列化中间结果、触发一系列你并未定制的 Callback、记录过于详细的日志等。这些为了“通用性”而存在的隐性开销，在低流量时微不足道，但在高并发下会累积成可观的延迟增加和资源浪费。

手搓的本质优势：完全掌控

厘清了框架的痛点，“手搓”的价值就清晰了。其核心优势可归结为 “完全掌控” ，具体体现在三个层面：

手搓Agent相比框架的完全掌控优势图

第一，链路透明，可观测性极佳。 你写的每一行代码你都了如指掌。可以在任何关键位置插入日志、打入断点、添加监控指标，系统中不存在“黑盒”。线上发生故障时，清晰的日志链路是快速复现问题、定位根因的最有力工具，这在生产环境中直接转化为故障恢复时间和运维成本的节省。
第二，精准裁剪，无冗余开销。 你只实现业务真正需要的逻辑，没有任何为“兼容未知用例”而存在的包袱。工具调用解析、对话历史管理、错误重试机制，每一部分都为你当下的场景量身定制。这意味着在性能优化时，你拥有完全的自主权，可以大刀阔斧地裁剪，无需担心破坏框架的其他假设。
第三，稳定可控，不受制于人。 你自己的代码接口不会突然改变。依赖仅剩下相对稳定的底层 LLM SDK，生产环境可以长期平稳运行，无需提心吊胆地面对第三方框架的例行升级，从根本上规避了因外部依赖变更导致的线上事故。

一个形象的类比是：使用框架如同 “租房” ，拎包入住非常方便，但房屋结构不能动，房东（框架作者）的政策也可能随时调整；手搓则如同 “自建” ，前期设计施工耗时费力，但一砖一瓦你都熟悉，未来任何改造和加固都尽在掌握，住得踏实。

什么时候用框架，什么时候手搓？

这并非一个二选一的单选题，关键在于判断项目当前所处的阶段以及对“控制权”的需求强度。

适合使用框架的时机：

POC/原型验证阶段：核心目标是快速验证想法可行性，追求的是速度而非极致优化。
团队初探Agent开发：利用框架的成熟范式，帮助团队避开一些基础性的“坑”，降低入门门槛。
依赖特定生态工具：当你的项目重度依赖某个框架生态中做得特别好的周边工具（如文档解析、向量检索），且核心逻辑本身不复杂。

适合转向手搓的时机：

准备上生产环境：稳定性成为第一要务，需要杜绝不可控风险。
流量增长，性能成本敏感：需要精细控制每一毫秒的延迟和每一分计算资源。
业务逻辑高度定制：通用框架的设计与你的独特业务流程格格不入，改造框架的成本已高于自己实现。
要求高可观测性与可调试性：需要能够随时监控全链路状态，并能快速回溯和定位任何异常。

最务实的折中方案：核心手写，周边借用

在实践中，最普遍也最聪明的做法是在两者之间取得平衡：核心逻辑手写，工具性周边功能借用框架。

如何划定这条边界？你可以这样思考：工具调用的主循环、对话历史的管理策略、错误处理和重试机制、任务状态的维护——这些是 Agent 的“心脏”，直接决定了系统的核心行为和稳定性，必须 100% 理解并掌控，因此应当手写。而像 LangSmith 的调用链追踪、LlamaIndex 的文档解析器、某个向量数据库的 Python 客户端 等，这些属于“工具性”的周边模块。它们功能明确，边界清晰，即使出了问题也容易定位和替换，利用成熟的框架生态来节省这类开发时间，是完全值得的。

这就好比盖房子：房子的核心结构、承重墙布局、空间规划必须自己设计建造，确保安全可靠；但门锁、插座、水龙头完全可以选择市面上的成熟品牌产品，没有必要从零开始自制每一个零件。

工程实践的清醒视角

最后必须强调：手搓并非在任何意义上“优于”框架，而是 “在项目特定发展阶段具有不可替代的价值”。

许多成功项目的真实演进路径是这样的：

框架起步：用 LangChain 等框架快速搭建原型，验证核心想法。
局部替换：遇到线上问题后，将调试最困难、最不透明的部分用自研代码替换。
核心自研：随着流量和性能要求提升，将性能敏感的核心逻辑全部重写。
生态集成：最终，框架仅作为某些优秀周边工具的接入器被保留。

从框架起步到手搓核心的项目演进轨迹图

这条路径既享受了早期框架带来的开发速度红利，又在系统进入生产成熟期后，牢牢掌握了掌控权，实现了稳定与性能的长期目标。

这里有一个简单的自检信号：如果你能清晰地描述出“框架在某个环节替我做了哪几步，内部大概是怎么流转的”，说明你理解它，使用时有掌控感；反之，如果你只是调了一个方法但对内部一无所知，遇到问题就像面对一个黑盒，那么这就是需要警惕的信号。

框架本身从来不是问题，“不理解就盲目依赖”才是。 技术选型的智慧，就在于根据项目所处的阶段，在“效率”与“掌控”之间做出清醒的权衡。更多关于工程实践与技术权衡的深度讨论，欢迎访问云栈社区进行交流。

上一篇：深入解析LLM规划能力：从CoT、ToT到GoT的原理与实践对比
下一篇：dbProxy连接超时六大原因与排查指南：从网络到应用的全链路定位

LangChain, 代理, Python, 工程实践, 面试