4014 积分	0 好友	585 主题

发消息

AI Agent编程的转折点：从怀疑到可用，为何关键在2025年11月？

发表于 2026-3-1 08:29:07 | 查看: 78| 回复: 0

Max Woolf 的经历很有代表性。作为一名曾在 Google Brain 工作的数据科学博主和独立研究者，他对 AI 的态度转变，本身就构成了一条观察技术成熟度的参考线。

2025年5月，他写了一篇文章，核心观点是：LLM 做简单任务还行，但 AI Agent 这东西既不可预测，又太昂贵，其能力被严重夸大了。

然而，转折发生在几个月后。2026年2月，他更新了一篇文章，题目直接变成了《一个 AI Agent 编程怀疑者，非常详细地试了 AI Agent 编程》。文章开篇就声明“这不是那种吹捧 Agent 的文章”，但结尾处，他却计划使用 Claude Code 来将庞大的 scikit-learn 库移植到 Rust。

是什么让一个怀疑者改变了主意？他给出了一个非常具体的时间节点：2025年11月。

2025年11月发生了什么？

Max 的改变并非一蹴而就，而是一系列小事的累积。

同年8月，他在维护一个 Python 包时，让几个大语言模型帮忙检查代码。模型能给出合理的函数文档和类型提示，顺带指出了一些更“Pythonic”的写法。他认为这有用，但并不令人震撼。

真正的效率提升发生在11月。当时 Nano Banana Pro 发布，他需要更新自己的 Python 包以支持新功能，其中涉及复杂的图像网格处理。他没有自己动手，而是写了一份详细的需求说明（spec），交给当时接入了 Claude Opus 4.5 的 Copilot 去实现。

结果是，Copilot 完成了大部分工作，虽然有几处细节错误，但通过更具体的提示（prompt）加以纠正后，任务顺利完成。整个过程比他亲自编码快了一大截。他评价道：“即使算上处理错误的时间，效率提升也足以让我对 Agent 更乐观了，但还没到变成 AI 布道者的程度。”

让他态度彻底转变的，是11月底 Claude Opus 4.5 的发布。他做了一个测试：将自己写的旧代码交给 Opus 4.5 来改进和重构。结果好得出乎意料。至此，他得出了结论：大约在2025年11月，AI Agent 开始真正变得“好用”了。

Anthropic 的数据说了同一件事

有趣的是，Anthropic 在同一时间窗口发布的一份基于真实用户数据的研究报告，从另一个维度佐证了这一变化。

报告中的几个关键数据尤为醒目：

Claude Code 能够连续自主运行的时长，在短短三个月内从 25分钟翻倍至超过45分钟。
约 20%的新用户 会选择开启全自动审批模式，而有经验的用户中，这个比例超过了 40%。
在执行最复杂的任务时，Claude Code 主动暂停、请求用户澄清的频率，是人类主动中断它的频率的两倍。

这些数字背后，传递的信息远不止“模型变强了”。更深层的变化在于 “人与模型之间信任关系的快速建立”。有经验的用户正从最初的“步步审批”，逐渐过渡到“让其自主运行，在必要时介入”的模式。超过40%的用户开启全自动，这标志着一种新的人机协作习惯正在成型。

为何“怀疑者”的观点更有参考价值？

我一直认为，关于一项技术是否“可用”的判断，从曾经的怀疑者口中说出，远比从早期拥护者那里听到更具参考价值。

早期拥护者的问题是，他们往往在工具尚不成熟时就开始背书。因此，即使工具后来真的变好了，其判断的公信力也早已被之前的过度吹捧所稀释。

而怀疑者的问题则在于，他们容易因为早期的糟糕体验而形成路径依赖，从而错过工具真正成熟的临界点。

Max Woolf 的价值在于，他是一个 “被数据和实践说服的怀疑者”。他没有高喊“Agent 改变一切”的口号，而是冷静地陈述：我用了，它比手写代码快，虽然偶尔会出错，但纠正起来并不麻烦，整体来看是值得投入的。这种基于实际体验的、带有分寸感的评价，恰恰更接近大多数开发者在真实场景中会作出的理性判断。

2025年11月的“质变线”由何构成？

如果要为“2025年11月”这个转折点寻找一个具体解释，我认为是以下几件事共同作用的结果：

模型能力的实质性跃升：以 Claude Opus 4.5 为代表，新一代模型在指令遵循和长上下文处理的稳定性上有了明显进步。这意味着 Agent 在执行复杂、多步骤任务时中途“跑偏”或遗忘目标的概率大大降低。同时，工具调用的可靠性也显著增强，模型更能准确判断何时、如何调用工具。
行为规范化成为共识：一个不那么显眼但至关重要的变化是，像 AGENTS.md 这样的项目规范文件开始流行。开发者可以在代码库中放置一个文件，明确告知 AI Agent 本项目的代码规范、禁区、偏好风格。这使得 Agent 的行为变得可预测、可引导，而一个可预测的工具，才值得我们投入宝贵的信任。

因此，“2025年11月”并非单指某个产品的发布日，而是底层技术成熟度、周边工具生态、以及用户使用习惯三者叠加，最终越过“可用性”阈值的综合体现。

现在，我们处在什么阶段？

这个观察给我们的启发很直接：如果你在一年前尝试过 AI Agent 编程，并觉得它没什么用，那个判断在当时很可能是准确的。但请意识到，那个判断的“保质期”可能比你想象的要短。

Anthropic 的数据显示，仅仅是“自主运行时长”这个基础指标，就在三个月内实现了翻倍。这种迭代速度意味着，“值得重新评估一次”的周期，远比我们习惯的技术更新周期要快得多。

就像 Max Woolf 最终决定用 Claude Code 移植 scikit-learn，并非因为他成了狂热的信徒，而是基于一次理性的计算：“这个工具现在能帮我完成我想做的任务，且综合效率高于我亲自去做。”

这种基于实证和效用的理性计算，远比任何宏大的技术宣言都更有说服力。对于开发者而言，或许现在正是重新评估 AI Agent 在编程工作流中价值的好时机。如果你想了解更多关于人工智能、Python 开发或 Rust 编程的实践讨论，可以关注云栈社区上的相关板块，那里有更多开发者在分享一线经验。

数据来源参考：

Anthropic Research: “Measuring AI agent autonomy in practice” (anthropic.com/research)
Max Woolf: “An AI agent coding skeptic tries AI agent coding, in excessive detail” (minimaxir.com)

上一篇：Lovable平台Vibe Coding应用曝严重安全漏洞，逻辑反转致数万学生数据泄露
下一篇：高德与百度地图功能细节解析：为何能在海外引发热议？

人工智能代理, Claude, Python, Rust, 代码生成