Max Woolf 的经历很有代表性。作为一名曾在 Google Brain 工作的数据科学博主和独立研究者,他对 AI 的态度转变,本身就构成了一条观察技术成熟度的参考线。
2025年5月,他写了一篇文章,核心观点是:LLM 做简单任务还行,但 AI Agent 这东西既不可预测,又太昂贵,其能力被严重夸大了。
然而,转折发生在几个月后。2026年2月,他更新了一篇文章,题目直接变成了《一个 AI Agent 编程怀疑者,非常详细地试了 AI Agent 编程》。文章开篇就声明“这不是那种吹捧 Agent 的文章”,但结尾处,他却计划使用 Claude Code 来将庞大的 scikit-learn 库移植到 Rust。
是什么让一个怀疑者改变了主意?他给出了一个非常具体的时间节点:2025年11月。
2025年11月发生了什么?
Max 的改变并非一蹴而就,而是一系列小事的累积。
同年8月,他在维护一个 Python 包时,让几个大语言模型帮忙检查代码。模型能给出合理的函数文档和类型提示,顺带指出了一些更“Pythonic”的写法。他认为这有用,但并不令人震撼。
真正的效率提升发生在11月。当时 Nano Banana Pro 发布,他需要更新自己的 Python 包以支持新功能,其中涉及复杂的图像网格处理。他没有自己动手,而是写了一份详细的需求说明(spec),交给当时接入了 Claude Opus 4.5 的 Copilot 去实现。
结果是,Copilot 完成了大部分工作,虽然有几处细节错误,但通过更具体的提示(prompt)加以纠正后,任务顺利完成。整个过程比他亲自编码快了一大截。他评价道:“即使算上处理错误的时间,效率提升也足以让我对 Agent 更乐观了,但还没到变成 AI 布道者的程度。”
让他态度彻底转变的,是11月底 Claude Opus 4.5 的发布。他做了一个测试:将自己写的旧代码交给 Opus 4.5 来改进和重构。结果好得出乎意料。至此,他得出了结论:大约在2025年11月,AI Agent 开始真正变得“好用”了。
Anthropic 的数据说了同一件事
有趣的是,Anthropic 在同一时间窗口发布的一份基于真实用户数据的研究报告,从另一个维度佐证了这一变化。
报告中的几个关键数据尤为醒目:
- Claude Code 能够连续自主运行的时长,在短短三个月内从 25分钟翻倍至超过45分钟。
- 约 20%的新用户 会选择开启全自动审批模式,而有经验的用户中,这个比例超过了 40%。
- 在执行最复杂的任务时,Claude Code 主动暂停、请求用户澄清的频率,是人类主动中断它的频率的两倍。
这些数字背后,传递的信息远不止“模型变强了”。更深层的变化在于 “人与模型之间信任关系的快速建立”。有经验的用户正从最初的“步步审批”,逐渐过渡到“让其自主运行,在必要时介入”的模式。超过40%的用户开启全自动,这标志着一种新的人机协作习惯正在成型。
为何“怀疑者”的观点更有参考价值?
我一直认为,关于一项技术是否“可用”的判断,从曾经的怀疑者口中说出,远比从早期拥护者那里听到更具参考价值。
早期拥护者的问题是,他们往往在工具尚不成熟时就开始背书。因此,即使工具后来真的变好了,其判断的公信力也早已被之前的过度吹捧所稀释。
而怀疑者的问题则在于,他们容易因为早期的糟糕体验而形成路径依赖,从而错过工具真正成熟的临界点。
Max Woolf 的价值在于,他是一个 “被数据和实践说服的怀疑者”。他没有高喊“Agent 改变一切”的口号,而是冷静地陈述:我用了,它比手写代码快,虽然偶尔会出错,但纠正起来并不麻烦,整体来看是值得投入的。这种基于实际体验的、带有分寸感的评价,恰恰更接近大多数开发者在真实场景中会作出的理性判断。
2025年11月的“质变线”由何构成?
如果要为“2025年11月”这个转折点寻找一个具体解释,我认为是以下几件事共同作用的结果:
- 模型能力的实质性跃升:以 Claude Opus 4.5 为代表,新一代模型在指令遵循和长上下文处理的稳定性上有了明显进步。这意味着 Agent 在执行复杂、多步骤任务时中途“跑偏”或遗忘目标的概率大大降低。同时,工具调用的可靠性也显著增强,模型更能准确判断何时、如何调用工具。
- 行为规范化成为共识:一个不那么显眼但至关重要的变化是,像
AGENTS.md 这样的项目规范文件开始流行。开发者可以在代码库中放置一个文件,明确告知 AI Agent 本项目的代码规范、禁区、偏好风格。这使得 Agent 的行为变得可预测、可引导,而一个可预测的工具,才值得我们投入宝贵的信任。
因此,“2025年11月”并非单指某个产品的发布日,而是底层技术成熟度、周边工具生态、以及用户使用习惯三者叠加,最终越过“可用性”阈值的综合体现。
现在,我们处在什么阶段?
这个观察给我们的启发很直接:如果你在一年前尝试过 AI Agent 编程,并觉得它没什么用,那个判断在当时很可能是准确的。但请意识到,那个判断的“保质期”可能比你想象的要短。
Anthropic 的数据显示,仅仅是“自主运行时长”这个基础指标,就在三个月内实现了翻倍。这种迭代速度意味着,“值得重新评估一次”的周期,远比我们习惯的技术更新周期要快得多。
就像 Max Woolf 最终决定用 Claude Code 移植 scikit-learn,并非因为他成了狂热的信徒,而是基于一次理性的计算:“这个工具现在能帮我完成我想做的任务,且综合效率高于我亲自去做。”
这种基于实证和效用的理性计算,远比任何宏大的技术宣言都更有说服力。对于开发者而言,或许现在正是重新评估 AI Agent 在编程工作流中价值的好时机。如果你想了解更多关于人工智能、Python 开发或 Rust 编程的实践讨论,可以关注 云栈社区 上的相关板块,那里有更多开发者在分享一线经验。
数据来源参考:
- Anthropic Research: “Measuring AI agent autonomy in practice” (anthropic.com/research)
- Max Woolf: “An AI agent coding skeptic tries AI agent coding, in excessive detail” (minimaxir.com)