找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2814

积分

0

好友

425

主题
发表于 10 小时前 | 查看: 4| 回复: 0

Max Woolf 的经历很有代表性。作为一名曾在 Google Brain 工作的数据科学博主和独立研究者,他对 AI 的态度转变,本身就构成了一条观察技术成熟度的参考线。

2025年5月,他写了一篇文章,核心观点是:LLM 做简单任务还行,但 AI Agent 这东西既不可预测,又太昂贵,其能力被严重夸大了。

然而,转折发生在几个月后。2026年2月,他更新了一篇文章,题目直接变成了《一个 AI Agent 编程怀疑者,非常详细地试了 AI Agent 编程》。文章开篇就声明“这不是那种吹捧 Agent 的文章”,但结尾处,他却计划使用 Claude Code 来将庞大的 scikit-learn 库移植到 Rust

是什么让一个怀疑者改变了主意?他给出了一个非常具体的时间节点:2025年11月

2025年11月发生了什么?

Max 的改变并非一蹴而就,而是一系列小事的累积。

同年8月,他在维护一个 Python 包时,让几个大语言模型帮忙检查代码。模型能给出合理的函数文档和类型提示,顺带指出了一些更“Pythonic”的写法。他认为这有用,但并不令人震撼。

真正的效率提升发生在11月。当时 Nano Banana Pro 发布,他需要更新自己的 Python 包以支持新功能,其中涉及复杂的图像网格处理。他没有自己动手,而是写了一份详细的需求说明(spec),交给当时接入了 Claude Opus 4.5 的 Copilot 去实现。

结果是,Copilot 完成了大部分工作,虽然有几处细节错误,但通过更具体的提示(prompt)加以纠正后,任务顺利完成。整个过程比他亲自编码快了一大截。他评价道:“即使算上处理错误的时间,效率提升也足以让我对 Agent 更乐观了,但还没到变成 AI 布道者的程度。”

让他态度彻底转变的,是11月底 Claude Opus 4.5 的发布。他做了一个测试:将自己写的旧代码交给 Opus 4.5 来改进和重构。结果好得出乎意料。至此,他得出了结论:大约在2025年11月,AI Agent 开始真正变得“好用”了。

Anthropic 的数据说了同一件事

有趣的是,Anthropic 在同一时间窗口发布的一份基于真实用户数据的研究报告,从另一个维度佐证了这一变化。

报告中的几个关键数据尤为醒目:

  • Claude Code 能够连续自主运行的时长,在短短三个月内从 25分钟翻倍至超过45分钟
  • 20%的新用户 会选择开启全自动审批模式,而有经验的用户中,这个比例超过了 40%
  • 在执行最复杂的任务时,Claude Code 主动暂停、请求用户澄清的频率,是人类主动中断它的频率的两倍。

这些数字背后,传递的信息远不止“模型变强了”。更深层的变化在于 “人与模型之间信任关系的快速建立”。有经验的用户正从最初的“步步审批”,逐渐过渡到“让其自主运行,在必要时介入”的模式。超过40%的用户开启全自动,这标志着一种新的人机协作习惯正在成型。

为何“怀疑者”的观点更有参考价值?

我一直认为,关于一项技术是否“可用”的判断,从曾经的怀疑者口中说出,远比从早期拥护者那里听到更具参考价值。

早期拥护者的问题是,他们往往在工具尚不成熟时就开始背书。因此,即使工具后来真的变好了,其判断的公信力也早已被之前的过度吹捧所稀释。

而怀疑者的问题则在于,他们容易因为早期的糟糕体验而形成路径依赖,从而错过工具真正成熟的临界点。

Max Woolf 的价值在于,他是一个 “被数据和实践说服的怀疑者”。他没有高喊“Agent 改变一切”的口号,而是冷静地陈述:我用了,它比手写代码快,虽然偶尔会出错,但纠正起来并不麻烦,整体来看是值得投入的。这种基于实际体验的、带有分寸感的评价,恰恰更接近大多数开发者在真实场景中会作出的理性判断。

2025年11月的“质变线”由何构成?

如果要为“2025年11月”这个转折点寻找一个具体解释,我认为是以下几件事共同作用的结果:

  1. 模型能力的实质性跃升:以 Claude Opus 4.5 为代表,新一代模型在指令遵循和长上下文处理的稳定性上有了明显进步。这意味着 Agent 在执行复杂、多步骤任务时中途“跑偏”或遗忘目标的概率大大降低。同时,工具调用的可靠性也显著增强,模型更能准确判断何时、如何调用工具。
  2. 行为规范化成为共识:一个不那么显眼但至关重要的变化是,像 AGENTS.md 这样的项目规范文件开始流行。开发者可以在代码库中放置一个文件,明确告知 AI Agent 本项目的代码规范、禁区、偏好风格。这使得 Agent 的行为变得可预测、可引导,而一个可预测的工具,才值得我们投入宝贵的信任。

因此,“2025年11月”并非单指某个产品的发布日,而是底层技术成熟度、周边工具生态、以及用户使用习惯三者叠加,最终越过“可用性”阈值的综合体现。

现在,我们处在什么阶段?

这个观察给我们的启发很直接:如果你在一年前尝试过 AI Agent 编程,并觉得它没什么用,那个判断在当时很可能是准确的。但请意识到,那个判断的“保质期”可能比你想象的要短。

Anthropic 的数据显示,仅仅是“自主运行时长”这个基础指标,就在三个月内实现了翻倍。这种迭代速度意味着,“值得重新评估一次”的周期,远比我们习惯的技术更新周期要快得多。

就像 Max Woolf 最终决定用 Claude Code 移植 scikit-learn,并非因为他成了狂热的信徒,而是基于一次理性的计算:“这个工具现在能帮我完成我想做的任务,且综合效率高于我亲自去做。”

这种基于实证和效用的理性计算,远比任何宏大的技术宣言都更有说服力。对于开发者而言,或许现在正是重新评估 AI Agent 在编程工作流中价值的好时机。如果你想了解更多关于人工智能、Python 开发或 Rust 编程的实践讨论,可以关注 云栈社区 上的相关板块,那里有更多开发者在分享一线经验。


数据来源参考

  • Anthropic Research: “Measuring AI agent autonomy in practice” (anthropic.com/research)
  • Max Woolf: “An AI agent coding skeptic tries AI agent coding, in excessive detail” (minimaxir.com)



上一篇:Lovable平台Vibe Coding应用曝严重安全漏洞,逻辑反转致数万学生数据泄露
下一篇:高德与百度地图功能细节解析:为何能在海外引发热议?
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-1 19:25 , Processed in 0.447729 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表