Michael Truell 让 Cursor 中的 GPT-5.2 连续运行了整整一周。
不是一小时,不是一天,而是不眠不休,昼夜不停,168小时持续写代码。
结果?
300万行代码。数千个文件。
AI完全从零构建出一个全新浏览器。

而且,还是一个具有 Chrome 级复杂度的浏览器。
HTML解析、CSS布局、文本渲染、还有一个自研的 JavaScript 虚拟机——全是 AI 自己写的。
Michael Truell 轻描淡写地发了条推文:它基本能跑!简单的网页能快速且正确地渲染出来。

一个模型究竟能跑多久
传统的 AI 编程工具,比如 Github Copilot,多是一问一答模式。对话长度、上下文和任务复杂度都有限制。
后来出现了所谓的 Agentic 编程——Claude Code、Cursor Agent、Windsurf 等工具让 AI 可以自主执行多步任务,读取文件、运行命令、修复错误。
这已经是很大的进步,但大多数情况下,任务仍然以分钟计算,最多几小时。AI 完成一个功能,人类 review,然后继续下一个任务。
但没有人尝试过让一个模型连续跑一周。 直到 GPT-5.2。
Cursor 团队让 GPT-5.2 持续运行了 整整一周,不是断断续续,而是 连续工作。

在这一周里,它:
- 写下了 超过300万行代码
- 创建了 数千个文件
- 执行了 数万亿个 token
- 从零构建了一个完整的浏览器渲染引擎
一个模型究竟能运行多久?答案是:理论上,可以无限。只要基础设施稳定,只要任务足够明确,AI 就能持续工作——不眠不休,7×24小时全年无休。
但实际上,不同模型的「耐力」差异巨大。
上下文窗口是第一道门槛。 早期的 GPT-3.5 只有 4K token 上下文,意味着对话稍长就会失忆。Claude 3 推出了 200K 上下文,GPT-4 Turbo 跟进 128K,Gemini 1.5 Pro 更是号称支持 100 万 token。
但上下文长度只是理论值——真正考验的是模型在长任务中能否保持 一致性、专注度和执行力。Cursor 团队在实验中发现了关键差异。

Cursor 官方博客中详细阐述了他们的发现:
- GPT-5.2 能长时间自主工作,遵循指令精准,保持专注不偏离;
- Claude Opus 4.5 倾向尽早结束,走捷径,频繁把控制权交还给用户;
- GPT-5.1-Codex 虽专为编码训练,但规划能力不如 GPT-5.2,容易中断。
用更直白的话说:Opus 像个急躁的实习生,干一会就想问「这样行不行?我先交了哈」;

而 GPT-5.2 像个老练的高级工程师,交代清楚任务就埋头干到底。这也是为什么 Cursor 官方宣称:GPT-5.2 是处理长期运行任务的前沿模型。
不止浏览器。Cursor 还透露了其他正在运行的实验项目:Java LSP、Windows 7 模拟器和 Excel 克隆。
数据都很夸张,AI 自己不停地写了 55 万行代码、120 万行代码和 160 万行代码。

多智能体系统协作
一个模型在一周内写 300 万行代码,注意是不停的写,没有人类干预!这显然不是一个模型「单打独斗」,怎么做到的?
Cursor 团队透露了他们的秘密武器:多智能体系统。

最初,他们尝试让所有 Agent 平等协作,通过共享文件来同步状态。结果发现:Agent 会持有锁太久,或者干脆忘记释放锁。二十个 Agent 的速度下降到相当于两三个 Agent 的有效吞吐量。

这像极了人类团队中常见的问题:会议太多、沟通成本高、责任边界不清。
最终有效的方案是 分层架构:
- 规划者:持续探索代码库,创建任务,进行高层决策
- 执行者:专注于完成具体任务,不关心全局,提交后继续下一个
- 评审者:判断每轮迭代是否合格,决定是否进入下一阶段
这几乎是人类软件公司的组织架构:产品经理/架构师负责规划,程序员负责执行,QA 负责评审。但区别在于——这是成百上千个 Agent 同时工作。
Cursor 团队实现了上百个 Agent 可以在同一个代码库上协同工作数周,几乎没有代码冲突。这意味着 AI 已经学会了人类团队需要多年才能磨合出的协作默契,这无疑是 人工智能 领域协作能力的一大突破。
浏览器的「护城河」比你想象的要深得多
如果听到「不就是个显示网页的软件吗」这种评价,所有做过浏览器内核的工程师大概都会苦笑。在计算机科学的鄙视链里,手写浏览器内核的难度,仅次于手写一个操作系统。
为了让你对这 300 万行代码有个概念,我们需要看一眼谷歌的 Chromium(Chrome 的开源母体)。作为人类软件工程的巅峰之一,Chromium 的代码量早已突破 3500 万行。它不仅仅是一个软件,本质上已经是一个「伪装成应用程序的操作系统」。
GPT-5.2 挑战的究竟是什么?
首先是 CSS 的「混沌理论」。 网页排版从来不是简单的堆积木。CSS 标准里充满了各种历史遗留的怪癖、层叠规则和复杂的继承逻辑。一位前火狐浏览器工程师曾打过比方:实现一个完美的 CSS 引擎,就像是在模拟一个物理法则随心所欲变化的宇宙。你改动一个父元素的属性,可能导致几千个子元素的布局瞬间崩塌。
其次是「虚拟机里的虚拟机」。 这次 AI 不仅写了界面,还写了一个 JS 虚拟机。现代网页跑的 JavaScript 代码需要内存管理、垃圾回收和安全沙箱。稍微处理不好,网页就会吃光你的内存,或者直接让黑客穿透浏览器接管电脑。
最要命的是,它选了 Rust。 Rust 这门语言以「绝不妥协的安全」著称,它的编译器就像一位极度神经质的考官。人类工程师在写业务逻辑时,往往要花一半的时间和编译器「吵架」,处理借用检查和生命周期问题。AI 不仅要懂业务,还得在几百万行代码的规模下,让这位「考官」挑不出毛病。能在七天内把这些硬骨头啃下来,并且让它们协同工作,这已经不是简单的「写得快」了,这意味机器开始具备了顶级的架构掌控力,尤其是在 Rust 这类系统级编程语言的应用上。
当 AI 能够「忍受孤独」
但这则新闻真正的炸点,其实不在于浏览器本身,而在于那个 「Uninterrupted」。
这是 AI 进化的分水岭。在此之前,我们熟悉的 AI 编程工具的情况是:你写个函数头,它补全五行代码;你发个指令,它生成一个脚本。它们的记忆是碎片化的,注意力是短暂的。一旦任务稍微复杂一点,比如「重构这个模块」,它们往往会顾头不顾尾,改了这头坏了那头,最后还得人来擦屁股。
但这次不一样。这是一次「长时任务」的胜利。
这 300 万行代码分布在数千个文件里。当 AI 写到第 300 万行时,它必须依然「记得」第 1 行代码里定下的架构规矩;当渲染引擎和 JS 虚拟机打架时,它必须能回溯几万行代码去寻找 Bug 的源头。
这 168 个小时里,GPT-5.2 肯定写出过 Bug。但它没有停下来报错等待人类投喂答案,而是自己读取错误日志,自己调试,自己重构,然后继续前行。这种「编写-运行-修复」的自主闭环,曾经是我们人类工程师最引以为傲的护城河。现在,这条护城河被填平了。
我们正在目睹 AI 从「聊天伴侣」向「数字劳工」的质变。以前我们指挥 AI 做「任务」,比如「写个贪吃蛇」;现在我们指挥 AI 做「项目」,比如「造个浏览器」。
沉默的螺旋
虽然这个 AI 版浏览器的成熟度距离 Chrome 还有很长的路要走,但它证明了路径的可行性。
当算力可以转化为极其复杂的工程实施能力时,软件开发的边际成本将趋近于零。
这场实验最令人震撼的,其实不是屏幕上那个渲染出的网页,而是那个在后台沉默运行了整整七天的进度条。它不眠不休,不急不躁,以每秒数千字符的速度构建着数字世界的基石。
也许我们该重新审视「创造」的定义了。
只有当工具开始独自在深夜里解决问题时,我们才明白,它不再只是工具,而是我们的同行者。
从「赛博黑工」到 AI 长时任务
用 5 行代码逼疯硅谷的澳洲放羊大叔,其实只做了一件事情,就是让 AI 不达目标不能停止。

至于 Prompt.md 写了什么命令,并不是重点。就像今天 Cursor 团队搞的这个极限压力测试一样,目标就是造一个浏览器,只要没完成目标,AI 就要一直运行下去。
回到最开始那个问题:一个 AI 究竟能自己干多久?物理上的答案是 无穷。只要你有足够的算力、稳定的基础设施、清晰的任务定义,AI 可以无限运行下去。
但更重要的是,这改变了软件开发的经济学。传统软件开发的主要成本是 人力和时间。一个 10 人团队开发一个复杂项目,可能需要 6 个月到数年。每个月的人力成本可能是几十万到上百万。
现在,AI 可以在 一周内 完成原本需要 数月 的工作。成本可能只是一些 token 费用,Emad Mostaque(Stability AI 前 CEO)猜测 Cursor 浏览器项目可能消耗了约 30 亿个 token。
他还有一个想法:用多少 token 能够重写一套 Windows 级别的操作系统?成本如何?

Token 是越来越便宜的,就像之前的水和电,最终基于 token 的算力也会变得极其廉价。于是,软件经济学就被彻底颠覆。比如,软件按照授权付费的方式恐怕要消失了。
软件开发正在经历一场基因级别的变异。从前,代码是人类一行一行敲出来的产物。未来,代码可能只是人类意图的自动展开:你描述你想要什么,AI 就能把它变成现实。
一个模型能跑多久? 只要你需要,它就能跑下去。 这种持续探索和创造的文化,正是像 云栈社区 这样的技术社区所倡导和珍视的。