云栈社区»论坛 › 开发者广场「Dev Plaza」 › GPT-5.2 7天自主编码300万行，从零构建Rust渲染引擎的浏览器内核 ...

发回帖发新帖

3533 积分	0 好友	462 主题

发消息

GPT-5.2 7天自主编码300万行，从零构建Rust渲染引擎的浏览器内核

发表于 2026-1-16 01:58:06 | 查看: 92| 回复: 0

Michael Truell 让 Cursor 中的 GPT-5.2 连续运行了整整一周。

不是一小时，不是一天，而是不眠不休，昼夜不停，168小时持续写代码。

结果？

300万行代码。数千个文件。

AI完全从零构建出一个全新浏览器。

GPT-5.2构建浏览器推文

而且，还是一个具有 Chrome 级复杂度的浏览器。

HTML解析、CSS布局、文本渲染、还有一个自研的 JavaScript 虚拟机——全是 AI 自己写的。

Michael Truell 轻描淡写地发了条推文：它基本能跑！简单的网页能快速且正确地渲染出来。

AI浏览器渲染Google主页效果

一个模型究竟能跑多久

传统的 AI 编程工具，比如 Github Copilot，多是一问一答模式。对话长度、上下文和任务复杂度都有限制。

后来出现了所谓的 Agentic 编程——Claude Code、Cursor Agent、Windsurf 等工具让 AI 可以自主执行多步任务，读取文件、运行命令、修复错误。

这已经是很大的进步，但大多数情况下，任务仍然以分钟计算，最多几小时。AI 完成一个功能，人类 review，然后继续下一个任务。

但没有人尝试过让一个模型连续跑一周。 直到 GPT-5.2。

Cursor 团队让 GPT-5.2 持续运行了 整整一周，不是断断续续，而是 连续工作。

GPT-5.2连续运行一周推文

在这一周里，它：

写下了 超过300万行代码
创建了 数千个文件
执行了 数万亿个 token
从零构建了一个完整的浏览器渲染引擎

一个模型究竟能运行多久？答案是：理论上，可以无限。只要基础设施稳定，只要任务足够明确，AI 就能持续工作——不眠不休，7×24小时全年无休。

但实际上，不同模型的「耐力」差异巨大。

上下文窗口是第一道门槛。 早期的 GPT-3.5 只有 4K token 上下文，意味着对话稍长就会失忆。Claude 3 推出了 200K 上下文，GPT-4 Turbo 跟进 128K，Gemini 1.5 Pro 更是号称支持 100 万 token。

但上下文长度只是理论值——真正考验的是模型在长任务中能否保持 一致性、专注度和执行力。Cursor 团队在实验中发现了关键差异。

扩展长时间运行自主编码能力幻灯片

Cursor 官方博客中详细阐述了他们的发现：

GPT-5.2 能长时间自主工作，遵循指令精准，保持专注不偏离；
Claude Opus 4.5 倾向尽早结束，走捷径，频繁把控制权交还给用户；
GPT-5.1-Codex 虽专为编码训练，但规划能力不如 GPT-5.2，容易中断。

用更直白的话说：Opus 像个急躁的实习生，干一会就想问「这样行不行？我先交了哈」；

Claude Code执行界面示例

而 GPT-5.2 像个老练的高级工程师，交代清楚任务就埋头干到底。这也是为什么 Cursor 官方宣称：GPT-5.2 是处理长期运行任务的前沿模型。

不止浏览器。Cursor 还透露了其他正在运行的实验项目：Java LSP、Windows 7 模拟器和 Excel 克隆。

数据都很夸张，AI 自己不停地写了 55 万行代码、120 万行代码和 160 万行代码。

其他长期运行Agent项目示例

多智能体系统协作

一个模型在一周内写 300 万行代码，注意是不停的写，没有人类干预！这显然不是一个模型「单打独斗」，怎么做到的？

Cursor 团队透露了他们的秘密武器：多智能体系统。

多智能体协同的未来

最初，他们尝试让所有 Agent 平等协作，通过共享文件来同步状态。结果发现：Agent 会持有锁太久，或者干脆忘记释放锁。二十个 Agent 的速度下降到相当于两三个 Agent 的有效吞吐量。

最初的多Agent协同方案及问题

这像极了人类团队中常见的问题：会议太多、沟通成本高、责任边界不清。

最终有效的方案是 分层架构：

规划者：持续探索代码库，创建任务，进行高层决策
执行者：专注于完成具体任务，不关心全局，提交后继续下一个
评审者：判断每轮迭代是否合格，决定是否进入下一阶段

这几乎是人类软件公司的组织架构：产品经理/架构师负责规划，程序员负责执行，QA 负责评审。但区别在于——这是成百上千个 Agent 同时工作。

Cursor 团队实现了上百个 Agent 可以在同一个代码库上协同工作数周，几乎没有代码冲突。这意味着 AI 已经学会了人类团队需要多年才能磨合出的协作默契，这无疑是 人工智能 领域协作能力的一大突破。

浏览器的「护城河」比你想象的要深得多

如果听到「不就是个显示网页的软件吗」这种评价，所有做过浏览器内核的工程师大概都会苦笑。在计算机科学的鄙视链里，手写浏览器内核的难度，仅次于手写一个操作系统。

为了让你对这 300 万行代码有个概念，我们需要看一眼谷歌的 Chromium（Chrome 的开源母体）。作为人类软件工程的巅峰之一，Chromium 的代码量早已突破 3500 万行。它不仅仅是一个软件，本质上已经是一个「伪装成应用程序的操作系统」。

GPT-5.2 挑战的究竟是什么？

首先是 CSS 的「混沌理论」。 网页排版从来不是简单的堆积木。CSS 标准里充满了各种历史遗留的怪癖、层叠规则和复杂的继承逻辑。一位前火狐浏览器工程师曾打过比方：实现一个完美的 CSS 引擎，就像是在模拟一个物理法则随心所欲变化的宇宙。你改动一个父元素的属性，可能导致几千个子元素的布局瞬间崩塌。

其次是「虚拟机里的虚拟机」。 这次 AI 不仅写了界面，还写了一个 JS 虚拟机。现代网页跑的 JavaScript 代码需要内存管理、垃圾回收和安全沙箱。稍微处理不好，网页就会吃光你的内存，或者直接让黑客穿透浏览器接管电脑。

最要命的是，它选了 Rust。 Rust 这门语言以「绝不妥协的安全」著称，它的编译器就像一位极度神经质的考官。人类工程师在写业务逻辑时，往往要花一半的时间和编译器「吵架」，处理借用检查和生命周期问题。AI 不仅要懂业务，还得在几百万行代码的规模下，让这位「考官」挑不出毛病。能在七天内把这些硬骨头啃下来，并且让它们协同工作，这已经不是简单的「写得快」了，这意味机器开始具备了顶级的架构掌控力，尤其是在 Rust 这类系统级编程语言的应用上。

当 AI 能够「忍受孤独」

但这则新闻真正的炸点，其实不在于浏览器本身，而在于那个 「Uninterrupted」。

这是 AI 进化的分水岭。在此之前，我们熟悉的 AI 编程工具的情况是：你写个函数头，它补全五行代码；你发个指令，它生成一个脚本。它们的记忆是碎片化的，注意力是短暂的。一旦任务稍微复杂一点，比如「重构这个模块」，它们往往会顾头不顾尾，改了这头坏了那头，最后还得人来擦屁股。

但这次不一样。这是一次「长时任务」的胜利。

这 300 万行代码分布在数千个文件里。当 AI 写到第 300 万行时，它必须依然「记得」第 1 行代码里定下的架构规矩；当渲染引擎和 JS 虚拟机打架时，它必须能回溯几万行代码去寻找 Bug 的源头。

这 168 个小时里，GPT-5.2 肯定写出过 Bug。但它没有停下来报错等待人类投喂答案，而是自己读取错误日志，自己调试，自己重构，然后继续前行。这种「编写-运行-修复」的自主闭环，曾经是我们人类工程师最引以为傲的护城河。现在，这条护城河被填平了。

我们正在目睹 AI 从「聊天伴侣」向「数字劳工」的质变。以前我们指挥 AI 做「任务」，比如「写个贪吃蛇」；现在我们指挥 AI 做「项目」，比如「造个浏览器」。

沉默的螺旋

虽然这个 AI 版浏览器的成熟度距离 Chrome 还有很长的路要走，但它证明了路径的可行性。

当算力可以转化为极其复杂的工程实施能力时，软件开发的边际成本将趋近于零。

这场实验最令人震撼的，其实不是屏幕上那个渲染出的网页，而是那个在后台沉默运行了整整七天的进度条。它不眠不休，不急不躁，以每秒数千字符的速度构建着数字世界的基石。

也许我们该重新审视「创造」的定义了。

只有当工具开始独自在深夜里解决问题时，我们才明白，它不再只是工具，而是我们的同行者。

从「赛博黑工」到 AI 长时任务

用 5 行代码逼疯硅谷的澳洲放羊大叔，其实只做了一件事情，就是让 AI 不达目标不能停止。

无限循环执行Agent的终端命令

至于 Prompt.md 写了什么命令，并不是重点。就像今天 Cursor 团队搞的这个极限压力测试一样，目标就是造一个浏览器，只要没完成目标，AI 就要一直运行下去。

回到最开始那个问题：一个 AI 究竟能自己干多久？物理上的答案是无穷。只要你有足够的算力、稳定的基础设施、清晰的任务定义，AI 可以无限运行下去。

但更重要的是，这改变了软件开发的经济学。传统软件开发的主要成本是 人力和时间。一个 10 人团队开发一个复杂项目，可能需要 6 个月到数年。每个月的人力成本可能是几十万到上百万。

现在，AI 可以在 一周内 完成原本需要数月的工作。成本可能只是一些 token 费用，Emad Mostaque（Stability AI 前 CEO）猜测 Cursor 浏览器项目可能消耗了约 30 亿个 token。

他还有一个想法：用多少 token 能够重写一套 Windows 级别的操作系统？成本如何？

讨论用AI重写操作系统的推文

Token 是越来越便宜的，就像之前的水和电，最终基于 token 的算力也会变得极其廉价。于是，软件经济学就被彻底颠覆。比如，软件按照授权付费的方式恐怕要消失了。

软件开发正在经历一场基因级别的变异。从前，代码是人类一行一行敲出来的产物。未来，代码可能只是人类意图的自动展开：你描述你想要什么，AI 就能把它变成现实。

一个模型能跑多久？ 只要你需要，它就能跑下去。 这种持续探索和创造的文化，正是像 云栈社区 这样的技术社区所倡导和珍视的。

上一篇：Qt/C++开发必读：QTableView与QTableWidget通用初始化封装详解
下一篇：嵌入式RTOS选型指南：深入对比FreeRTOS与embOS的核心差异

GPT-5．2, Rust, 多智能体, 浏览器开发, 人工智能编程