云栈社区»论坛 › 开发者广场「Dev Plaza」 › GPT-5.2极限挑战：7天生成300万行Rust代码，从零构建浏览器引擎 ...

发回帖发新帖

1810 积分	0 好友	240 主题

发消息

GPT-5.2极限挑战：7天生成300万行Rust代码，从零构建浏览器引擎

发表于 2026-1-17 09:01:45 | 查看: 66| 回复: 0

GPT-5.2驱动AI生成300万行代码构建浏览器

一个大模型持续编写代码，究竟能坚持多久？是一小时，一天，还是像大部分AI编程工具那样，完成任务便结束对话？

Cursor的CEO Michael Truell发起了一次极限压力测试。他让Cursor内置的GPT-5.2模型不间断地连续运行了整整一周——不是几小时或一天，而是不眠不休的168小时。

结果如何？

超过300万行代码，分布在数千个文件中，AI从零开始构建出了一个功能完整的浏览器。

Michael Truell关于GPT-5.2构建浏览器的推文截图

这个浏览器引擎完全由AI自主编写，包含HTML解析、CSS层叠与布局、文本整形渲染、绘制管道，甚至还有一个自研的JavaScript虚拟机。

Michael Truell在社交媒体上轻描淡写地分享：“它基本能跑！虽然距离WebKit或Chromium的水平还很遥远，但简单的网站已经能够快速且基本正确地渲染出来，这本身就令人惊讶。”

GPT-5.2构建的浏览器渲染Google首页的效果

一次模型耐力的极限测试

传统的AI编程工具，例如GitHub Copilot或早期的IDE插件，大多采用一问一答模式。对话长度、上下文和任务复杂度都受到严格限制。

后来兴起的Agentic编程，如Claude Code、Cursor Agent等，让AI能够自主执行多步任务：读取文件、运行命令、修复错误。这无疑是巨大的进步，但即便如此，大多数任务的时间尺度仍以分钟或小时计。

但从未有人尝试让一个模型持续运行一周。

在这次实验中，GPT-5.2在七天内完成了以下壮举：

编写了超过300万行代码。
创建了数千个文件。
处理了数万亿个token。
从零构建了一个完整的浏览器渲染引擎。

这回答了那个根本性问题：一个模型能运行多久？答案是：理论上可以无限期运行。只要基础设施稳定、任务定义明确，AI便能以7×24小时、全年无休的状态持续工作。

当然，不同模型的“耐力”差异显著。早期GPT-3.5仅4K token的上下文窗口是巨大限制，而如今的模型支持数十万乃至百万级token。但真正的考验在于，模型能否在长时间任务中保持一致性、专注度和执行力。

Cursor团队在官方博客中揭示了关键发现：

GPT-5.2：能够长时间自主工作，精准遵循指令，专注力强且不易偏离目标。
Claude Opus 4.5：倾向于尽早结束任务，走捷径，并频繁将控制权交还给用户。
GPT-5.1-Codex：虽然专为编码训练，但长期规划能力不及GPT-5.2，容易中断。

简单来说，Opus像一位急于求成的实习生，而GPT-5.2则像一位经验丰富、能从头到尾负责到底的高级工程师。这也正是Cursor宣称GPT-5.2是处理长期运行任务的领先模型的原因。

这个实验不仅限于浏览器。Cursor还透露了其他正在进行的长期项目，例如Java LSP（55万行代码）、Windows 7模拟器（120万行代码）和Excel克隆（160万行代码）。这些数据直观地展示了AI进行大规模、持续性编码的潜力。

多智能体系统如何协同作战？

一个模型如何在一周内不间断地写出300万行代码？这背后并非单个模型的“单打独斗”，而是多智能体系统的杰作。

最初，团队尝试让所有Agent平等协作，通过共享文件和锁机制来同步状态。但这很快遇到了瓶颈：Agent会长时间持有或忘记释放锁，导致二十个Agent的有效吞吐量骤降至仅相当于两三个，大部分时间都浪费在等待上，系统也变得异常脆弱。

描述多智能体协同挑战的文本截图

最终，有效的解决方案是引入分层架构，这几乎复刻了高效软件公司的组织模式：

规划者：持续探索代码库，创建高优先级任务，进行顶层决策。
执行者：专注于完成具体的编码任务，提交后立即转向下一个，不关心全局。
评审者：判断每次代码迭代是否合格，决定项目是否可以进入下一阶段。

通过这种架构，Cursor团队实现了上百个Agent在同一个代码库上协同工作数周，并大幅减少了代码冲突。这意味着AI正在学习通常需要人类团队多年磨合才能形成的协作默契。

浏览器引擎的“护城河”究竟有多深？

如果说“不就是个显示网页的软件吗”，任何尝试过构建浏览器内核的工程师都会报以苦笑。在计算机科学领域，手写浏览器引擎的复杂度仅次于开发操作系统。

为了让这300万行代码更有体感，可以参考谷歌的Chromium——其代码量已突破3500万行，本质上已是一个“伪装成应用程序的操作系统”。GPT-5.2面临的挑战是全方位的。

首先是CSS的“混沌宇宙”。 网页排版绝非简单的堆积木。CSS标准充满了历史遗留的怪癖、复杂的层叠规则和继承逻辑。改动一个父元素属性，可能导致数千子元素的布局瞬间崩塌。

其次是“虚拟机中的虚拟机”。 AI不仅要处理界面，还需实现一个安全的JavaScript虚拟机。这涉及到内存管理、垃圾回收和安全沙箱，稍有差池就会导致内存泄漏或安全漏洞。

最核心的挑战在于，它选择了Rust语言。 Rust以其严格的所有权系统和借用检查器著称，编译器就像一位“绝不妥协的考官”。AI不仅需要理解复杂的业务逻辑，还必须在数百万行代码的规模下，完美满足Rust编译器对内存安全和并发安全的所有要求。能在七天内啃下这些硬骨头并让它们协同工作，标志着机器开始具备顶级的系统架构掌控能力。

当AI学会“忍受孤独”：从任务执行到项目管理

这次实验真正的突破点，在于 “Uninterrupted”（无中断） 这个关键词。这是AI能力演进的一个分水岭。

以往的AI编程工具，记忆是碎片化的，注意力是短暂的。任务稍一复杂，就容易顾此失彼，最终仍需人类介入收尾。

但这次不同。这是一次 “长时任务” 的胜利。当AI编写到第300万行代码时，它必须依然“记得”第1行代码定下的架构规范；当渲染引擎与JS虚拟机出现冲突时，它必须能回溯数万行代码去寻找问题根源。

在这168小时里，GPT-5.2必然遇到过无数Bug。但它没有停下来等待人类投喂解决方案，而是形成了 “编写-运行-调试-修复” 的自主闭环。这种能力曾是人类工程师的核心护城河之一。

我们正在目睹AI从“对话式助手”向“自主数字劳工”的质变。以前我们给AI下达的是“任务”，例如“写个贪吃蛇游戏”；现在我们可以交付的是“项目”，例如“构建一个浏览器”。

软件经济学的范式转移

尽管这个AI版浏览器距离Chrome的成熟度还很远，但它验证了技术路径的可行性。更深远的影响在于，当算力可以转化为极其复杂的工程实施能力时，软件开发的边际成本将趋近于零。

传统软件开发的主要成本是人力与时间。一个十人团队开发复杂项目可能需要数月甚至数年。而现在，AI可以在一周内完成原本需要数月的工作，成本可能只是一笔相对低廉的token费用。

Stability AI前CEO Emad Mostaque推测，这个浏览器项目可能消耗了约30亿token。他甚至提出思考：重写一套Windows级别的操作系统需要多少token？成本几何？

Emad Mostaque关于AI编写操作系统所需token的推文

Token价格正变得越来越便宜，就像曾经的水和电。当基于token的算力变得极其廉价时，传统的软件经济学将被彻底颠覆。软件或许不再以授权许可的方式销售，而是由AI根据用户意图即时生成。

从前，代码是人类一行行敲出的智慧结晶；未来，代码可能只是人类意图的自动展开与实现。

回到最初的问题：一个AI究竟能自己干多久？

物理上的答案是：只要需要，它就能一直运行下去。 这场实验最震撼人心的，或许不是屏幕上成功渲染的网页，而是那个在后台沉默运行了整整七天、不眠不休、不急不躁的进度条。它标志着，在人工智能驱动的前端开发乃至整个软件工程领域，一个全新的时代已然拉开序幕。对于开发者而言，深入理解和掌握这些前沿的AI编程范式，将是保持竞争力的关键。想要了解更多此类深度技术实验与探讨，欢迎关注云栈社区，与更多开发者一同探索未来。

参考资料

上一篇：从技术总监抢功甩锅看团队管理避坑指南
下一篇：自动驾驶“无图”真相：无需高精地图，但离不开实时感知与轻地图

GPT-5．2, AI编程, Rust, 浏览器引擎, 自主智能体