找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

355

积分

0

好友

47

主题
发表于 昨天 09:01 | 查看: 4| 回复: 0

GPT-5.2驱动AI生成300万行代码构建浏览器

一个大模型持续编写代码,究竟能坚持多久?是一小时,一天,还是像大部分AI编程工具那样,完成任务便结束对话?

Cursor的CEO Michael Truell发起了一次极限压力测试。他让Cursor内置的GPT-5.2模型不间断地连续运行了整整一周——不是几小时或一天,而是不眠不休的168小时。

结果如何?

超过300万行代码,分布在数千个文件中,AI从零开始构建出了一个功能完整的浏览器。

Michael Truell关于GPT-5.2构建浏览器的推文截图

这个浏览器引擎完全由AI自主编写,包含HTML解析、CSS层叠与布局、文本整形渲染、绘制管道,甚至还有一个自研的JavaScript虚拟机。

Michael Truell在社交媒体上轻描淡写地分享:“它基本能跑!虽然距离WebKit或Chromium的水平还很遥远,但简单的网站已经能够快速且基本正确地渲染出来,这本身就令人惊讶。”

GPT-5.2构建的浏览器渲染Google首页的效果

一次模型耐力的极限测试

传统的AI编程工具,例如GitHub Copilot或早期的IDE插件,大多采用一问一答模式。对话长度、上下文和任务复杂度都受到严格限制。

后来兴起的Agentic编程,如Claude Code、Cursor Agent等,让AI能够自主执行多步任务:读取文件、运行命令、修复错误。这无疑是巨大的进步,但即便如此,大多数任务的时间尺度仍以分钟或小时计。

但从未有人尝试让一个模型持续运行一周。

在这次实验中,GPT-5.2在七天内完成了以下壮举:

  • 编写了超过300万行代码
  • 创建了数千个文件
  • 处理了数万亿个token
  • 从零构建了一个完整的浏览器渲染引擎

这回答了那个根本性问题:一个模型能运行多久?答案是:理论上可以无限期运行。只要基础设施稳定、任务定义明确,AI便能以7×24小时、全年无休的状态持续工作。

当然,不同模型的“耐力”差异显著。早期GPT-3.5仅4K token的上下文窗口是巨大限制,而如今的模型支持数十万乃至百万级token。但真正的考验在于,模型能否在长时间任务中保持一致性、专注度和执行力。

Cursor团队在官方博客中揭示了关键发现:

  • GPT-5.2:能够长时间自主工作,精准遵循指令,专注力强且不易偏离目标。
  • Claude Opus 4.5:倾向于尽早结束任务,走捷径,并频繁将控制权交还给用户。
  • GPT-5.1-Codex:虽然专为编码训练,但长期规划能力不及GPT-5.2,容易中断。

简单来说,Opus像一位急于求成的实习生,而GPT-5.2则像一位经验丰富、能从头到尾负责到底的高级工程师。这也正是Cursor宣称GPT-5.2是处理长期运行任务的领先模型的原因。

这个实验不仅限于浏览器。Cursor还透露了其他正在进行的长期项目,例如Java LSP(55万行代码)、Windows 7模拟器(120万行代码)和Excel克隆(160万行代码)。这些数据直观地展示了AI进行大规模、持续性编码的潜力。

多智能体系统如何协同作战?

一个模型如何在一周内不间断地写出300万行代码?这背后并非单个模型的“单打独斗”,而是多智能体系统的杰作。

最初,团队尝试让所有Agent平等协作,通过共享文件和锁机制来同步状态。但这很快遇到了瓶颈:Agent会长时间持有或忘记释放锁,导致二十个Agent的有效吞吐量骤降至仅相当于两三个,大部分时间都浪费在等待上,系统也变得异常脆弱。

描述多智能体协同挑战的文本截图

最终,有效的解决方案是引入分层架构,这几乎复刻了高效软件公司的组织模式:

  • 规划者:持续探索代码库,创建高优先级任务,进行顶层决策。
  • 执行者:专注于完成具体的编码任务,提交后立即转向下一个,不关心全局。
  • 评审者:判断每次代码迭代是否合格,决定项目是否可以进入下一阶段。

通过这种架构,Cursor团队实现了上百个Agent在同一个代码库上协同工作数周,并大幅减少了代码冲突。这意味着AI正在学习通常需要人类团队多年磨合才能形成的协作默契。

浏览器引擎的“护城河”究竟有多深?

如果说“不就是个显示网页的软件吗”,任何尝试过构建浏览器内核的工程师都会报以苦笑。在计算机科学领域,手写浏览器引擎的复杂度仅次于开发操作系统。

为了让这300万行代码更有体感,可以参考谷歌的Chromium——其代码量已突破3500万行,本质上已是一个“伪装成应用程序的操作系统”。GPT-5.2面临的挑战是全方位的。

首先是CSS的“混沌宇宙”。 网页排版绝非简单的堆积木。CSS标准充满了历史遗留的怪癖、复杂的层叠规则和继承逻辑。改动一个父元素属性,可能导致数千子元素的布局瞬间崩塌。

其次是“虚拟机中的虚拟机”。 AI不仅要处理界面,还需实现一个安全的JavaScript虚拟机。这涉及到内存管理、垃圾回收和安全沙箱,稍有差池就会导致内存泄漏或安全漏洞。

最核心的挑战在于,它选择了Rust语言。 Rust以其严格的所有权系统和借用检查器著称,编译器就像一位“绝不妥协的考官”。AI不仅需要理解复杂的业务逻辑,还必须在数百万行代码的规模下,完美满足Rust编译器对内存安全和并发安全的所有要求。能在七天内啃下这些硬骨头并让它们协同工作,标志着机器开始具备顶级的系统架构掌控能力

当AI学会“忍受孤独”:从任务执行到项目管理

这次实验真正的突破点,在于 “Uninterrupted”(无中断) 这个关键词。这是AI能力演进的一个分水岭。

以往的AI编程工具,记忆是碎片化的,注意力是短暂的。任务稍一复杂,就容易顾此失彼,最终仍需人类介入收尾。

但这次不同。这是一次 “长时任务” 的胜利。当AI编写到第300万行代码时,它必须依然“记得”第1行代码定下的架构规范;当渲染引擎与JS虚拟机出现冲突时,它必须能回溯数万行代码去寻找问题根源。

在这168小时里,GPT-5.2必然遇到过无数Bug。但它没有停下来等待人类投喂解决方案,而是形成了 “编写-运行-调试-修复”自主闭环。这种能力曾是人类工程师的核心护城河之一。

我们正在目睹AI从“对话式助手”向“自主数字劳工”的质变。以前我们给AI下达的是“任务”,例如“写个贪吃蛇游戏”;现在我们可以交付的是“项目”,例如“构建一个浏览器”。

软件经济学的范式转移

尽管这个AI版浏览器距离Chrome的成熟度还很远,但它验证了技术路径的可行性。更深远的影响在于,当算力可以转化为极其复杂的工程实施能力时,软件开发的边际成本将趋近于零

传统软件开发的主要成本是人力与时间。一个十人团队开发复杂项目可能需要数月甚至数年。而现在,AI可以在一周内完成原本需要数月的工作,成本可能只是一笔相对低廉的token费用。

Stability AI前CEO Emad Mostaque推测,这个浏览器项目可能消耗了约30亿token。他甚至提出思考:重写一套Windows级别的操作系统需要多少token?成本几何?

Emad Mostaque关于AI编写操作系统所需token的推文

Token价格正变得越来越便宜,就像曾经的水和电。当基于token的算力变得极其廉价时,传统的软件经济学将被彻底颠覆。软件或许不再以授权许可的方式销售,而是由AI根据用户意图即时生成。

从前,代码是人类一行行敲出的智慧结晶;未来,代码可能只是人类意图的自动展开与实现。

回到最初的问题:一个AI究竟能自己干多久?

物理上的答案是:只要需要,它就能一直运行下去。 这场实验最震撼人心的,或许不是屏幕上成功渲染的网页,而是那个在后台沉默运行了整整七天、不眠不休、不急不躁的进度条。它标志着,在人工智能驱动的前端开发乃至整个软件工程领域,一个全新的时代已然拉开序幕。对于开发者而言,深入理解和掌握这些前沿的AI编程范式,将是保持竞争力的关键。想要了解更多此类深度技术实验与探讨,欢迎关注云栈社区,与更多开发者一同探索未来。


参考资料




上一篇:从技术总监抢功甩锅看团队管理避坑指南
下一篇:自动驾驶“无图”真相:无需高精地图,但离不开实时感知与轻地图
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-18 19:47 , Processed in 0.327821 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表