二十年来,Meta 一直拥有一支独树一帜、执行力顶尖的工程团队,这种状态一直持续到今年四月前后。公司成立的前二十年,内部奉行“快速行动,不惧试错”的企业文化。2020 年代初,企业文化开始向“快速行动,稳固基础”转变。我认识的几位 Meta 工程师都拥有充分自主权,能够踏实做出有价值的成果,并在商业收益与扎实的工程实践之间做出良好的平衡。
但过去几周,一切都变了。管理层仿佛是照着一份详细的蓝图、以一种近乎冷酷、极致高效的方式去摧毁一个经受过验证、成功的工程文化。
过去几周,我一直在分享这家社交媒体公司内部工程师的糟糕处境,这里曾是硅谷最负盛名的工作场所之一。本文将梳理整件事的来龙去脉,并剖析管理层的真实想法:短短数周内,他们把软件工程部门从 2004 年起直至不久前的利润中心变成了如今备受轻视的成本中心。
AI 时代之前的工程文化
我将 Meta 的工程文化划分为两个阶段:“快速行动,不惧试错”时代,以及之后的“快速行动,稳固基础”时代。
“快速行动,不惧试错”
2010 年代,Facebook 不拘一格的工程文化在科技圈一度传为佳话,这家公司摒弃行业常规的最佳实践,却取得了巨大成功。
2012 年,当 Facebook 用户数突破十亿大关时,公司制作了一本讲述企业文化的小册子,发放到每位员工的办公桌上。这本小册子采用复古宣传画风格设计,被戏称为“红宝书”——借用了 1964 年出版的《毛主席语录》。
这本约 70 页的小册子将 Facebook 的工程文化编纂成文:速度、无畏、勇于担当、突破固有思维。

当时,这本“红宝书”中的信条也被张贴在园区各处:
- 完成胜于完美
- 大胆试错,不惧失败
- 若无所畏惧,你会做什么?
- 每一天都像一周那么漫长
- 莱特兄弟当年也没有飞行员执照
- 愚者坐等良机
- 幸运眷顾勇者
当时他们真心在专注打造优质产品。这本小册子中还写了:

“快速行动,稳固基础”
2022 年,我撰写了一篇深度剖析 Meta 工程文化的长文。那时,情况已经发生了变化,过去那种不计后果的鲁莽作风大多已消失不见,取而代之的是“快速迭代,稳固基础”。下面是我当时对 Meta 工程文化的描述:
这种文化极度以工程为中心,远超大多数大型科技企业。这可能源于扎克伯格本人就是工程师出身,也可能是因为 Facebook 早期的许多创新都来自工程师。
看重个人影响力。 影响力一直是 Facebook 关注的核心。这一点从早期就是如此,而且至今对创造影响力的关注依然不变。
与多数大型科技企业存在一处共性:无论是工程文化还是整体企业文化都极度看重员工个人影响力。这导致一些人只关注短期、可量化的成果,并认为团队合作以及跨团队共享的成就可能不太受重视。
缺乏严格的流程。 在所有大型科技公司中,Facebook 的流程或标准化规范制度似乎是最少的。根本不用拿它和亚马逊的工程文化以及亚马逊数不清的流程规范做比较。但即使与谷歌、微软或优步这样的公司相比,Facebook 的流程也要松散得多。这主要源于公司以工程为中心的本质,以及工程师们对流程的反感。
对测试、文档和代码注释的重视程度低得惊人。 与其他大型科技公司相比,你会发现 Facebook 的自动化测试和文档少得令人震惊。行内代码注释也非常罕见。
一家由创始人工程师驱动的公司。 Facebook 是少数几家创始人是工程师且至今仍担任 CEO 的大型科技公司之一。Netflix 是另一个典型案例,其创始人兼联席 CEO Reed Hastings 在创办公司之前也是一名软件工程师。亚马逊此前也是这样,但如今已然不同;谷歌、苹果则不属于此类。Cloudflare 等较小的公司也有类似的特点,但这些公司都比 Facebook 年轻。
新人训练营(Bootcamp)。 一种独特的入职流程,与其他大型科技公司的都不一样。
此外,Facebook 作为一款产品,拥有业内最精密的自动发布系统之一。Instagram 的基础设施经过了实战的检验,因此推出一个新的社交网络(Threads)几乎易如反掌——上线第一周就为 1 亿用户提供服务。
我在公司里认识的工程师们能力出众、干劲十足,且具备产品思维,他们的工作也广受认可。扎克伯格极具影响力:他亲手编写了 Facebook 的初代代码,始终与工程团队保持紧密联系,并且非常重视软件工程师。那里的工程师们感觉自己是在利润中心里工作。
大力投资 AI,并强制要求工程师使用 AI
在苹果、微软、亚马逊、谷歌和 Meta 这五大科技巨头中,Meta 是唯一没有自有硬件平台或操作系统的公司。苹果有 iPhone、iPad 与 Mac 系列,谷歌有安卓系统、ChromeOS 和 Pixel 手机,微软有 Windows 系统,亚马逊有 Kindle。
回过头来看,2010 年代公司没能自研移动端操作系统和手机,如今的扎克伯格似乎下定决心绝不再错过任何一个平台发展机遇。
这也是 Meta 大手笔投资 Oculus 虚拟现实设备和 Meta 智能眼镜增强现实产品的原因之一。2021 年 Facebook 更名为 Meta,当时 VR 和元宇宙看起来可能会成为巨大的风口。公司投入数十亿美元,力求坐稳该领域行业龙头的位置。但虚拟现实技术再次未能成为主流,疫情结束后,市场对这一赛道的关注度大幅降温。
当 2022 年 AI 大势初现之时,扎克伯格没有错过这个机会:他组建了内部的 FAIR 团队(基础 AI 研究团队)和一个 GenAI 产品部门,并发布了一系列开源权重 AI 模型:
- Llama 1:2023 年 2 月发布,在 ChatGPT 发布三个月后,由 FAIR 开发;
- Llama 2:2023 年 6 月发布,由 GenAI 产品部门开发(以及后续所有 Llama 模型);
- Llama 3:2024 年 4 月发布。这是 Meta 最具竞争力的 LLM,在整个行业获得了越来越多的采用;
- Llama 4:2025 年 4 月发布。这个模型令人大失所望。
同年 6 月,Meta 以高达 148 亿美元的价格收购了 Scale AI 49% 的股份,以此重启其 AI 相关的业务,并邀请 Scale AI 的 CEO Alexandr Wang 来接管 Meta 的 AI 战略规划。以 20 亿美元收购中国初创公司 Manus AI 的交易目前因被中方叫停而悬而未决。
从对 Scale AI 以及 Alexandr Wang 的这笔投资不难看出,Meta 乃至扎克伯格本人都决心打造一款足以与 Claude 和 ChatGPT 抗衡的顶尖大语言模型。但 Meta 几乎要从零起步,而实现这一目标的重任落在了 Alexandr Wang 身上。
Scale AI 为 Meta 带来了高度专业化的技术能力,作为行业头部企业,其专长领域包括:
- 训练数据和标注:Scale AI 起家便是为机器学习和人工智能训练提供高质量标注数据集,涵盖代码、文本、图像、视频等各类数据,至今仍是其核心业务。
- RLHF 和微调:Scale AI 运营的一套 RLHF(基于人类反馈的强化学习)流程,人们为基础模型提供反馈,许多领先的 AI 实验室用它来创建更好的 LLM。
Alexandr Wang 拥有极大的自主权,可深耕自己擅长的领域:训练数据、数据标注和 RLHF。Meta 让内部工程师团队配合推进相关工作,同时对团队工作进行监督。
问题一:强制记录键盘敲击与鼠标点击操作,员工无法选择退出。 4 月下旬,Meta 通知全体工程师,公司将启用一套系统记录每一次键盘输入与鼠标点击动作,用于为 Meta 新一代 AI 生成训练数据,且员工没有拒绝参与的权利。
毋庸置疑,这种监控极具侵犯性,还引发了隐私问题:如果工程师登录个人银行账户,这个工具也会跟踪吗?撰写私人邮件、处理私人通话内容呢?Meta 事前未进行任何协商,也未提供规避监控的变通方案,只是自上而下强行推行这项决定。
本月,路透社报道称,员工提出的种种担忧终于得到了管理层的重视:
“Meta 在周二发布的一份内部备忘录中表示,经过数周员工的强烈反对,公司将缩减收集员工鼠标移动、键盘敲击及其他操作行为用作 AI 训练数据的相关计划内容。
这份由 Meta AI 模型研发部门超级智能实验室副总裁 Stephane Kasriel 撰写的备忘录显示,新的监控措施将允许员工每次暂停数据收集长达 30 分钟,并且能申请豁免。”
通过与 Meta 工程师的沟通得知,受数据保护法规限制,这套日志采集系统并未在英国上线。
问题二:核心团队中有 30% 至 50% 的工程师被强制调岗,从事数据标注和 RLHF 相关工作,这让员工的不满情绪进一步加剧。 同样从 4 月下旬开始,产品工程团队收到上级下达的硬性指令,要求抽调 30% 至 50% 的工程师离开原团队,转入智能体数据优化部门(ADO)。
这里的“强制”调岗尤为刺眼,这与 Meta 一贯的工程师文化背道而驰。从 2004 年公司创立直至去年,Meta 一直给予工程师选择任职团队与负责项目的自主权。这也是公司过往运作模式的核心:
- 工程师不是为特定团队招聘的(Staff+ 级别在某些情况下除外),而是为公司招聘的;
- 在为期 6 周的新兵训练营中,新员工会先熟悉 Meta 的工程文化,之后选择加入哪个团队;
- 团队双向匹配:新人与多个尚有编制名额的团队沟通,参与团队小型项目,最终选定匹配的团队;
- 内部转岗很容易,而且通常由工程师主动发起。
通过新兵训练营进行团队匹配在 2024 年左右开始式微,但在 Meta 工作满两年的工程师都知道,以前他们可以选择做什么工作,当然可以选择最有影响力的事情来做。然后,突然之间,他们被分配到一个影响力不明确、工作琐碎、做太久肯定会损害职业前景的部门。
“数据标注”工序繁杂,还有些重复。一类标注任务流程是:搭建网站,查看页面,评判观感优劣并给出反馈——这就是“典型”的数据标注。不过这类任务并不多见,除此之外,还有复杂度更高的 AI 训练相关标注工作,流程大致如下:
- 想出一个 AI 应该完成的任务;
- 然后编写用于验证结果的测试用例;
- 使用 Harbor 框架将所有这些打包成一个 Docker 容器;
- 然后阅读 AI 生成的代码——通常基于多个模型的反馈来做这件事,并给出反馈。
这份工作并不轻松——而且你能理解为什么需要优秀的软件工程师来做!但它很快就会变得枯燥重复。我交流过的大多数工程师都表示,日复一日做这类工作很难保持工作热情。不过,我也和该部门内部的一位工程师聊过,他说自己会变换使用的技术来挑战自己,因此反倒觉得这份工作富有动力、很有意思。这位工程师认为,等当前模型训练阶段结束后,后续会有更多真正的软件开发工作出现。这件事也给了我们一点启示:生活给你酸柠檬,你可以选择抱怨,也可以像这位开发人员一样,把它榨成柠檬水。
这类模型训练工作在整个 AI 行业都属于保密内容,服务商给出的开发人员时薪超过 100 美元。业内有传言称,OpenAI 和 Anthropic 投入在代码训练环境搭建(用于提升模型代码能力)上的成本甚至超过了模型本身的训练算力开销。
基础设施与安全团队受人员调岗冲击尤为严重。我和多位基础设施部门的工程师交流过,他们团队里有 30 至 50% 的人被抽调到 ADO 部门。在某些情况下,流失的还是团队里最顶尖的工程师。
一位工程师跟我说,这感觉就像电影《饥饿游戏》,贡品被随机选中,然后被带走去做完全不同的事情。只不过,在 Meta,有更多的人受到影响,一个 10 人团队中会有三到五个人从为数亿人构建产品变成一遍又一遍地给 AI 生成的 GitHub 代码库标注反馈。所以,影响范围比《饥饿游戏》更广,只是后果没那么严重。
ADO 部门现有约 6500 名员工,规模超过 OpenAI 与 Anthropic。其中大约四五千人都是软件工程师。Meta 整体工程师总数约 25000 名,这意味着每五到六名软件工程师里,就有一人如今要全职从事数据标注工作。
可想而知,人们都在积极寻找新的职位,而且没人会在领英等平台把自己的职位改成 “Meta 数据标注专员”。
我与做过这个岗位的人交谈过,他们不喜欢做这份工作,并对自上而下的决策感到不满。唯一的一点宽慰是,他们保住了工作,薪水维持不变,而且没有被裁员。他们仍有机会离开 Meta,去找一份薪资水平相近、且不用做数据标注的工作。
核心工程师感觉被当作垃圾对待
问题三:长达一月的煎熬等待,全公司人心惶惶。 4 月 20 日路透社消息称,Meta 计划在一个月内裁掉 10% 的员工,Meta 方面随后证实了该消息。这意味着整整四周里,全体员工都清楚自己随时可能会失业。
员工被强制调岗至数据标注岗位的情况开始出现。我当时的报道如下:
“可以理解,对于这次(调往数据标注岗位的)重新部署,人们心情复杂,因为裁员即将到来。5 月 20 日星期三,Meta 将宣布裁员。也许那些被调去做数据标注的人实际上可能比产品团队的同事‘更安全’。当然,这只是猜测,但如果 Meta 最后还是裁掉被调去做数据标注的开发人员,未免太过不近人情。”
问题四:Meta 的绩效考核标准极为严苛,导致开发人员一味追逐各项考核指标。 据我了解,Meta 内部的绩效评估流程 PSC(绩效总结周期)相比谷歌、苹果要苛刻得多。Meta 内部的管理层会为手下员工的薪酬评级相互博弈,包括压低其他团队工程师的考评分数,以此抬高自己直属下属的排名。在这套考核体系里,拿各类指标当作博弈工具已是常态——无论是业务贡献、代码评审数量、代码编写行数等指标皆是如此,这些早在 AI 技术普及前就已存在。
管理层会收到配额,要求各绩效档位必须分配多少员工名额,管理层之间的内部博弈愈演愈烈,因为他们都试图让自己的下属进入更高的档位。
在 Meta 工作几年后,工程师们都会明白,避免获得差评的最佳方式是让所有指标——影响力、提交的代码和其他数字——都高于其他同事。
问题五:将词元使用量纳入绩效考核指标,开发人员因此疯狂内卷,刻意去拉高这个数据。 裁员消息实锤后,工程师们又得知管理层会在绩效评审中检查词元使用量,这让大家忧心忡忡:词元数据偏低的员工很可能被判定为绩效不达标,进而被解雇。
那么,身为 Meta 的工程师,大家对此的本能反应是什么?他们开始使用 AI 工具,纯粹为了使用更多的词元。公司内部还有一个词元消耗排行榜,鼓励员工一味冲高词元使用量。我在 4 月 16 日的报道中这样写道:
“据 The Information 杂志报道,Meta 员工三十天内总计消耗了 60.2 万亿个词元(数字惊人!)。若按照 Anthropic 的 API 收费标准计费,这笔开销将高达 9 亿美元。当然,Meta 购买词元大概率享有折扣,但成本仍可能超过 1 亿美元——其中很大一部分都源于毫无意义的‘刻意刷高词元指标’行为。”
最大的问题在于:员工不再关注实实在在的业务工作,而是专注于流于形式的 “表演式工作”。我们来看看 Meta 管理层推行到公司内部的核心问题诱因:
- 在法律允许的情况下,追踪所有工程师的键盘和鼠标点击动作;
- 将大量工程师重新分配到数据标注岗位;
- 让员工知道 10% 的人将被裁;
- 形成一种风气:开发人员会拼命拔高绩效总结周期(PSC)统计的每一项考核指标;
- 将词元使用量作为 PSC 的一部分。
把这些因素叠加在一起,最终会催生两种恶果:
- 所有人都通过过度使用 AI 来抬高个人考核数据。整个研发团队都在装模作样,可能多地使用 AI,尽可能少地进行人工输入。这套激励机制十分扭曲:因代码审核疏漏引发系统故障并不会成为裁员理由,但如果不用 AI 智能体生成代码,而是手动编写代码,反倒有可能丢掉工作。
- 资深老工程师都在另寻出路,或者至少正在考虑跳槽。那些在 Meta 任职多年的员工早已看透这套乱象。我用一个形象的比喻来说明:

新数据似乎证实,从 5 月开始,更多 Meta 的工程师正在另寻“出路”。以下是过去一年半时间里,来自 Meta 的工程师注册 interviewing.io 的变化情况:可以看到,与去年同期相比,5 月份出现了大幅增长,这是该平台创始人兼 CEO Aliner Lerner 与我们分享的:

客观来说,Meta 为留存团队里多名核心工程师发放了丰厚的留任股权包。他们很难在其他公司拿到与之对等的薪资待遇。即便如此,我与一名拿到股权增补的工程师聊过,他说这项福利反倒促使他下定决心尽快离职 —— 他对工作缺乏自主权、无法自主把控的现状深感痛苦。
史上最尴尬的宕机事件
Meta 的核心基础设施与安全团队突然陷入严重人手短缺的困境。绝大多数员工直接提交由 AI 生成的代码,且仅通过 AI 完成代码评审,对代码质量疏于把控。究其根源,一方面他们时刻面临失业风险,另一方面还要在一个最优秀的工程师被裁掉一半的团队里疲于奔命,而且他们知道 AI 可能会威胁自己岗位的稳定性。
5 月 30 日,Meta 发生了史上最尴尬的宕机事件。以下是软件工程师 Siddharth Sundharam 的总结:
“昨日,一大批 Instagram 账号疑似遭到入侵,其中还包含奥巴马白宫官方账号这类知名大号。
说实话,我不是什么新手。我在独角兽规模的公司里花了将近十五年的时间排查各类安全漏洞与攻击利用程序,但这次绝对是我见过的最离谱、简直蠢到让人难以置信的一次。
流程是这样的:
第一步:伪造位置并发起客服申诉。 攻击者只需要拿到你的账号用户名,就能开启整个攻击流程。他们连接你所在城市附近的 VPN 或代理,让 Instagram 的安全检测算法不起疑心。(用户名很容易通过公开主页、个人简介栏或上百种其他渠道获取。)当系统判定申诉请求来自正常地区后,攻击者就向 Meta 客服人工智能谎称账号被盗,要求将验证码发送至由他们控制的邮箱。
第二步:没了。真的,就这样。
这是我在生产环境中见过的第一个真正的零认证密码重置。似乎没有任何额外检查来确认所提供的邮箱是否是用户之前使用过的邮箱。一旦 AI 将安全验证码发送到攻击者的邮箱,攻击者就可以直接提交验证码完成验证。平台随后会生成一个新的密码重置链接,将账号的完整所有权授予攻击者。”
这是一起安全漏洞事件,Meta 将其超安全、加固的前门敞开着,任何人都可以进来,而且发生时没有任何警报通知任何人!Meta 似乎是在用户开始在社交媒体上抱怨反馈时才注意到这件事!
通过与 Meta 内部人士交谈,我了解到 AI 是这次宕机事件的核心诱因。AI 生成代码、AI 审查代码,加上安全团队被大幅削减,共同导致了这起令人极度尴尬的事件。我四处打听了一下,以下是我了解到的情况:
- Instagram 信任与安全团队因数据标注人员抽调和裁员流失了约一半员工。多名资深骨干都被抽调去负责 AI 训练相关工作。
- 在过去两个月里,AI 生成的变更且未经人工输入、仅经过另一轮 AI 代码审查的情况在整个代码库中非常普遍。导致这次宕机的变更看起来就是其中之一。
- 通常情况下,信任与安全团队会密切监控和预警安全漏洞,但由于内部快速重组,该团队目前完全处于混乱状态。
Meta 的首席安全官在第二天就辞职了。宕机事件于 6 月 1 日(周一)得到解决,并作为 SEV 流程的一部分启动了调查。周二,Meta 首席信息安全官 Guy Rosen 宣布离职。
这是巧合吗?我怀疑不是:如果这位首席信息安全官曾警告不要大幅削减安全部门但被无视,他们可能因此不再信任领导层而选择辞职。而且我猜想,把 Instagram 半数安全团队人员调去做数据标注绝非他的主意。
内部混乱
《连线》杂志进一步披露了 Meta 内部当下的处境有多糟糕:
据《连线》拿到的一段录音,本周早些时候,有人在一场仅限员工观看的直播中爆粗口,称自己 “成了公司的奴才”,并打断了一场面向数千名员工的内部演示。此人还要求会议主持人给 Meta 的一位 AI 部门的高管发消息,“告诉他他就是个垃圾”。
这一事件反映出 Meta 应用 AI 团队内部日益加剧的不满情绪。该团队于 3 月成立,旨在为 Meta 超级智能实验室的 AI 研究人员提供支持。三名在职员工向《连线》透露,他们对 Meta 组建这个约 6500 名工程师和产品经理的部门的方式以及他们被调配去做改进 AI 模型的枯燥苦差事普遍感到不满。
一名员工称:“这里简直就是劳改营。你会瞬间感觉人生毫无意义,几乎不和任何人交流,每周只剩下一堆机械的任务。”
还有更多内情:据报道,Meta 首席产品官 Chris Cox 向员工坦言,这场乱象是 Meta 高层(级别高于他的高管,也就是公司首席管理层)一手造成的。以下同样来自《连线》的报道:
据《连线》获取的录音,本周一场面向 Instagram 全体员工的会议上,Meta 首席产品官 Chris Cox 谈及过去数月里“公司一系列荒唐操作”造成的压抑、残酷工作环境。Cox 称赞 Instagram 员工顶住压力推出了新功能、服务近 20 亿用户,他将当下的工作处境比作“顶着冰雹跑马拉松,中途队友还被换掉,一举一动还要被记录监控。”
他忍不住吐槽:“简直离谱到家了。” 此话引得众人发笑,随后他又重复了一遍:“真的离谱到让人无语。”
咎由自取
那么,首席产品官 Chris Cox 口中这家公司的“疯狂行径”根源究竟在哪里?我交谈过的工程师们将矛头指向两个人:扎克伯格和 Alexandr Wang。扎克伯格全权掌控公司业务,正是他做出一系列决策:抽调大批工程师转做数据标注、推出监控软件,以及在 Meta 营收和利润创下历史新高之际裁掉 10% 的员工。作为首席执行官,所有责任最终都应由他承担。
但有一点无法忽视:除裁员之外,Meta 当下所做的一切都照搬了 Scale AI 的剧本,而这无疑是来自 Alexandr Wang:
- 强制采集键盘与鼠标操作记录,用以生成训练数据。
- 为了生成高质量的 RLHF 数据,强制调配 4500 多名工程师去做数据标注工作,此举无疑是为了 Meta 尚在研发中的代码大语言模型。
- 将最优秀的工程师从核心业务中抽走,这一定是得到了扎克伯格的批准,他认为对 Meta 来说,训练一个编程 AI 模型比让 Instagram、Facebook 或 Messenger 等核心业务可靠运行更重要。对了,我忘了说,6 月 12 日,Facebook 和 Instagram 又发生了一次 SEV0 级别的事故——也就是全面宕机。
在这一系列变故发生之前,Meta 原本有望在今年年底超越谷歌,成为全球第一大广告业务平台。但不知出于何种缘由,扎克伯格却认定研发代码大语言模型更为重要。
Meta 管理层如今正试图弥补自己造成的一系列负面影响。《连线》杂志报道称,Meta 首席技术官 Andrew Bosworth 向员工承认,这次 AI 重组糟透了,并承诺未来会加强沟通。
在我看来,扎克伯格显然不在乎工程师们对这场巨变作何感受,而 Bosworth 很可能对混乱视而不见。工程师们心里也都清楚,下一个 AI 模型对业务来说比他们更重要。Bosworth 还说,员工将可以使用 AI 辅助工具。眼下这种局面,这番说辞实在谈不上贴心。
根据我了解到的全部情况来看,Meta 的工程文化已然荡然无存,管理层的种种做法清晰表明,在这家公司里,工程部门只是一个成本中心。

不用说,我希望我的判断大错特错,但我至今没有看到扎克伯格和 Alexandr Wang ——这两位正在制造当前混乱的高管——有任何迹象表明我错了。也许还有一段短暂的时间窗口,如果像数据标注任务和员工监控这样的重大改变被撤销,Meta 的情况可能会恢复正常。当前的状况持续越久,选择离开的资深工程师会越多。
看到 Meta 的技术创始人如此沉迷于 AI,以至于忽视了那些撑起公司核心根基的工程师,实在令人唏嘘。但 Meta 的这种情况只是个例吗?
Ghostty 开发者、HashiCorp 创始人 Mitchell Hashimoto 表示,他观察到其他企业创始人身上也出现了类似的倾向:
“我十分确信,目前有许多公司正深陷严重的‘AI 狂热’之中,你根本没法和他们进行理性的探讨。我不能点出具体是谁,其中不乏我十分敬重的私交好友,但我很担忧这最终会演变成什么局面。”
当年行业向云平台、云自动化转型时,我亲历过一场围绕 MTBF(平均故障间隔时间)与 MTTR(平均恢复时间)的激烈论战。如今那些争论又卷土重来,只不过这次波及的是整个软件开发行业(也许会是整个世界)。
这很可怕,因为‘狂热者’几乎完全秉持一种‘只要有 MTTR 就够了’的心态:‘发布有缺陷的代码没关系,因为智能体修复它们的速度和规模是人类无法做到的!’当年做基础设施运维时我们就明白,MTTR 固然重要,但你不能因此完全抛弃系统的韧性。
主要问题在于,我甚至不知道该如何向那些我私下认识的人提起这件事,因为一旦提起这个话题,就会立刻遭到诸如‘不会的,它有完整的测试覆盖’或‘缺陷数量正在减少’之类的反驳说辞,而这些说法并不能反映全貌。
我们在基础设施领域已经吸取过一次教训:一味自动化到头来只会造出一个容错能力极强却极易酿成重大故障的系统。系统在局部指标上看起来很健康,但从全局看,系统变得错综复杂、难以把控。缺陷报告数量可能会减少,但潜在风险却在激增。测试覆盖率可能会上升,但语义理解却在下降。变化发生得如此之快,以至于没人注意到底层架构正在不断腐化。
我很担心。"
Instagram 的那次宕机事故正是如此:工程团队放宽了由 AI 生成、AI 审核代码的质量门槛,大概是寄望于即便出故障也能快速修复。他们确实最后恢复了服务,但一切损失已然造成——大量知名 Instagram 账号遭劫持,系统遭到入侵,一切都在众目睽睽之下发生。
Mitchell 特别指出了创始人们高估 AI 能力的问题,并因此抛弃了向生产环境发布代码时应有的合理防护措施。
要点总结
我们大多数人或许都能从 Meta 因过度聚焦 AI 而忽视公司命脉——员工——所引发的灾难性事件中吸取教训。有个好消息是,我听说英国分部原定 10% 的裁员计划突然被取消了:在法定协商期结束时,一些基础设施和安全团队得知,原本预计被裁撤的工程师都不会被解雇了。
Meta 的业务蒸蒸日上,而且已经通过 AI 带来的广告收入增长获益。然而,我的 Facebook 信息流里却充斥着由 AI 生成的视频,视频下方有成百上千条来自机器人账号和普通用户的评论,这些用户似乎根本看不出内容是 AI 生成的。对 Meta 而言,这一切仿佛只是更多可供投放广告的素材罢了。
然而,尽管业务蓬勃发展,Meta 的管理层却发起了一场运动,对工程团队造成了重创。显然,他们现在才意识到,其中大部分举措都是毫无意义的。
如果你身居管理岗位,正打算围绕 AI 大刀阔斧地调整组织架构,那么请先冷静想一想 Meta 如今落得的下场。另外,如果你所在公司的管理层过度倾斜资源押注 AI,不妨把这篇文章转给他们作为参考。
如果你正在招聘那些对 AI 极其精通、动手能力极强的顶尖工程师,那么现在是从 Meta 挖人的最佳时机。我认识的在 Meta 工作的每一位工程师都是 AI 的极早期采用者,而且都懂得构建产品和 AI 基础设施。这些人对公司及管理层已经心灰意冷。Meta 的人才流失将成为其他初创公司和科技巨头们的收获。这大概是 AI 带来的一个略显意外的好处——至少 Meta 自己没想到!
Meta 的那句老口号“快速行动,不惧试错”,如今反倒作用在了工程团队身上。公司急于加码投入 AI,唯恐错过科技行业当下这一超级风口。
查看英文原文:
https://newsletter.pragmaticengineer.com/p/why-is-meta-destroying-its-engineering