5409 积分	0 好友	712 主题

发消息

亚马逊系统故障频发，内部复盘AI辅助代码与工程流程问题

发表于 2026-3-14 09:27:51 | 查看: 91| 回复: 0

过去几年，科技公司纷纷加速拥抱一件事：让 AI 参与编写代码。

从代码自动补全、自动生成函数，到直接修改系统配置，生成式 AI 正逐步深入真实的生产环境。然而，亚马逊近期接连发生的事故，却给整个行业敲响了警钟——当 AI 真正参与核心系统的开发与运维时，带来的挑战可能远比想象中复杂。

近日，据多家媒体披露，亚马逊内部紧急召开了一场工程“深度复盘”会议，专门讨论近期频繁出现的系统故障。会议中，一个被反复提及的关键词是：AI 辅助代码。

AI与系统稳定性的风险黑洞

一周内4起最高级别事故，内部召开紧急复盘会

事件的起因是亚马逊网站及相关基础设施的稳定性出现明显下滑。负责技术架构的高级副总裁 Dave Treadwell 在一封内部邮件中坦言：“正如大家可能已经知道的，最近网站及相关基础设施的可用性确实不太理想。”

为此，公司决定将每周例行的技术会议“This Week in Stores Tech”临时改为一次“深度复盘会议”。通常此会议是自愿参加的，但这一次 Treadwell 要求工程师尽量全部出席。

会议在周二中午召开，核心目标只有一个：厘清近期一系列系统故障的根本原因。Treadwell 在邮件中透露，仅在一周内，公司就发生了 4 起 Sev1 级别事故。

这里需要说明一下：在亚马逊的事故分级体系中，Sev1 属于最高级别，通常意味着核心系统宕机或关键业务功能受到严重影响。也就是说，这已不是普通 Bug，而是直接影响业务运行的重大问题。

一次长达6小时的宕机，电商核心流程近乎瘫痪

其中最严重的一次事故发生在上周。当天，亚马逊网站和购物 App 突然出现大规模故障，持续时间接近 6 小时。在此期间，大量用户无法完成商品结算、查看账户信息或查询商品价格，整个电商核心流程几乎停摆。

事后，亚马逊给出的官方解释是：事故源于一次错误的软件代码部署，但并未进一步披露细节，例如是否涉及 AI 生成代码。

不仅如此，去年 12 月亚马逊云计算部门 AWS 也曾发生一次持续 13 小时的服务中断。根据多家媒体报道，那次事故的原因是工程师允许内部 AI 编程工具执行修改系统环境的任务，而 AI 选择了一个极端操作——删除并重建了整个运行环境。不过，亚马逊后续回应称，那次问题本质上是人为操作失误，并非 AI 本身造成。

内部文件曾点名：GenAI代码变更是事故趋势之一

但据《金融时报》报道，在此次复盘会议的筹备材料中，亚马逊的一份内部文档曾明确指出：过去几个季度，公司出现了一种“事故趋势”，其中一个因素便是“GenAI 工具辅助的代码变更”。

该文档还指出了一个关键问题：一些新的生成式 AI 使用方式，目前尚缺乏成熟的工程规范和安全防护机制。不过，根据 CNBC 获得的更新版本文件，在会议开始前，涉及 GenAI 的这条内容被删除了——知情人士表示，此举可能与内部信息敏感性有关。

在媒体报道发酵后，亚马逊发言人进一步回应称，近期的事故中只有一起与 AI 相关，且没有任何事件是 AI 直接编写代码导致的。发言人强调，这次会议只是“常规运营”的一部分：“TWiST 是零售技术负责人每周举行的例会，我们会在会上评估网站和应用的运行情况，并持续改进系统可用性。”

AI辅助开发被“踩下刹车”：新增高级别人工审批

尽管亚马逊试图淡化 AI 的直接责任，但内部仍决定采取新的工程措施。其中最核心的一条规则是：今后任何 AI 辅助生成的代码修改，都需要更高级别工程师的审批。

换言之，初级工程师可以使用 AI 修改代码，但不能直接部署上线，必须由资深工程师签字确认。这相当于为 AI 生成代码增加了一层“人工安全阀”。

对于这项新规，一些分析师提出了担忧。Constellation Research 首席分析师 Chirag Mehta 表示：“如果每次 AI 改代码都需要高级工程师逐行审核，那么企业很可能会将 AI 带来的效率优势又抵消掉。”

然而，真正的风险并非 AI 会犯错——人类工程师同样会犯错。真正的问题在于：AI 可能会将错误放大。正如 Info-Tech Research Group 的研究总监 Manish Jain 所说，AI 最大的危险在于它压缩了人类干预和纠正问题的时间窗口。

LexisNexis Risk Solutions 的 CISO Flavio Villanustre 给出了一个形象的比喻：“AI 就像一个非常聪明但没有安全意识的孩子。” 在 AI Agent 技术广泛应用后，软件开发速度已大幅提升，但企业的治理体系并未同步升级，许多 AI 策略仍显激进。

如果直接让这样的系统操作关键基础设施，结果就是：小 Bug 可能瞬间影响大规模系统、修复时间窗口被极度压缩、事故影响范围急剧扩大。因此，尽管“人类审核”可能会在一定程度上降低效率，但就目前而言，这仍是一项必要的安全措施。

工程师的另一猜测：大规模裁员是否影响系统稳定性？

除了 AI 工具，一些亚马逊工程师将近期频发的系统故障指向了另一个可能的原因——大规模裁员。

此前有多名员工表示，由于团队规模大幅缩减，工程团队每天需要处理更多“Sev2”级别事故。在亚马逊内部，“Sev2”指的是需要快速响应，否则可能导致服务中断的严重事件。

众所周知，亚马逊在过去几年进行了多轮大规模裁员，最近一次在今年 1 月裁掉了约 1.6 万个岗位。不过，亚马逊官方否认了裁员与系统故障之间的关联，并再次强调系统稳定性评估只是公司的“常规运营流程”。

亚马逊的这一系列事件，为整个技术行业提供了一个重要的反思案例：在追求开发效率与自动化的同时，如何为 AI 设定合理的安全边界、建立与之匹配的工程流程与运维治理体系，已成为确保系统长期稳定性的关键。关于 AI 在生产环境中的应用边界与最佳实践，也欢迎在云栈社区展开更多技术讨论。

上一篇：一位32岁程序员猝死终获工伤认定：法律迟来的认可与职场的永恒警示
下一篇：汽水音乐增长策略分析：抖音生态如何重塑在线音乐市场格局

生成式人工智能, Amazon, 系统稳定性, DevOps, 软件工程