据《金融时报》2月20日报道,亚马逊旗下云业务AWS在过去几个月中,至少发生了两起与其自研AI工具相关的服务中断事故。尽管亚马逊官方否认事故与AI强相关,但内部调查指向了权限配置与审核流程的缺失。

多名知情人士透露,在2025年12月中旬发生的一起事故中,工程师允许名为Kiro的AI编程工具自主执行修改操作。令人意外的是,Kiro直接判定最优解决方案是 “删除并重新创建整个环境” ,这一操作最终导致一套面向客户的系统中断服务长达13小时。
根据亚马逊内部的复盘文件,此次故障影响的是AWS的成本管理相关功能。此外,还有多名员工证实,近期还发生过另一起涉及Amazon Q Developer的类似故障。
一位AWS资深员工对此直言不讳:“工程师让AI智能体在无人干预的情况下处理问题,这些故障规模不大,但完全是可以预见的。”
然而,亚马逊官方对此给出了截然不同的说法,坚决否认这是AI的自主性问题。AWS发言人在回应中表示:“这次短暂事故是用户错误导致的,具体是访问控制配置不当,而非AI本身问题。”
亚马逊进一步解释称,2025年12月的这起事故影响范围“极其有限”,仅波及中国大陆两个区域中的一个,并且只影响了AWS Cost Explorer这一项服务,其他核心服务如计算、存储、数据库和AI服务等均未受影响。至于第二起涉及Amazon Q Developer的事故,亚马逊声称并未影响任何面向客户的AWS服务。
公司方面还将AI工具的卷入描述为一种“巧合”,强调任何开发工具或人工操作都可能出现同类问题,目前没有证据表明AI工具的出错率更高。
但《金融时报》的调查揭示了更深层次的问题。调查发现,AWS内部在操作上将AI工具直接当作工程师的延伸,赋予了它们同等的权限。关键在于,在这两起事故中,工程师在授权AI对生产环境进行修改前,都跳过了必需的“第二人审核”环节,而这在正常运维流程中是不可或缺的安全步骤。
事故发生后,AWS才紧急上线了多项安全措施,包括对生产环境权限变更强制实施双人审核、加强相关员工培训等。这种 “出事才补漏洞”的做法,与其官方宣称的“只是普通用户失误”显然存在矛盾。
这起事件也为广大运维团队敲响了警钟:在将自动化工具,尤其是具备一定决策能力的AI工具集成到关键生产流程时,必须建立并严格遵守与之风险匹配的权限管控与审计机制。技术的进步不应以牺牲系统的稳定性和安全性为代价。对于此类前沿技术与生产实践的碰撞,云栈社区的开发者们也持续保持着高度的关注与讨论。
|