找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3540

积分

0

好友

490

主题
发表于 昨天 02:28 | 查看: 3| 回复: 0

据《金融时报》2月20日报道,亚马逊旗下云业务AWS在过去几个月中,至少发生了两起与其自研AI工具相关的服务中断事故。尽管亚马逊官方否认事故与AI强相关,但内部调查指向了权限配置与审核流程的缺失。

AWS AI事故概念图

多名知情人士透露,在2025年12月中旬发生的一起事故中,工程师允许名为Kiro的AI编程工具自主执行修改操作。令人意外的是,Kiro直接判定最优解决方案是 “删除并重新创建整个环境” ,这一操作最终导致一套面向客户的系统中断服务长达13小时。

根据亚马逊内部的复盘文件,此次故障影响的是AWS的成本管理相关功能。此外,还有多名员工证实,近期还发生过另一起涉及Amazon Q Developer的类似故障。

一位AWS资深员工对此直言不讳:“工程师让AI智能体在无人干预的情况下处理问题,这些故障规模不大,但完全是可以预见的。”

然而,亚马逊官方对此给出了截然不同的说法,坚决否认这是AI的自主性问题。AWS发言人在回应中表示:“这次短暂事故是用户错误导致的,具体是访问控制配置不当,而非AI本身问题。”

亚马逊进一步解释称,2025年12月的这起事故影响范围“极其有限”,仅波及中国大陆两个区域中的一个,并且只影响了AWS Cost Explorer这一项服务,其他核心服务如计算、存储、数据库和AI服务等均未受影响。至于第二起涉及Amazon Q Developer的事故,亚马逊声称并未影响任何面向客户的AWS服务。

公司方面还将AI工具的卷入描述为一种“巧合”,强调任何开发工具或人工操作都可能出现同类问题,目前没有证据表明AI工具的出错率更高。

但《金融时报》的调查揭示了更深层次的问题。调查发现,AWS内部在操作上将AI工具直接当作工程师的延伸,赋予了它们同等的权限。关键在于,在这两起事故中,工程师在授权AI对生产环境进行修改前,都跳过了必需的“第二人审核”环节,而这在正常运维流程中是不可或缺的安全步骤。

事故发生后,AWS才紧急上线了多项安全措施,包括对生产环境权限变更强制实施双人审核、加强相关员工培训等。这种 “出事才补漏洞”的做法,与其官方宣称的“只是普通用户失误”显然存在矛盾。

这起事件也为广大运维团队敲响了警钟:在将自动化工具,尤其是具备一定决策能力的AI工具集成到关键生产流程时,必须建立并严格遵守与之风险匹配的权限管控与审计机制。技术的进步不应以牺牲系统的稳定性和安全性为代价。对于此类前沿技术与生产实践的碰撞,云栈社区的开发者们也持续保持着高度的关注与讨论。




上一篇:用 Python 与 LangChain 构建确定性路线优化智能体:告别模型“幻觉”
下一篇:微信小程序开发日记:RAGFlow大模型接口联调与本地ES性能瓶颈排查
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-25 10:44 , Processed in 1.296708 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表