
这两年,许多技术团队都在积极推进同一件事:将 AI 能力深度集成到现有的业务系统中。
初期的尝试通常比较谨慎,例如:
- 在写代码时使用 Copilot 辅助
- 用 AI 生成单元测试
- 辅助编写技术文档
- 自动总结和分析日志
但随着探索的深入,应用的场景开始发生质的变化:
- 使用 AI 自动分析监控告警并给出处理建议
- 根据问题描述自动生成数据库变更或修复脚本
- 让 AI 自动审批那些被认为“简单”或“低风险”的代码合并请求(PR)
- 自动将客服或内部工单分流到对应的处理团队
- 甚至直接由 AI 自动回复客户咨询
问题随之浮现。当 AI 开始深度参与上述决策与执行流程时,它的角色早已超越了一个简单的“效率工具”。它实际上已经开始接触并影响生产系统的核心运行逻辑。
而生产环境,从来都不是一个可以随意试错的实验场。
一、你以为加了个插件,其实引入了一个概率决策器
我们首先要理解传统自动化与 AI 驱动的自动化在本质上的区别。
传统自动化(或规则引擎)的特点是:
- 规则清晰、明确
- 触发条件确定
- 输出结果可预测、可复现
- 整个执行链路可回放审计
例如,一个经典的基于阈值的扩缩容规则:
if cpu > 80%:
scale +1
这是一个确定性的规则系统。如果 CPU 使用率大于 80%,就扩容一个实例。输入相同,输出永远相同。
而当前基于大模型的 AI 系统(如 AI Agent)的工作模式是:
- 根据输入的上下文(Prompt、历史信息等)理解语义
- 基于其训练数据的概率分布生成判断或内容
- 输出一个“在它看来”最合理、概率最高的决策
这本质上不是严格的规则执行,而是一个概率判断过程。当我们将这样一个概率判断节点接入到原本确定的自动化链路中时,我们引入的实际上是一个 非确定性决策节点。这在系统架构层面,是一个根本性的变化。
二、AI 接入生产系统的五个高风险场景
让我们结合几个具体场景,来审视其中潜藏的风险。
1. 自动生成并执行变更脚本
很多运维或 SRE 团队开始尝试:让 AI 分析错误日志,自动生成修复命令或 SQL 变更脚本,并直接执行。
短期收益非常明显:平均故障修复时间(MTTR)显著降低,人工 on-call 的压力减小。但我们必须清醒地认识到:模型并不真正理解你业务的边界和隐性约束。
它不知道:
- 哪些核心依赖库的版本绝对不能随意升级
- 哪些数据库字段的修改会触发下游未知的耦合逻辑
- 哪些系统参数在特定业务时段内必须保持固定
它生成的脚本,只是基于它所学的海量代码模式,“看起来”最合理的一个。如果省去人工审核环节直接执行,这就是典型的“概率决策”叠加“不可逆操作”,风险极高。
2. 自动审批代码 PR
一些研发效能团队尝试用 AI 来审查代码,并自动通过那些被判定为“低风险”的改动(如注释更新、简单的字符串修改等)。
这里的核心问题在于:AI 对“低风险”的判定是基于模式识别的概率,而非对代码语义和业务逻辑的深度理解。AI 可能会:
- 忽略一些复杂的边界条件检查
- 误判潜在的并发安全问题(如竞态条件)
- 未能识别出影响分布式系统状态一致性的细微改动
一旦这样的代码被自动合并进入主分支,其携带的风险会随着 CI/CD 流水线快速传播到生产环境。
3. 自动进行资源扩缩容
让 AI 分析历史监控数据,预测未来流量趋势,并自动触发云资源的扩容或缩容操作。
如果预测模型出现偏差,而执行又是全自动且快速的,可能导致:
- 在非必要时段过度扩容,造成云资源成本急剧飙升
- 频繁的扩缩容动作导致服务实例震荡,影响性能与稳定性
- 误缩容导致容量不足,服务可用性下降
在按用量计费的云环境下,这直接转化为现金流风险和企业成本控制问题。
4. 自动分流客服或运维工单
让 AI 解读工单内容,自动决定将其分派给哪个处理团队、设定优先级、甚至判断是否属于紧急事件。
一旦发生误判,后果可能是:
- 真正的 P1 级生产事故被标记为低优先级,导致响应延迟
- 关键问题被淹没在海量普通工单中
- 团队资源被错误分配,忙于处理非紧要事务,而忽略了真正重要的问题
这直接影响了问题解决的效率和服务质量。
5. 自动回复最终客户
这是风险外溢的典型场景。当 AI 直接面向客户提供解答、建议甚至做出承诺时,企业实际上是让一个概率生成系统代表品牌进行对外沟通。
这不再仅仅是内部的技术风险,而是升级为直接的品牌声誉与合规风险。一句不准确或不合规的自动回复,可能引发公关危机或法律纠纷。
三、概率系统 × 自动化 = 风险的乘法效应
许多团队忽视了一个核心逻辑:AI 本身的不确定性不是最大风险,高度自动化本身也不是。真正的危险源在于:概率性决策与自动化执行的耦合。
我们可以用一个简化的模型来理解:
风险值 ≈ 决策的不确定性 × 执行的不可逆程度
当以下三个条件同时满足时:
- 判断是基于概率和上下文的(不确定性高)
- 执行是自动、无需人工干预的(执行直接)
- 操作结果难以或无法回滚(不可逆)
整个系统所承担的风险会被指数级放大。这也解释了为何许多团队在引入 AI 自动化初期感觉良好,却在某个时点遭遇意想不到的重大故障——不是因为 AI 突然变“笨”了,而是因为系统架构中缺乏必要的缓冲与控制层。
四、生产系统设计的底层原则:可预测性优先
生产系统的核心设计目标从来不是“极致智能”或“完全自治”,而是:
- 稳定性:持续可靠地提供服务
- 可预测性:给定输入,输出和行为可预期
- 可复现性:问题能够被稳定地重现和定位
- 可审计性:所有操作有迹可循,便于追溯
然而,当前阶段 AI 系统的核心特性却往往与之相悖:
- 行为不稳定:相同 Prompt 可能产生不同输出
- 强上下文依赖:表现受 Prompt 工程影响巨大
- 难以完全复现:深度学习模型的黑盒特性
- 决策难以解释:难以精准说明为何做出某个判断
当追求确定性的生产系统,与内生不确定性的 AI 系统直接融合时,如果没有清晰的边界设计,两者的冲突是必然的。
五、关键不在禁止,而在于重构边界
因此,当前的核心命题并非“是否该使用 AI”,而是 “如何在架构层面有效管理和驯服概率系统”。
以下是给技术负责人和架构师的六条务实建议:
1. 原则:禁止 AI 直接执行高权限操作
这是铁律。永远不应让 AI 应用拥有直接执行以下操作的能力:
- 获得系统 root 或管理员权限
- 直接修改生产数据库的核心配置或数据
- 直接向生产服务器发送未经审核的运维指令(如
rm -rf、 kill -9)
所有 AI 的输出,必须通过一个权限受控的中间层(如审批流、受信执行器)来操作实际系统。
2. 模式:采用“建议模式”而非“执行模式”
在相当长的能力验证期内,将 AI 定位为“高级顾问”。它可以:
- 提供故障修复的建议方案
- 生成变更脚本的草稿
- 给出代码审查的初步意见
但最终的执行权(如点击确认、执行命令、合并代码)必须保留在人类手中。这相当于在概率决策和实际行动之间设置了“人工确认”这一安全刹车。
3. 架构:为所有 AI 驱动行为设计强制回滚路径
任何由 AI 建议触发或自动执行的操作,其对应架构必须支持:
- 操作可撤销:例如,数据库变更对应有回滚 SQL;配置修改能快速回退。
- 状态可快照:在执行前自动记录系统状态,以便一键恢复。
- 链路可追溯:完整记录“哪个 AI”、“基于什么输入”、“给出了什么建议”、“最终谁批准执行”。
这是将 AI 纳入生产流程的架构底线。
4. 监控:建立 AI 专属的可观测性体系
传统的应用性能监控(APM)和基础设施监控在此远远不够。你需要专门监控 AI 组件本身的行为质量:
- AI 建议的人类采纳率与拒绝率
- AI 判断的错误率或误判率(需人工标注验证)
- 由 AI 建议引发操作后的系统回滚率
- AI 输出结果的稳定性或偏差趋势(例如,通过向量嵌入相似度监测)
这套指标能帮你提前发现模型“漂移”或 Prompt 失效的迹象,而不是等到业务受损后才察觉。对于希望深入探讨自动化监控与可观测性实践的开发者,云栈社区的运维板块汇集了众多相关案例与工具分享。
5. 流程:将 AI 行为纳入正式的变更管理
AI 不应成为绕过现有研发运维流程的“后门”。任何由 AI 触发或辅助的、对生产环境有影响的操作,都应:
- 像普通变更一样,在变更管理系统(如 Jira, ServiceNow)中创建记录
- 记录详细的审计日志,关联到具体的 AI 会话和负责人
- 遵循既定的变更窗口和审批流程
这确保了责任可追溯,并让 AI 的介入过程变得透明、可控。
6. 演练:定期开展“AI 故障”模拟演练
像对待数据中心断电、网络分区等传统灾难一样,主动演练 AI 相关的故障场景:
- 模拟错误判断:注入会导致 AI 做出有害建议的输入,测试系统的拦截和告警能力。
- 模拟恶意 Prompt:尝试 Prompt 注入攻击,检验系统的防护和过滤机制。
- 模拟数据污染:假设训练数据或输入上下文被污染,评估对决策链的影响。
通过定期演练,不断完善针对 AI 组件的应急预案和防护体系。
六、成熟团队的认知:将 AI 视为“高风险核心组件”
在过去的架构认知中,我们已经习惯于将数据库、网络、支付网关等视为需要重点保障和高可用的关键组件。现在,我们必须在这一清单上明确增加一项:AI 驱动模块应被视为一个关键的风险组件。
它不再是一个无足轻重的“插件”或“外挂”。它是一个动态的、行为不能完全预测的、却能产生实质影响的系统参与者。在 运维与测试 的视角下,这意味着需要为其设计全新的稳定性保障与故障隔离策略。
七、未来的分水岭:控制力优于应用广度
在未来两到三年,我们很可能会看到技术团队出现分化:
第一类团队:追求极致的自动化,尽可能地将决策权交给 AI,短期内效率提升显著,业务扩展迅猛。
第二类团队:在积极应用 AI 的同时,同步构建强大的控制、监控和回退能力。步伐可能稍慢,但系统架构清晰,风险可控。
从长期来看,真正能够持续稳定运营的,很可能是第二类团队。因为生产系统的终极逻辑,奖励的不是最大胆的激进,而是最可靠的稳健。
结语:这是一次架构范式的演进
过去,我们设计和构建的是 “规则驱动” 的系统。今天,我们正在尝试将 “概率驱动” 的节点引入原有体系。
当概率节点被嵌入关键业务链路时,我们不能只关注其带来的效率提升,更必须重新思考并重构与之配套的系统边界、权限模型和责任框架。
不要再简单地将 AI 视为一个编写代码或文档的工具。它正在,或已经,进入你的生产系统核心地带。现在真正要回答的问题不是“要不要用”,而是:“你是否已经为这个强大的概率系统,设计好了足够 resilient 的安全边界?”
如果答案是否定的,那么你所进行的可能不是一次系统升级,而是一场不可控的风险扩张。