从3月29日晚间到3月30日上午,国内知名AI公司DeepSeek经历了一场罕见的大规模、长时间服务中断。其平台网页端与API接口均无法正常使用,导致大量用户遭遇无法访问、响应超时甚至对话丢失等问题。这次故障也成为DeepSeek上线以来持续时间最长的一次线上事故,对整个人工智能服务领域发出了关于稳定性的警示。
根据大量用户反馈,问题的苗头最早出现在29日晚上9点半左右。初期症状表现为接口拥堵、回复速度异常缓慢,随后情况迅速恶化,最终演变为全面无法访问的状态。
面对突发的服务崩溃,DeepSeek技术团队在第一时间启动了紧急修复流程。团队曾在深夜短暂恢复了服务,但系统稳定性并未得到根本保障,很快便再次陷入崩溃,整个修复过程可谓一波三折。

DeepSeek官方状态页面显示了对本次事件的多次更新记录
直到30日上午10点半左右,官方才最终宣布服务全面恢复正常。整场服务中断持续了接近12小时,堪称国产大模型发展史上历时最久的重大线上事故之一。
截至目前,DeepSeek官方仅在服务状态页面将此次事件标注为“重大停机”,并未向公众披露具体的技术根因分析报告。网络上广泛流传的关于此次故障源于DDoS攻击的说法,也尚未得到官方的任何证实。
这次大规模宕机不仅在用户社区中引发热议,其影响甚至波及到了竞争对手。有好奇心旺盛的网友直接将DeepSeek宕机的问题抛给了字节跳动旗下的AI助手“豆包”,而得到的答复颇为有趣,直接生成了一份简短的“事件调查报告”。

豆包在对话中分析了DeepSeek宕机可能的原因,包括用户暴增和算力压力
这一充满戏剧性的互动,直接让话题「豆包谈DeepSeek频繁崩溃」推上了热搜。
此次事件也引发了技术社区对于AI服务高可用架构和运维保障能力的深入思考。当AI应用逐渐深入日常生活和工作流程,其服务可靠性就不再仅仅是一个技术问题,更关系到用户信任和商业连续性。对于开发者而言,如何构建更具弹性的系统,以及如何建立高效透明的事故响应机制,都是亟待解决的课题。想了解更多技术运维与架构设计的实战讨论,欢迎访问云栈社区与同行交流。
(参考:DeepSeek、微博,本文经由 AI 优化)
|