article banner

亞馬遜 AWS 資料中心 – 大規模斷網事件深度復盤

導言:自動化運維的雙刃劍

2021 年 12 月 7 日,一場突如其來的大規模斷網事件,襲擊了全球雲端運算龍頭亞馬遜雲端服務 (Amazon Web Services, AWS) 的美東區域 (US-East-1)。 這起事件並非由網路攻擊或自然災害引發,而是源於亞馬遜內部自動化運維腳本的一個錯誤,卻意外地導致 AWS API 服務崩潰,癱瘓了包括 Spotify、Netflix 在內的多達 7 萬家企業的網路服務, 經濟損失估計超過 2.5 億美元。

亞馬遜 AWS 美東大規模斷網事件,是資料中心發展史上一次極具代表性的 “人為失誤” 災難。它凸顯了自動化運維在提升效率的同時,也潛藏著巨大的風險。一個看似微小的腳本錯誤,就可能引發 “蝴蝶效應”,導致大規模服務中斷。 這起事件,也促使亞馬遜痛定思痛,建立 “人機協同審批” 機制,限制全自動操作權限,以期在追求自動化運維效率的同時,確保雲端服務的穩定性與安全性。

本文將深入剖析這起事件,從斷網始末、自動化腳本錯誤原因、雲服務中斷影響、亞馬遜後續應對等多個層面,抽絲剝繭,還原事件真相,並從中探討自動化運維的風險與管控、雲端服務的穩定性保障的關鍵課題,為產業提供警示與借鏡。

斷網始末:美東雲端核心區淪陷,服務雪崩式崩潰

2021 年 12 月 7 日上午, 亞馬遜 AWS 美東區域 (US-East-1) 開始 出現異常。

最初的徵兆 是 AWS 管理控制台 (AWS Management Console) 出現訪問緩慢、錯誤訊息 等問題。 隨後,越來越多的 AWS 服務開始崩潰, 包括 EC2 (雲伺服器)、S3 (物件儲存)、RDS (雲資料庫)、Lambda (無伺服器運算)、CloudFormation (基礎設施即代碼) 等核心服務,均受到不同程度的影響。

服務崩潰呈現 “雪崩式” 擴散。 由於 AWS 服務之間高度依賴 API 介面進行調用與協作,API 服務的崩潰,迅速蔓延至整個 AWS 美東區域。大量應用程式、網站、服務,因為無法調用 AWS API,而陷入癱瘓。

受影響的企業與服務名單 令人震驚, 包括 Spotify (音樂串流)、Netflix (影音串流)、Disney+ (影音串流)、Slack (企業協作)、Twilio (雲通訊)、Zoom (視訊會議)、美國證券交易委員會 (SEC) 等 數萬家企業與機構, 均受到 AWS 斷網事件的波及。

故障原因:自動化腳本錯誤,API 服務成 “風暴中心”

亞馬遜事後發布的 事故調查報告 指出, 導致 AWS 美東大規模斷網的 “罪魁禍首”,是一個自動化運維腳本的錯誤。

事件的直接原因 是: 在執行例行維護任務時,負責管理 AWS 容量的一個自動化腳本,出現了錯誤 (an automated playbook issue)。

腳本錯誤的具體細節 是: 該腳本原本的設計目標,是關閉少量的運算容量 (to remove a small amount of capacity), 但 腳本執行時,卻意外地關閉了遠超預期的容量 (removed a larger set of servers than intended)。

更為嚴重的是,被錯誤關閉的伺服器,恰好是 AWS API 服務的關鍵節點。 AWS API 服務, 是 AWS 各項雲服務的 “神經中樞”, 所有 AWS 服務之間的調用與協作,都必須透過 API 介面進行。 API 服務的崩潰,直接導致整個 AWS 美東區域的服務 “群體失聯”。

自動化運維腳本的錯誤,為何會造成如此嚴重的後果? 原因主要有以下幾點:

  1. 自動化運維的 “放大效應”: 自動化腳本的優勢在於高效、快速、規模化, 但 一旦腳本出現錯誤,其 “破壞力” 也會被放大。 一個小小的腳本錯誤,可能在短時間內影響大量的系統與服務。
  2. API 服務的 “核心地位”: AWS API 服務 是 整個 AWS 雲平台的 “基石”。 API 服務的穩定性,直接關係到整個雲平台的穩定性。 API 服務一旦崩潰,將引發 “系統性風險”。
  3. 缺乏 “人為審核” 的 “自動駕駛”: 錯誤的自動化腳本,在沒有經過充分的人工審核與驗證的情況下,就被部署到生產環境中執行。 缺乏 “人為介入” 的 “全自動化” 運維模式,放大了錯誤腳本的風險。

影響層面:7 萬企業受災,經濟損失逾 2.5 億美元

亞馬遜 AWS 美東大規模斷網事件, 影響範圍極其廣泛, 受災企業數量眾多, 經濟損失巨大。

  1. 7 萬多家企業服務中斷: 直接受到 AWS 斷網事件影響的企業,超過 7 萬家。 這些企業廣泛分佈於各行各業,包括科技、金融、媒體、零售、醫療、政府 等。
  2. 知名企業服務癱瘓: 許多知名企業的網路服務,因 AWS 斷網而陷入癱瘓, 例如 Spotify (音樂串流服務中斷數小時)、Netflix (部分用戶無法觀看影片)、Disney+ (影音串流服務受影響)、Slack (企業協作平台無法正常使用)、Twilio (雲通訊服務受阻)、Zoom (視訊會議服務不穩定) 等。
  3. 關鍵基礎設施受影響: 美國證券交易委員會 (SEC) 也 受到 AWS 斷網事件的影響, SEC 的網站與資料庫一度無法訪問。 這凸顯了雲端運算基礎設施的穩定性,對於國家關鍵基礎設施的重要性。
  4. 經濟損失超過 2.5 億美元: 根據網路監測公司 NetBlocks 的估計, AWS 美東斷網事件,給全球經濟造成的損失,超過 2.5 億美元。 這還僅僅是直接經濟損失,間接損失可能更為巨大。

後續應對:建立 “人機協同審批” 機制,強化自動化管控

亞馬遜 AWS 美東大規模斷網事件, 給亞馬遜敲響了警鐘。 為了避免類似事件再次發生, 亞馬遜痛定思痛,迅速採取了一系列應對措施, 重點強化了自動化運維的管控機制。

亞馬遜 後續採取的應對措施 主要包括:

  1. 建立 “人機協同審批” (Human-in-the-Loop Approval) 機制: 亞馬遜 改變了以往 “全自動化” 的運維模式, 導入 “人機協同” 理念。 對於涉及關鍵系統變更、大規模容量調整等高風險操作,必須經過人工審核與批准後,才能執行自動化腳本。 建立 “多重關卡” 的審批流程,降低自動化運維的風險。
  2. 強化自動化腳本的測試與驗證: 亞馬遜 加強了自動化腳本的開發、測試、驗證流程。 所有自動化腳本,在部署到生產環境之前,必須經過嚴格的測試與驗證,確保腳本的正確性與可靠性。 引入 “灰度發布”、“小流量驗證” 等機制,降低新腳本上線的風險。
  3. 優化監控與告警系統: 亞馬遜 優化了 AWS 平台的監控與告警系統, 提升系統異常檢測的靈敏度與準確性。 一旦系統出現異常,能夠及時告警,並自動觸發應急響應流程。
  4. 加強運維團隊培訓: 亞馬遜 加強了運維團隊的培訓, 提升運維人員對自動化運維工具的理解與應用能力。 強化運維人員的應急處置能力,提升應對突發事件的效率。

殷鑑不遠:自動化運維風險與管控的啟示

亞馬遜 AWS 美東大規模斷網事件,再次提醒我們, 自動化運維是一把 “雙刃劍”。 用得好,可以提升效率、降低成本;用不好,可能引發災難性後果。 從這場事件中,我們可以汲取以下啟示:

  1. 動化運維,風險與收益並存: 自動化運維 是 雲端運算發展的必然趨勢, 可以大幅提升運維效率,降低人工成本。 但 自動化運維也存在風險,例如腳本錯誤、系統漏洞、人為誤操作 等。 必須正視自動化運維的風險,採取有效措施加以管控。
  2. “人機協同”,平衡效率與安全: 過度追求 “全自動化” 可能存在風險。 “人機協同” 模式,將人工經驗與判斷,融入到自動化運維流程中,可以更好地平衡效率與安全。 對於關鍵系統與高風險操作,人工審核與批准,仍然是必要的安全保障。
  3. 腳本品質,決定系統穩定性: 自動化腳本的品質, 直接關係到系統的穩定性與可靠性。 必須高度重視自動化腳本的開發、測試、驗證, 確保腳本的正確性、健壯性、安全性。
  4. 監控告警,及早發現問題: 完善的監控與告警系統, 是 及早發現系統異常,降低故障影響的 “哨兵”。 必須建立全方位、多層次的監控體系,實時監測系統運行狀態,及時發出告警信息。
  5. 應急響應,快速止損是關鍵: 即使做了充分的預防措施,也難以完全避免故障的發生。 建立完善的應急響應機制,快速定位故障原因,及時採取措施止損,最大限度降低故障影響,至關重要。

結語:擁抱自動化,敬畏風險,共築安全穩定的雲端未來

亞馬遜 AWS 美東大規模斷網事件,是一次 深刻的教訓。 雲端運算產業 必須 以 AWS 事件為鑑, 擁抱自動化運維的同時,也要敬畏其潛在的風險。 在追求效率與創新的道路上,始終將 “安全” 放在首位。 只有不斷提升自動化運維的管控水平,構建更安全、更穩定的雲端基礎設施,才能真正迎接雲端運算的黃金時代。 自動化與安全,並駕齊驅,方能行穩致遠。