Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
資料中心 | 國際標準 | 國際認證 | 案例探討 | 全球新聞
2021 年 12 月 7 日,一場突如其來的大規模斷網事件,襲擊了全球雲端運算龍頭亞馬遜雲端服務 (Amazon Web Services, AWS) 的美東區域 (US-East-1)。 這起事件並非由網路攻擊或自然災害引發,而是源於亞馬遜內部自動化運維腳本的一個錯誤,卻意外地導致 AWS API 服務崩潰,癱瘓了包括 Spotify、Netflix 在內的多達 7 萬家企業的網路服務, 經濟損失估計超過 2.5 億美元。
亞馬遜 AWS 美東大規模斷網事件,是資料中心發展史上一次極具代表性的 “人為失誤” 災難。它凸顯了自動化運維在提升效率的同時,也潛藏著巨大的風險。一個看似微小的腳本錯誤,就可能引發 “蝴蝶效應”,導致大規模服務中斷。 這起事件,也促使亞馬遜痛定思痛,建立 “人機協同審批” 機制,限制全自動操作權限,以期在追求自動化運維效率的同時,確保雲端服務的穩定性與安全性。
本文將深入剖析這起事件,從斷網始末、自動化腳本錯誤原因、雲服務中斷影響、亞馬遜後續應對等多個層面,抽絲剝繭,還原事件真相,並從中探討自動化運維的風險與管控、雲端服務的穩定性保障的關鍵課題,為產業提供警示與借鏡。
2021 年 12 月 7 日上午, 亞馬遜 AWS 美東區域 (US-East-1) 開始 出現異常。
最初的徵兆 是 AWS 管理控制台 (AWS Management Console) 出現訪問緩慢、錯誤訊息 等問題。 隨後,越來越多的 AWS 服務開始崩潰, 包括 EC2 (雲伺服器)、S3 (物件儲存)、RDS (雲資料庫)、Lambda (無伺服器運算)、CloudFormation (基礎設施即代碼) 等核心服務,均受到不同程度的影響。
服務崩潰呈現 “雪崩式” 擴散。 由於 AWS 服務之間高度依賴 API 介面進行調用與協作,API 服務的崩潰,迅速蔓延至整個 AWS 美東區域。大量應用程式、網站、服務,因為無法調用 AWS API,而陷入癱瘓。
受影響的企業與服務名單 令人震驚, 包括 Spotify (音樂串流)、Netflix (影音串流)、Disney+ (影音串流)、Slack (企業協作)、Twilio (雲通訊)、Zoom (視訊會議)、美國證券交易委員會 (SEC) 等 數萬家企業與機構, 均受到 AWS 斷網事件的波及。
亞馬遜事後發布的 事故調查報告 指出, 導致 AWS 美東大規模斷網的 “罪魁禍首”,是一個自動化運維腳本的錯誤。
事件的直接原因 是: 在執行例行維護任務時,負責管理 AWS 容量的一個自動化腳本,出現了錯誤 (an automated playbook issue)。
腳本錯誤的具體細節 是: 該腳本原本的設計目標,是關閉少量的運算容量 (to remove a small amount of capacity), 但 腳本執行時,卻意外地關閉了遠超預期的容量 (removed a larger set of servers than intended)。
更為嚴重的是,被錯誤關閉的伺服器,恰好是 AWS API 服務的關鍵節點。 AWS API 服務, 是 AWS 各項雲服務的 “神經中樞”, 所有 AWS 服務之間的調用與協作,都必須透過 API 介面進行。 API 服務的崩潰,直接導致整個 AWS 美東區域的服務 “群體失聯”。
自動化運維腳本的錯誤,為何會造成如此嚴重的後果? 原因主要有以下幾點:
亞馬遜 AWS 美東大規模斷網事件, 影響範圍極其廣泛, 受災企業數量眾多, 經濟損失巨大。
亞馬遜 AWS 美東大規模斷網事件, 給亞馬遜敲響了警鐘。 為了避免類似事件再次發生, 亞馬遜痛定思痛,迅速採取了一系列應對措施, 重點強化了自動化運維的管控機制。
亞馬遜 後續採取的應對措施 主要包括:
亞馬遜 AWS 美東大規模斷網事件,再次提醒我們, 自動化運維是一把 “雙刃劍”。 用得好,可以提升效率、降低成本;用不好,可能引發災難性後果。 從這場事件中,我們可以汲取以下啟示:
亞馬遜 AWS 美東大規模斷網事件,是一次 深刻的教訓。 雲端運算產業 必須 以 AWS 事件為鑑, 擁抱自動化運維的同時,也要敬畏其潛在的風險。 在追求效率與創新的道路上,始終將 “安全” 放在首位。 只有不斷提升自動化運維的管控水平,構建更安全、更穩定的雲端基礎設施,才能真正迎接雲端運算的黃金時代。 自動化與安全,並駕齊驅,方能行穩致遠。