導言:科技巨擘也難逃的工安陰影
2022 年 8 月 8 日,科技巨擘 Google 位於美國愛荷華州 (Council Bluffs, Iowa) 的資料中心,驚傳重大工安意外。一起變電站 電弧閃爆 (Arc Flash) 事故,造成三名工程師身受重傷,更波及全球 40 個國家、1338 台伺服器 的服務中斷。
這起事件,不僅是一場令人痛心的工安意外,更凸顯了資料中心 電力系統安全 的極端重要性。即使是技術實力雄厚的 Google,也難以完全避免資料中心運營中的潛在風險。愛荷華資料中心電氣爆炸事件,再次為資料中心產業敲響了 安全警鐘,提醒業界 正視電力安全,強化風險管控,絕不能掉以輕心。
本文將深入剖析這起事件,從 事故經過、電弧閃爆成因、傷亡與影響、谷歌後續應對 等層面,抽絲剝繭,還原事件原貌,並從中探討資料中心 電力安全防護 的關鍵課題,為產業提供借鏡。
事故現場:變電站爆炸巨響,火光四射
2022 年 8 月 8 日下午 1 時 29 分,位於美國愛荷華州康瑟爾布拉夫斯的 Google 資料中心園區,突然傳出一聲 震耳欲聾的爆炸巨響。園區內的變電站 (substation) 發生 電弧閃爆,現場火光四射,濃煙滾滾。
事故發生時,有四名電氣工程師正在變電站內進行維護作業。其中 三人 不幸遭到電弧閃光直接波及, 身受重傷,緊急送醫救治。所幸,事故並未引發火災,消防隊員趕到現場後,確認狀況穩定。
事故原因:變電站電弧閃爆 (Arc Flash)
初步調查顯示,這起事故的直接原因是 變電站發生電弧閃爆 (Arc Flash)。
電弧閃爆,是指在高壓電力系統中,由於 短路、絕緣失效、操作失誤 等原因,導致電流在空氣中 瞬間擊穿,形成強烈的電弧放電現象。電弧閃爆會產生 高溫、強光、高壓衝擊波,以及 有毒氣體,對人員和設備造成極大危害。
本次事故的 具體觸發原因,Google 並未公開詳細說明。但根據電力工程專家分析,可能的原因包括:
- 設備老化或維護不當: 變電站設備長期運行,可能出現 絕緣老化、接點鬆動、元件失效 等問題。若維護保養不當,未能及時發現並排除隱患,就可能增加電弧閃爆風險。
- 操作失誤: 電氣設備維護作業,需要嚴格遵守 安全操作規程。任何 操作失誤、誤觸帶電部位 等行為,都可能引發電弧閃爆。
- 環境因素: 潮濕、粉塵、腐蝕性氣體 等環境因素,可能加速設備老化,降低絕緣性能,增加電弧閃爆風險。
- 保護裝置失效: 變電站通常配備 過電流保護、差動保護、瓦斯保護 等多重保護裝置,以在異常狀況發生時,及時切斷電源,防止事故擴大。若保護裝置 設計缺陷、設定不當或故障失效,可能導致電弧閃爆無法及時抑制。
傷亡與影響:工程師重傷,全球服務中斷
谷歌愛荷華資料中心電氣爆炸事件,造成了 人員傷亡 和 服務中斷 雙重災難。
- 人員傷亡:三名工程師身受重傷 事故中最令人痛心的是 人員傷亡。三名電氣工程師在事故中 遭受嚴重燒燙傷,被緊急送往內布拉斯加州醫學中心 (Nebraska Medical Center) 接受治療,一度 傷勢危急。所幸,經過醫療團隊全力救治,三名工程師最終 脫離險境,逐漸康復。
- 服務中斷:全球 1338 台伺服器受影響 電弧閃爆事故,導致愛荷華資料中心部分電力供應中斷,進而影響到 1338 台伺服器 的運作。這些伺服器負責 Google Cloud Platform (GCP) 的部分服務,以及 Google Workspace (例如 Gmail, Drive) 等企業應用。 服務中斷 持續數小時,波及 全球 40 個國家 的用戶。部分企業用戶的 業務運營受到影響,個人用戶也可能遇到 Gmail 無法收發信件、Google Drive 無法訪問 等問題。
- 股價短暫下跌:Google 母公司 Alphabet 股價受波及 事故消息傳出後,Google 母公司 Alphabet 的股價在 盤中一度下跌近 1%,顯示投資人對事件的負面影響有所擔憂。
谷歌後續作為:強化 AI 監測,提升電力安全
事故發生後,Google 立即展開 內部調查,並與相關監管部門合作,釐清事故原因,檢討安全措施。同時,Google 也積極採取措施, 降低未來再次發生類似事故的風險。
- 強化高壓電設備 AI 監測系統 Google 宣布將 強化資料中心高壓電設備的 AI 監測系統。透過 導入更先進的感測器、演算法,以及 機器學習技術,AI 系統可以 更精準、更即時 地監測電力設備的 運行狀態、溫度、電流、電壓 等關鍵參數, 及早發現潛在異常,並發出 預警,以便工程師及時介入處理, 防範事故於未然。
- 加強員工安全培訓與應變演練 Google 也將 加強員工的電力安全培訓,提升員工對 電弧閃爆風險 的認知,以及 安全操作規程 的遵守意識。此外,Google 還將 更頻繁地進行應變演練,提升員工在緊急狀況下的 應變處置能力。
- 檢討與升級電力安全規範 Google 表示將 全面檢討現有的資料中心電力安全規範,並根據事故調查結果, 升級相關安全標準。新的安全規範可能涵蓋 設備選型、安裝、維護、操作、監測、應變 等各個環節,力求 全方位提升電力安全水平。
產業啟示:資料中心電力安全防護刻不容緩
谷歌愛荷華資料中心電氣爆炸事件,再次凸顯了資料中心 電力安全 的極端重要性。這起事故,為資料中心產業帶來了深刻的啟示:
- 電力安全是資料中心運營的生命線 資料中心的核心是 電力供應。一旦電力系統發生故障,輕則服務中斷,重則設備損毀、人員傷亡。資料中心業者必須將 電力安全 視為 運營的生命線,投入足夠的資源和精力,確保電力系統的 穩定、可靠、安全 運行。
- 電弧閃爆風險不容忽視 電弧閃爆 是高壓電力系統中 極具威脅性 的風險。資料中心業者必須 正視電弧閃爆風險,採取有效措施, 降低事故發生機率,減輕事故後果。
- 預防勝於治療:強化預測性維護與監測 預防性維護 是降低電力系統故障風險的關鍵。資料中心業者應 定期、全面 檢查維護電力設備, 及早發現並排除潛在隱患。 導入 AI 監測系統,可以 提升預測性維護水平,實現 更智慧化、更精準化 的電力安全管理。
- 安全文化至關重要:提升人員安全意識與技能 再先進的技術,也無法完全取代 人的作用。提升資料中心員工的 安全意識,加強 安全技能培訓,建立 重視安全的企業文化,是預防工安事故的根本之道。
- 法規標準與產業自律雙管齊下 政府應 制定更完善的資料中心電力安全法規與標準,明確安全要求,強化監管力度。同時,資料中心產業也應 加強自律,共同提升產業整體的 安全水平。
結語:科技向善,安全先行
谷歌愛荷華資料中心電氣爆炸事件,是一場令人警醒的工安事故。它提醒我們,科技發展的腳步再快,也不能忽略 安全 這個最基本、最重要的前提。資料中心產業在追求 高效、創新 的同時,更要將 安全、可靠 放在首位。
唯有 正視風險,防微杜漸,持續提升安全防護水平,才能真正 確保資料中心的安全穩定運營,為數位經濟的蓬勃發展,奠定更堅實、更安全的基礎。 科技應當向善,而安全,永遠是科技向善的前提。