Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
資料中心 | 國際標準 | 國際認證 | 案例探討 | 全球新聞
人工智慧(AI)的快速發展正在重塑科技產業,尤其是生成式AI與高效能運算(HPC)的興起,對資料中心的基礎設施提出了全新要求。根據國際數據公司(IDC)2023年報告,全球生成式AI支出預計在2022至2027年間實現95.4%的年複合成長率,顯示AI將長期主導技術趨勢。然而,這一進展伴隨著硬體需求的劇增:AI訓練所需的機櫃重量、功耗與散熱需求遠超傳統設計,傳統資料中心正面臨前所未有的壓力。
在這場變革中,NVIDIA的DGX基地(DGX Base)作為高密度資料中心的代表,憑藉其先進設計與技術整合,成為支撐AI超重機櫃的關鍵平台。本文將詳細剖析DGX基地的技術實現、其對全球產業的影響,以及對台灣資料中心的借鑑意義,所有內容均基於NVIDIA官方公開資料與業界標準。
NVIDIA DGX基地並非單一設施,而是NVIDIA推出的一套參考架構(Reference Architecture),旨在為企業與研究機構提供標準化的AI基礎設施解決方案。根據NVIDIA官網介紹,DGX基地整合了DGX系統(如DGX A100、DGX H100)、高效儲存與高速網路技術,專為高密度運算設計,目標是加速AI訓練、推理與數據分析。
DGX基地的概念源於2016年推出的首款DGX-1系統,當時NVIDIA意識到企業AI需求快速增長,需要一套統一的硬體與軟體平台。隨著技術迭代,DGX基地發展為包含多節點配置的解決方案,例如DGX SuperPOD,其核心任務是支援大規模AI模型訓練。根據NVIDIA 2023年Hot Chips大會披露,DGX系統被廣泛應用於其自研超級電腦(如Eos),顯示其在高密度運算領域的領先地位。
AI訓練的硬體需求與傳統伺服器截然不同。以DGX H100為例,根據NVIDIA官方規格,每台系統搭載8顆H100 GPU,重量約120公斤,功耗達10.2-14.3千瓦(kW),遠超傳統機櫃的5-10千瓦標準。若將多台DGX H100組成集群,單櫃重量可達1.5-3噸,局部地板承重需達每平方公尺1.5噸以上。這一「超重機櫃」趨勢推動了DGX基地的發展,旨在滿足AI工作負載的高密度要求。
高密度運算產生巨大熱量。以DGX H100為例,其8顆H100 GPU在滿載時每秒生成數十萬焦耳熱能,根據NVIDIA技術文件,這要求資料中心具備卓越的散熱能力。DGX基地採用了先進的冷卻技術,根據NVIDIA 2024年GTC大會公開資料,其推薦設計包括液冷與氣冷相結合的方案。
此雙重冷卻方案已在NVIDIA的Eos超級電腦中驗證,該系統包含576台DGX H100,根據TOP500(2023年11月版),其FP8運算能力達18 ExaFLOPS,位居全球第五。
超重機櫃對地板承重構成挑戰。根據ASHRAE的資料中心設計指南,傳統地板承重為每平方公尺500-800公斤,而DGX基地的集群部署需達1.5噸以上。NVIDIA在DGX SuperPOD參考架構中建議:
這些設計已在NVIDIA內部設施(如Eos)與客戶案例(如美國阿貢國家實驗室的Selene超級電腦)中實現,證明其可靠性。
DGX基地的電力需求驚人。以Eos為例,576台DGX H100總功耗約5.8-8.2兆瓦,根據NVIDIA數據,這需要高密度電源分配單元(PDU)與不斷電系統(UPS)。此外,DGX基地採用InfiniBand網路(200 Gb/s HDR),根據NVIDIA 2023年技術白皮書,其提供70.4 TB/s的雙向頻寬,確保多節點間低延遲通信。
DGX基地的成功部署影響了資料中心設計與AI應用:
台灣擁有全球領先的半導體產業,但資料中心多為傳統設計。根據經濟部2023年報告,全台資料中心容量約1,200兆瓦,卻少有高密度設施。DGX基地提供以下啟示:
根據NVIDIA 2024年路線圖,DGX基地將朝以下方向演進:
NVIDIA DGX基地以其高效散熱、高承重結構與強大運算能力,成為AI時代的基礎設施典範。其經驗不僅推動全球產業進步,也為台灣提供了升級藍圖。面對AI革命,打造高密度資料中心將是關鍵一步。