article banner

從 Supermicro 看 AI 資料中心全新解決方案

在 NVIDIA GTC 2024 大會上,伺服器大廠 Supermicro 以「全機櫃解決方案及液冷技術引領 AI 基礎設施創新」為主題,展示了其在人工智慧 (AI) 基礎設施領域的最新進展與前瞻佈局,也吸引了眾多資料中心相關領域從業人員的關注。Supermicro 行銷主管 Michael McNu 以及多位 Supermicro 專家在影片中詳細介紹了公司在 AI 伺服器、儲存、液冷技術以及邊緣運算等方面的創新產品和解決方案。本次更新不僅突顯了 Supermicro 在 AI 基礎設施領域的技術實力,也預示了未來 AI 發展的幾個關鍵趨勢。

AI 最佳化伺服器與儲存:突破運算效能瓶頸

The problems with traditional topology for AI

當前,AI 模型,尤其是大型語言模型 (LLM) 和生成式 AI,對運算能力的需求正以前所未有的速度增長。然而,傳統資料中心架構在面對如此龐大的運算需求時,開始顯現效能瓶頸。如上圖所示,傳統的 Spine-Leaf 網路拓樸交換容量不足,缺乏直接的系統對系統通訊,導致網路傳輸效率低下,成為 AI 運算的瓶頸。同時,傳統系統架構中,CPU 記憶體容量不足,GPU 記憶體頻寬受限,且 CPU 與 GPU 之間透過 PCIe 匯流排連接,頻寬成為系統瓶頸,限制了資料傳輸速度,進而影響整體運算效能。

為了解決這些運算效能瓶頸,Supermicro 產品線涵蓋了針對不同 AI 工作負載最佳化的伺服器和儲存解決方案。針對大型語言模型和推論工作負載,Supermicro 提供了 AI GPU 最佳化系統,其中包括 HGX 系列,單系統最高可搭載 8 個 NVIDIA H100 GPU。這些系統旨在提供極致的運算效能,突破傳統架構的效能限制,滿足 AI 模型訓練和高速推論的迫切需求。

除了 GPU 伺服器,Supermicro 也強調了 AI 最佳化儲存解決方案 以及 通用企業平台,以支援多 GPU AI 和高效能運算 (HPC) 解決方案。這些儲存方案旨在解決 AI 工作負載中日益增長的資料儲存和處理需求,提供高效、可靠且可擴展的儲存基礎設施,確保運算資源能充分發揮效能,不再受限於儲存系統。

值得關注的是,Supermicro 也積極佈局 邊緣運算 領域,推出了針對 5G、零售和製造等應用場景的 邊緣產品組合。這些強固型平台支援在邊緣進行推論和訓練,將 AI 運算能力延伸至網路邊緣,實現更低延遲、更即時的 AI 應用,解決了傳統雲端架構在邊緣運算方面的效能瓶頸。

全機櫃解決方案:簡化 AI 叢集部署與管理

supermicro ai cluster

傳統 AI 基礎設施的部署和管理流程繁瑣複雜,需要耗費大量時間和人力整合伺服器、儲存、網路等多種硬體,以及進行軟體配置和調校。這不僅增加了企業部署 AI 基礎設施的門檻,也拖慢了 AI 應用落地的速度。

為了簡化 AI 基礎設施的部署和管理,Supermicro 強調其 全機櫃解決方案。這些方案是預先建置和驗證的機櫃級叢集,包含伺服器、儲存、網路、軟體、設計和驗證等所有組件,實現「隨插即用」的便利性。

全機櫃解決方案的優勢在於 縮短解決方案上市時間經驗證的設計 以及 供應鏈管理。對於需要快速部署 AI 基礎設施的企業而言,全機櫃解決方案無疑是一個理想的選擇,可以大幅降低部署複雜度和時間成本,讓企業能更專注於 AI 應用創新,而非繁瑣的基礎設施建置。

液冷技術:應對資料中心散熱與能源危機

The problem of data center heat

隨著 AI 運算能力的提升,伺服器的功耗和散熱問題日益嚴峻。如上圖所示,AI 伺服器功率需求的快速攀升,導致資料中心散熱負擔急劇加重。傳統氣冷散熱方案已難以有效應對高功耗晶片的散熱需求,不僅導致伺服器效能受限 (Throttled Performance),更使得資料中心需要消耗更多電力進行冷卻,形成惡性循環,大幅增加能源消耗和營運成本。以德國為例,電力成本已高達 76 歐元/MWh,資料中心的能源開銷成為沉重的負擔。更甚者,資料中心能源消耗的增加,也加劇了對環境的負面影響,例如增加化石燃料消耗和碳排放,與全球永續發展目標背道而馳。

Supermicro 認為 液冷技術 是未來 AI 基礎設施的關鍵,並以此為核心,提供氣冷和液冷兩種散熱方案。Supermicro 更推出了一款專為液冷設計的全新 4U 8GPU HGX 系統,展現其在液冷技術領域的領先地位。

Supermicro 的 液冷架構 包含客製化冷板解決方案、冷卻液分配裝置 (CDU) 和冷卻液分配歧管 (CDM),實現高效的熱交換。液冷技術的優勢顯而易見,包括 節省能源降低環境影響 以及 釋放晶片的真正效能。在 AI 伺服器功耗不斷攀升的趨勢下,液冷技術將成為資料中心散熱的必然選擇,不僅能解決散熱難題,更能降低能源消耗,實現綠色運算。

supermicro liquid cooled rack key components

AI 超級電腦部署案例:展現大規模 AI 基礎設施建構能力

影片中,Supermicro 分享了一個 384 節點訓練叢集 的大規模 AI 超級電腦部署案例。該叢集採用 384 個節點和 372 個統一 GPU,展現了 Supermicro 在構建大規模 AI 基礎設施方面的能力。

supermicro 384 node ai training cluster

Supermicro 強調其 可擴展性,能夠提供機櫃級 AI 訓練和推論解決方案,並透過多功能 GPU 伺服器產品組合滿足不同規模的 AI 部署需求。無論是中小企業的 AI 應用,還是大型企業的 AI 超級電腦,Supermicro 都能提供相應的解決方案,滿足不同規模的 AI 部署需求。

邊緣 AI 解決方案:將 AI 運算延伸至網路邊緣

邊緣運算的興起,使得運算不再局限於雲端資料中心,而是延伸至網路邊緣,更貼近資料產生端。傳統雲端架構在應對邊緣 AI 應用時,面臨延遲高、頻寬壓力大等問題,難以滿足即時性需求。

Supermicro 的 邊緣 AI 產品組合 專為邊緣 AI 推論而設計,包括 E300、E403 和短機身 Hyper 系統。這些系統針對零售、製造和需要低延遲的即時應用場景進行了最佳化。Supermicro 的邊緣 AI 解決方案,正是為了滿足這一趨勢而生,將 AI 運算能力帶到更廣泛的應用場景中,解決了傳統雲端架構在邊緣運算方面的不足,為各行各業的邊緣 AI 應用提供強有力的基礎設施支撐。

AI 儲存解決方案:應對海量 AI 資料儲存與管理挑戰

AI 工作負載產生海量資料,如何高效儲存、管理和處理這些資料,成為 AI 基礎設施的重要挑戰。傳統儲存方案在容量、效能、延遲、可靠性等方面,可能難以同時滿足 AI 工作負載的嚴苛要求。

針對 AI 工作負載的資料儲存需求,Supermicro 提出了 分層儲存 方案,包含用於 GPU Direct Storage 的全快閃層、高容量儲存湖,以及經驗證的解決方案,以實現高效的資料處理和管理。

Supermicro 的 P Scale 和高容量儲存系統 旨在處理混合 IO 模式和大規模 AI 訓練資料。這些儲存方案不僅具備高容量,更強調效能和效率,以滿足 AI 工作負載對儲存系統的嚴苛要求,解決了傳統儲存方案在應對 AI 資料儲存與管理方面存在的挑戰。

影片小結

Supermicro 在 GTC 2024 上展示的 AI 基礎設施更新,不僅涵蓋了 AI 伺服器、儲存、液冷、邊緣運算等多個關鍵領域,更直擊當前 AI 資料中心在效能、散熱與部署方面所面臨的痛點。Supermicro 透過其全方位的產品線和技術創新,為客戶提供了應對這些挑戰的解決方案,展現了其在 AI 基礎設施領域的全面佈局和技術實力。

主要特點:

  • 廣泛的工作負載最佳化伺服器和儲存產品組合,突破運算效能瓶頸:Supermicro 提供多樣化的伺服器和儲存解決方案,針對不同的 AI 工作負載進行最佳化,突破傳統架構的效能限制,並堅持內部設計和製造。
  • 全機櫃解決方案加速 AI 叢集部署,簡化部署與管理複雜度:全機櫃解決方案簡化了 AI 基礎設施的部署流程,縮短了上市時間,並提升了供應鏈管理效率,大幅降低部署複雜度和時間成本。
  • 液冷技術是未來 AI 基礎設施的關鍵,應對資料中心散熱與能源危機:隨著 AI 晶片功耗的增加,液冷技術對於維持系統效能、提升能源效率、降低環境影響至關重要,有效解決資料中心散熱與能源危機。
  • 邊緣 AI 和分層儲存解決方案引領市場,拓展 AI 應用邊界:Supermicro 在邊緣 AI 解決方案和 AI 工作負載分層儲存解決方案方面處於市場領先地位,將 AI 運算延伸至網路邊緣,並為海量 AI 資料提供高效儲存與管理方案,引領 AI 應用拓展至更廣闊的邊界。

Supermicro 的 AI 基礎設施更新,不僅展示了其在技術上的創新,更體現了其對當前 AI 資料中心痛點的精準把握,以及對未來 AI 發展趨勢的深刻理解和前瞻佈局。隨著 AI 技術的不斷發展,Supermicro 的 AI 基礎設施解決方案將在各行各業的 AI 應用中扮演越來越重要的角色,助力企業在 AI 浪潮中搶佔先機。


看完影片後的擴展與分析

為了更深入地理解 Supermicro 在 GTC 2024 上發布的 AI 基礎設施更新,以及其背後所代表的產業趨勢,我們可以從以下幾個方面進行更詳細的分析和探討:

AI 基礎設施的發展趨勢

近年來,AI 技術的快速發展,帶動了對 AI 基礎設施的強勁需求。從雲端到邊緣,各行各業都在積極導入 AI 技術,以提升效率、降低成本、創造新的商業價值。AI 基礎設施作為 AI 應用的基石,其發展趨勢直接影響著 AI 技術的普及和應用。

  • 運算力需求持續攀升:AI 模型,尤其是大型語言模型,對運算力的需求呈現指數級增長。這推動了 GPU、加速卡等高效能運算硬體的發展,以及伺服器架構的創新。
  • 資料量爆炸式增長:AI 模型的訓練和推論需要海量資料的支撐。如何高效儲存、管理和處理這些資料,成為 AI 基礎設施面臨的重要挑戰。
  • 綠色運算成為焦點:資料中心的能源消耗日益增加,碳排放問題日益突出。在永續發展的背景下,綠色運算成為 AI 基礎設施發展的重要方向。液冷、浸沒式冷卻等高效散熱技術,以及節能伺服器設計,將成為未來資料中心的標配。
  • 邊緣運算崛起:隨著 5G、物聯網等技術的普及,邊緣裝置產生了大量資料,對即時性、隱私性要求較高的應用場景,需要將運算能力下沉到邊緣。邊緣 AI 基礎設施的發展,將加速 AI 在各行各業的落地應用。
  • 軟硬體整合與最佳化:AI 基礎設施的效能不僅取決於硬體,也與軟體的最佳化密切相關。軟硬體整合,針對特定 AI 工作負載進行最佳化,將成為提升 AI 基礎設施效能的關鍵。

Supermicro 的競爭優勢

SUPER01

在競爭激烈的伺服器市場中,Supermicro 能夠脫穎而出,並在 AI 基礎設施領域佔據領先地位,得益於其獨特的競爭優勢:

  • 產品線完整:Supermicro 提供了從邊緣到雲端、從伺服器到儲存、從氣冷到液冷的全方位產品線,能夠滿足不同客戶、不同應用場景的需求。
  • 客製化能力強:Supermicro 具備高度的客製化能力,能夠根據客戶的特定需求,量身打造最佳化的 AI 基礎設施解決方案。
  • 技術創新領先:Supermicro 在液冷技術、機櫃級解決方案、邊緣運算等領域持續創新,引領產業發展趨勢。
  • 供應鏈優勢:Supermicro 堅持內部設計和製造,掌握供應鏈主導權,能夠更好地應對供應鏈挑戰,確保產品交付。
  • 全球化佈局:Supermicro 在全球範圍內建立了完善的銷售和服務網路,能夠為全球客戶提供及時、專業的支援。

液冷技術的意義與挑戰

液冷技術是本次 Supermicro AI 基礎設施更新的重點之一。隨著 AI 晶片功耗的不斷攀升,傳統的氣冷散熱方案已經難以滿足需求。液冷技術以其更高的散熱效率,成為解決高功耗伺服器散熱問題的理想選擇。

  • 液冷技術的優勢
    • 更高的散熱效率:液體的熱容和熱傳導係數遠高於空氣,液冷散熱效率是氣冷的數倍。
    • 更低的能源消耗:液冷系統可以更有效地帶走熱量,降低風扇轉速,從而降低能源消耗。
    • 更高的伺服器密度:液冷技術可以有效控制伺服器溫度,允許在機櫃中部署更高密度的伺服器,提升資料中心空間利用率。
    • 更低的噪音:液冷系統運行噪音遠低於氣冷系統,改善資料中心工作環境。
    • 提升晶片效能:液冷技術可以將晶片溫度控制在更低的範圍內,提升晶片的運算效能和穩定性。
  • 液冷技術的挑戰
    • 成本較高:液冷系統的初期建置成本相對較高,包括液冷板、冷卻液分配裝置、管路等。
    • 維護複雜:液冷系統的維護相對複雜,需要專業人員進行操作和維護,防止洩漏等問題。
    • 標準化程度不高:目前液冷技術的標準化程度不高,不同廠商的液冷方案可能存在差異,影響互通性和相容性。

儘管液冷技術面臨一些挑戰,但其在高效散熱、節能減碳方面的優勢是顯而易見的。隨著技術的成熟和規模化應用,液冷技術的成本將逐步降低,標準化程度也將逐步提升,成為未來資料中心散熱的主流方案。

SUPER07

邊緣 AI 的應用前景

邊緣 AI 是近年來 AI 領域的一個重要發展方向。Supermicro 積極佈局邊緣 AI 領域,推出了針對不同邊緣應用場景的解決方案。

  • 邊緣 AI 的應用場景
    • 智慧製造:在工廠車間,邊緣 AI 可以實現即時品質檢測、設備預測性維護、生產流程最佳化等應用。
    • 智慧零售:在零售商店,邊緣 AI 可以實現客流分析、商品識別、智慧推薦、自助結帳等應用。
    • 智慧城市:在城市管理中,邊緣 AI 可以實現交通流量監控、環境監測、公共安全預警等應用。
    • 自動駕駛:在自動駕駛汽車中,邊緣 AI 負責即時感知周圍環境、做出駕駛決策。
    • 醫療健康:在醫療領域,邊緣 AI 可以實現遠端醫療監護、影像輔助診斷、穿戴式裝置健康監測等應用。
  • 邊緣 AI 的挑戰
    • 硬體限制:邊緣裝置的運算資源、功耗、體積等受到限制,需要開發更高效、更低功耗的 AI 晶片和系統。
    • 網路環境複雜:邊緣網路環境可能不穩定、頻寬有限,需要解決邊緣裝置與雲端之間的資料傳輸和同步問題。
    • 安全與隱私:邊緣裝置分散在各個角落,安全風險更高,需要加強邊緣裝置的安全防護,保護資料隱私。
    • 管理與維護:邊緣裝置數量龐大、分佈廣泛,管理和維護難度較高,需要開發智慧化的邊緣裝置管理平台。

儘管邊緣 AI 發展面臨一些挑戰,但其在各行各業的應用前景十分廣闊。隨著技術的進步和應用場景的拓展,邊緣 AI 將成為 AI 發展的新引擎。

AI 儲存的關鍵考量

AI 工作負載對儲存系統提出了更高的要求,不僅需要大容量,更需要高效能、低延遲、高可靠性。Supermicro 提出的分層儲存方案,正是為了應對 AI 儲存的挑戰。

  • AI 儲存的需求特點
    • 高容量:AI 模型訓練需要海量資料,儲存系統需要具備高容量和可擴展性。
    • 高效能:AI 工作負載對資料的讀寫速度要求極高,儲存系統需要具備高效能和低延遲。
    • 高可靠性:AI 資料的價值極高,儲存系統需要具備高可靠性和資料保護能力,防止資料丟失或損壞。
    • 靈活性:AI 工作負載的類型多樣,儲存系統需要具備靈活性,能夠適應不同的工作負載需求。
    • 成本效益:在滿足效能和容量需求的前提下,儲存系統需要具備成本效益,降低總體擁有成本 (TCO)。
  • 分層儲存的優勢
    • 效能最佳化:將熱資料儲存在高效能的快閃儲存層,將冷資料儲存在高容量的硬碟儲存層,實現效能和成本的平衡。
    • 成本降低:分層儲存可以根據資料的存取頻率,將不同類型的資料儲存在不同成本的儲存介質上,降低總體儲存成本。
    • 管理簡化:透過儲存管理軟體,可以實現資料在不同儲存層之間的自動遷移,簡化儲存管理。
    • 靈活性提升:分層儲存可以根據工作負載的變化,靈活調整不同儲存層的容量和效能,提升儲存系統的彈性。

分層儲存是解決 AI 儲存挑戰的有效方案,可以幫助企業在效能、成本和管理之間取得平衡,構建高效、經濟、可靠的 AI 儲存基礎設施。

結論

Supermicro 在 GTC 2024 上發布的 AI 基礎設施更新,不僅展示了其在 AI 基礎設施領域的技術實力,更體現了其對未來 AI 發展趨勢的深刻洞察,以及對當前 AI 資料中心痛點的精準把握。從 AI 伺服器、儲存、液冷技術到邊緣運算、全機櫃解決方案,Supermicro 正在構建一個全方位的 AI 基礎設施生態系統,直擊效能、散熱與部署痛點,以滿足不斷增長的 AI 應用需求。

在 AI 技術加速發展的時代,AI 基礎設施的重要性日益凸顯。Supermicro 作為 AI 基礎設施領域的領軍企業,其技術創新和產品佈局,將對 AI 產業的發展產生深遠的影響。隨著液冷技術、邊緣運算、分層儲存等技術的成熟和普及,我們有理由相信,未來的 AI 應用將更加普及、更加智慧、更加高效。

常見問答

Supermicro 在 GTC 2024 上主要展示了哪些 AI 基礎設施更新?

Supermicro 在 GTC 2024 上重點展示了其在 AI 伺服器、儲存、液冷技術以及邊緣運算等方面的最新進展。主要更新包括針對不同 AI 工作負載最佳化的伺服器和儲存解決方案、全機櫃解決方案、液冷技術以及邊緣 AI 產品組合。

全機櫃解決方案的主要優勢是什麼?

全機櫃解決方案的主要優勢在於簡化 AI 基礎設施的部署和管理,縮短解決方案上市時間,提供經驗證的設計,並提升供應鏈管理效率。它實現了「隨插即用」的便利性,大幅降低部署複雜度和時間成本。

為什麼液冷技術對未來的 AI 基礎設施至關重要?

隨著 AI 運算能力的提升,伺服器的功耗和散熱問題日益嚴峻。液冷技術以其更高的散熱效率,成為解決高功耗伺服器散熱問題的關鍵。它能節省能源、降低環境影響,並釋放晶片的真正效能,是未來資料中心散熱的必然選擇。

Supermicro 的邊緣 AI 解決方案適用於哪些應用場景?

Supermicro 的邊緣 AI 產品組合專為邊緣 AI 推論而設計,適用於零售、製造和需要低延遲的即時應用場景,例如智慧零售、智慧製造、智慧城市和自動駕駛等。

Supermicro 提出的分層儲存方案如何應對 AI 工作負載的資料儲存需求?

Supermicro 的分層儲存方案包含用於 GPU Direct Storage 的全快閃層、高容量儲存湖,以及經驗證的解決方案。這種方案可以根據資料的存取頻率,將不同類型的資料儲存在不同成本的儲存介質上,實現效能和成本的平衡,並滿足 AI 工作負載對高容量、高效能和低延遲儲存的需求。

Supermicro 在 AI 基礎設施領域的競爭優勢有哪些?

Supermicro 的競爭優勢包括:完整的產品線、強大的客製化能力、領先的技術創新(如液冷技術)、供應鏈優勢(內部設計和製造),以及全球化的佈局。

液冷技術在 AI 基礎設施應用中面臨哪些挑戰?

液冷技術在 AI 基礎設施應用中面臨的挑戰主要包括:較高的初期建置成本、相對複雜的維護、以及標準化程度不高。然而,隨著技術的成熟和規模化應用,這些挑戰預計將逐步得到解決。