Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
資料中心 | 國際標準 | 國際認證 | 案例探討 | 全球新聞
在數位轉型浪潮席捲全球的今日,資料中心已成為現代企業和服務的神經中樞。隨著人工智慧、大數據分析和雲端運算等技術的快速發展,資料中心內部的網路連接技術面臨前所未有的挑戰與機遇。每一毫秒的延遲都可能影響使用者體驗,每一比特的頻寬都關乎服務品質,使得高速、低延遲的網路架構成為資料中心設計的核心考量。
在這場資料中心高速網路的角力賽中,四個主要技術脫穎而出:InfiniBand、乙太網路(Ethernet)、Omni-Path和SlingShot。這些技術各有優勢,適用於不同的應用場景,但它們之間的競爭也日趨激烈,尤其是長期佔據市場主導地位的InfiniBand和無處不在的乙太網路之間的較量最為引人注目。
本專欄將深入剖析這四種高速網路技術的特性、優缺點、應用場景和未來發展趨勢,幫助讀者了解資料中心網路架構的關鍵決策因素。
過去二十年,資料中心的網路需求經歷了指數級增長。從最初的100 Mbps乙太網路,到千兆(Gigabit)乙太網路,再到現今的400 Gigabit乙太網路和更高速的InfiniBand HDR(200 Gbps)和NDR(400 Gbps),網路速度提升了數千倍。這一切都源於雲端服務、即時數據分析、高效能運算(HPC)和AI訓練等應用對高頻寬、低延遲網路的巨大需求。
評估資料中心網路架構時,以下幾個關鍵指標至關重要:
InfiniBand最初於2000年問世,是專為高效能運算環境設計的高速互連技術。它採用點對點架構,支援嚴格的服務品質(QoS)和遠程直接內存訪問(RDMA)技術,能夠繞過操作系統和CPU,直接將數據從一個系統的內存傳輸到另一個系統,大幅降低延遲並提高處理效率。
InfiniBand採用了切換式分層拓撲結構,支援Fat Tree、全連接(Full mesh)和Torus等多種網路拓撲,能夠滿足不同規模和類型工作負載的需求。
InfiniBand技術經歷了多次演進,速度不斷提升:
每一代的發展不僅提升了速度,還增強了可靠性、管理能力和能源效率。
InfiniBand在高效能運算(HPC)和AI訓練領域佔有絕對優勢,全球TOP500超級電腦中有超過一半使用InfiniBand互連技術。其主要優勢包括:
這些特性使InfiniBand成為需要密集節點間通信的大規模科學計算、氣象預測、基因研究和複雜AI模型訓練的首選技術。
乙太網路(Ethernet)自1980年代問世以來,已成為全球最普及的網路連接技術。它採用基於CSMA/CD(載波偵聽多路存取/碰撞偵測)的共享媒體存取方法,後來發展出交換式乙太網路,消除了碰撞問題並大幅提高效率。
乙太網路支援多種拓撲結構,包括星型、樹狀和網狀拓撲,適用於各種規模的網路部署。其簡單性、互操作性和普及性使其成為全球網際網路的基石。
乙太網路標準由IEEE 802.3工作組定義,經歷了從最初的10 Mbps到今天的400 Gbps甚至800 Gbps的長足發展:
每一代標準都向後兼容,確保了平滑升級和異質網路環境的互操作性。
乙太網路在資料中心領域的主要優勢包括:
Omni-Path Architecture(OPA)是英特爾於2015年推出的高效能互連技術,旨在為高效能運算和資料中心提供高頻寬、低延遲的網路解決方案。這項技術源於英特爾收購QLogic的TrueScale InfiniBand業務和Cray的Aries互連技術,結合兩者優勢開發而成。
然而,值得注意的是,英特爾於2019年宣布停止開發Omni-Path第二代產品,並於2020年將Omni-Path業務出售給新成立的Cornelis Networks公司,該公司現在繼續開發和支援Omni-Path技術。
Omni-Path具有以下技術特點:
Omni-Path採用基於Fat Tree的拓撲結構,支援多種網路配置,適用於各種HPC和資料分析工作負載。
儘管Omni-Path未能獲得如InfiniBand般的市場份額,但它在特定領域仍有其應用價值:
特別是在英特爾生態系統內,Omni-Path提供了與英特爾處理器、存儲和軟體堆疊的無縫整合,為某些特定用例提供了競爭優勢。
SlingShot是由超級電腦巨頭Cray(現為HPE Cray)開發的高效能互連網路技術,於2018年推出,作為其第七代互連架構。它是Cray超級電腦系統的核心組件,專為極端規模的HPC和AI工作負載設計。值得注意的是,HPE於2019年收購Cray後,SlingShot技術成為HPE高效能運算產品線的重要部分。
SlingShot技術的主要創新在於它成功地將高效能運算的嚴格要求與乙太網路的普及標準相融合:
SlingShot主要應用於以下領域:
SlingShot的獨特之處在於它能夠同時連接HPC系統和標準IT基礎設施,提供兩全其美的解決方案,這對於許多希望整合HPC和企業IT環境的組織具有吸引力。
以下是四種技術在關鍵性能指標上的比較:
技術特性 | InfiniBand (NDR) | 乙太網路 (400GbE) | Omni-Path | SlingShot |
---|---|---|---|---|
最大頻寬 | 400 Gbps | 400 Gbps | 100 Gbps | 200 Gbps |
端到端延遲 | 0.5-0.6 μs | 1-3 μs | 0.9-1.2 μs | 0.8-1.0 μs |
RDMA支援 | 原生支援 | 透過RoCE | 原生支援 | 原生支援 |
可擴展性 | 極高 | 極高 | 高 | 極高 |
使用普及度 | TOP500超算約40% | 企業資料中心主流 | 少數特定應用 | HPE超算系統 |
生態系統 | NVIDIA/Mellanox主導 | 多廠商支援 | Cornelis Networks | HPE專有 |
相對成本 | 高 | 中等 | 中等偏高 | 高 |
功耗效率 | 優 | 良好 | 良好 | 優 |
以下是二種主流技術在關鍵性能指標上的捉對廝殺:
項目 | Infiniband | Ethernet |
---|---|---|
定位 | 主要用於高性能計算(HPC)及數據中心內部互連,專注低延遲和高帶寬 | 作為通用網絡技術,廣泛應用於企業、數據中心與互聯網連接 |
頻寬 | 擁有極高頻寬(如 HDR 產品可達 200Gbps 及以上) | 從 1Gbps 到 400G 甚至更高,發展迅速且產品種類豐富 |
延遲 | 超低延遲(端到端可低於 1µs),適合數據密集型和即時計算工作負載 | 延遲相對較高,但先進技術(如 Cut-through)已大幅降低延遲 |
技術 特性 | 支持 RDMA、信用流控及無損傳輸,專為 HPC 設計 | 基於 TCP/IP 協議,並可通過 RoCE 等技術實現 RDMA,兼容性好 |
網路可靠性 | 內建端到端流控和錯誤檢測,保證數據完整性,實現無丟包傳輸 | 可靠性需依賴額外流控(如 PFC)機制,可能存在丟包風險 |
成本 | 成本較高,硬件專有性強,常伴隨供應商鎖定 | 成本較低,設備普及、供應商眾多,具備較好的性價比 |
可擴 展性 | 設計上適合大規模 HPC 集群,但在互操作性上可能較為受限 | 高度可擴展,易於整合至現有數據中心架構,擴展性和互操作性更優 |
管理 部署 | 部署較複雜,需要專用子網管理器,配置與運維相對專業 | 部署與管理成熟、標準化程度高,支持眾多自動化工具 |
應用 場景 | 超級計算、GPU 服務器、高性能存儲等要求極高的環境 | 企業網路、資料中心、雲計算及一般網際網路應用,覆蓋面廣 |
各技術最適合的應用場景:
除了硬體成本外,總擁有成本還應考慮以下因素:
從長期TCO角度看,雖然乙太網路設備通常初始成本較低,但在特定HPC和AI場景中,InfiniBand的性能優勢可能帶來更好的投資回報,特別是在工作負載需要極低延遲和高頻寬的情況下。
InfiniBand和乙太網路在設計理念上有著根本差異:
這種設計理念的差異體現在技術實現上:InfiniBand使用端到端的信用機制確保無丟包傳輸,而乙太網路傳統上使用基於丟包的擁塞控制機制,雖然現代乙太網路已加入無丟包功能,但實現方式和效率仍有差異。
兩種技術的生態系統特點:
隨著技術發展,InfiniBand和乙太網路之間的界限正在模糊:
然而,對於極端性能要求的應用,InfiniBand仍保持領先地位;而乙太網路在通用資料中心和雲環境中的主導地位也難以撼動。兩種技術很可能在可預見的未來繼續並存,各自在擅長的領域發揮優勢。
選擇適合的資料中心網路技術,首先需要評估以下關鍵因素:
隨著工作負載多樣化,許多現代資料中心採用混合網路架構:
技術選型不僅要考慮當前需求,還應預留未來升級路徑:
制定至少3-5年的技術演進規劃,確保資料中心網路架構能夠適應業務和技術的變化。
以亞馬遜AWS、微軟Azure和谷歌Cloud等大型雲服務提供商為例,它們通常採用以下策略:
以台灣國家高速網路與計算中心(NCHC)和國際頂級超算中心為例:
典型企業混合雲資料中心網路選擇:
網路速度將繼續提升,主要發展趨勢包括:
網路不再只是連接點,而是智能系統的一部分:
技術融合將成為主流趨勢:
雖然仍處於早期研究階段,量子網路可能在未來十年內開始影響資料中心設計:
資料中心網路技術的選擇沒有放之四海而皆準的答案,而是需要基於具體需求、應用場景和長期規劃做出平衡考量。InfiniBand憑藉其卓越的性能在高效能運算和AI領域保持領先地位;乙太網路則以其普及性、標準化和生態系統優勢在企業資料中心和雲環境中占據主導地位;Omni-Path和SlingShot等技術則在特定領域和應用場景中發揮重要作用。
隨著技術的發展和融合,資料中心網路架構正朝著更高速、更智能、更融合的方向演進。無論選擇哪種技術,確保網路架構能夠靈活適應不斷變化的業務需求和技術發展,才是資料中心設計的關鍵所在。
未來的資料中心網路將不再是簡單的連接媒介,而是整個數位基礎設施的神經系統,融合計算、存儲、安全和智能於一體。對於IT決策者而言,關鍵在於深入理解各技術的優缺點,結合組織的具體需求和長期發展規劃,制定兼顧當前實用性和未來擴展性的網路架構策略。
InfiniBand是專為高效能運算設計的低延遲、高頻寬網路技術,採用基於信用的流量控制確保無丟包傳輸;而乙太網路則是為通用網路設計的標準化技術,注重互操作性和普及性,傳統上基於丟包和重傳機制處理擁塞問題。
RoCE技術為乙太網路提供了RDMA能力,顯著提升了性能,但在極端低延遲和確定性方面仍與原生InfiniBand有差距。對於一般企業應用,RoCE可能已足夠;但對於超級電腦和高端HPC,InfiniBand仍具優勢。
大規模AI訓練通常選用InfiniBand,如NVIDIA DGX SuperPOD等系統,因為模型訓練過程中節點間需要頻繁通信,極低的延遲直接影響訓練效率和時間。但小型AI開發環境可使用高速乙太網路配合RoCE。
Omni-Path雖有技術優勢,但市場推廣時InfiniBand已佔據主導地位,加上英特爾戰略調整,導致生態系統發展不足。現在由Cornelis Networks繼續發展,在特定場景仍有應用價值。
SlingShot成功融合了乙太網路的互操作性和HPC網路的高性能特性,特別適合需要連接傳統IT基礎設施和高效能計算環境的場景,是HPE Cray超級電腦的核心差異化技術。
中小型企業通常最適合選擇乙太網路,具體速度(10/25/100GbE)取決於應用需求和預算。乙太網路擁有更廣泛的支援、更低的管理複雜度和更大的人才池,總擁有成本更有優勢。
未來十年可能看到:1)速度提升至800Gbps甚至1.6Tbps;2)AI驅動的自優化網路架構普及;3)計算、網路、存儲更深度融合;4)量子通信技術開始應用於資料中心;5)網路功能虛擬化和軟體定義更加普及。