NVIDIA也與微軟、OpenAI等公司共同推出Multipath Reliable Connection(MRC)技術。MRC是一種RDMA傳輸協定,可讓單一RDMA連線同時透過多條網路路徑傳輸資料,藉此提升AI訓練網路的資料吞吐量、負載平衡與可用性。NVIDIA形容,MRC如同將原本單線道路升級為具備即時導航與分流能力的城市路網,可在網路壅塞或故障時即時改道。
OpenAI工業運算業務主管Sachin Katti表示,MRC在Blackwell世代部署成果相當成功,透過與NVIDIA緊密合作,有效降低大規模AI訓練過程中的網路延遲與中斷問題。
目前微軟Fairwater與Oracle OCI Abilene等大型AI資料中心,皆已採用MRC與Spectrum-X架構,用於訓練與部署大型語言模型。NVIDIA指出,MRC已在實際生產環境完成驗證,並透過開放運算計畫(OCP)以開放規格形式發布。
技術上,MRC可透過多路徑流量分散,維持高GPU使用率,即使面對網路壅塞,也能即時避開過載路徑,減少GPU閒置。系統也具備智慧重新傳輸與硬體級故障繞行能力,可在數微秒內偵測故障並重新導引流量,避免數千顆GPU同步訓練時因短暫網路異常導致整體效能下降。
此外,OpenAI也已部署多平面(Multiplane)網路設計,搭配Spectrum-X與MRC使用。透過多組獨立網路架構提供替代通訊路徑,再結合Spectrum-X的硬體加速負載平衡能力,可在擴展至數十萬顆GPU時,仍維持低延遲與高韌性。
NVIDIA表示,Spectrum-X平台可支援Adaptive RDMA、MRC及其他客製化協定,並原生運行於ConnectX SuperNIC與Spectrum-X交換器上,讓客戶能依不同AI工作負載選擇最適合的傳輸方案。
MRC並非由NVIDIA單獨開發,而是與AMD、Broadcom、Intel、微軟及OpenAI共同合作完成,顯示AI基礎設施競賽已從GPU本身,進一步延伸至網路與系統架構層級。
點擊閱讀下一則新聞