隨著AI大模型邁入萬億參數時代,算力集群從千卡向萬卡乃至十萬卡規模演進,網絡互連已成為決定訓練效率的關鍵瓶頸。RDMA(遠程直接內存訪問)技術通過繞過CPU、實現內存直通,為智算中心提供了超低延遲、高帶寬的數據傳輸能力。當前,主流的RDMA實現路徑分為兩大體系:InfiniBand(IB)與RoCE(RDMA over Converged Ethernet)。二者均以RDMA為核心,卻在架構設計、性能表現與適用場景上存在本質差異。
一、InfiniBand(IB)網絡
技術概述
InfiniBand 是一種專為高性能計算設計的原生RDMA網絡,擁有獨立的協議棧和專用交換芯片。它從物理層到傳輸層均為無損網絡而生,通過硬件級的信用流控機制,確保數據在傳輸過程中絕不丟包。
關鍵特性
專用硬件:采用InfiniBand交換機與HCA(主機通道適配器),非以太網生態。
信用流控:基于信用的鏈路層流控,從源頭避免緩沖區溢出,實現真正無損。
集中管理:由子網管理器(SM)統一配置路由與轉發,網絡狀態全局可控。
極低延遲:交換機直通轉發,延遲低至100ns級,端到端延遲可穩定在1-2μs。
優點
? 性能極致:400G/800G(NDR)帶寬,可支撐十萬節點級超大規模集群。
? 無損可靠:內建擁塞控制和鏈路級重傳,訓練任務無需擔憂丟包。
? 即插即用:配置簡單,開箱即用,無需繁瑣調優。
缺點
? 成本高昂:專用設備與線纜價格遠超以太網方案。
? 供應商鎖定:主要由NVIDIA/Mellanox壟斷,國產供應鏈缺失。
二、RoCE(RDMA over Converged Ethernet)網絡
技術概述
RoCE 旨在標準以太網上實現RDMA,v2版本基于UDP/IP封裝,使其可路由、可跨網段通信。它通過引入PFC(優先級流控)、ECN(顯式擁塞通知)等機制,在傳統有損以太網上營造無損環境。
關鍵特性
以太網兼容:復用現有交換機與網卡,降低硬件采購成本。
無損補丁:依賴PFC、ECN、DCQCN等技術防止丟包,需精細調參。
三層路由:RoCEv2支持跨子網通信,適配數據中心網絡架構。
優點
? 成本親民:采用標準以太網設備,總體擁有成本較低。
? 靈活擴展:可與IP網絡共存,適合混合負載的云數據中心。
? 供應鏈多元:避免單一供應商依賴,國產廠商已大量布局。
缺點
? 配置復雜:PFC死鎖、ECN水線調整高度依賴運維經驗,易出故障。
? 延遲稍高:交換機需存儲轉發,延遲300-500ns,端到端3-5μs。
? 擴展受限:跨POD通信性能衰減明顯,通常不推薦萬卡以上規模。
三、國產突破:原生IB賽道崛起
IB與RoCE并非簡單的替代關系,而是智算網絡不同場景下的理性選擇。RoCE憑借成本與生態優勢,將在中小規模及混合負載場景持續占據一席之地;而IB憑借極致性能,始終是頂級超算與萬卡級AI集群的“皇冠明珠”。
長期以來,國內廠商多聚焦于RoCE優化,試圖通過軟件調優彌合與IB的性能鴻溝。然而,RoCE基于以太網的先天缺陷使其在超大規模集群中難以匹敵IB的原生無損優勢。真正的RDMA無法被“模擬”,唯有從底層架構重構,才能突破天花板。
近期外網爆料引發廣泛關注,據悉,中國科技巨頭正在構建基于InfiniBand的專有RDMA技術,直接挑戰英偉達在互連技術領域的主導地位。
國產原生IB的突破,標志著中國首次擁有從芯片到系統的完整無損網絡能力,有望打破海外壟斷,補齊智算產業鏈的關鍵一環。正如知情人士所言,當向中國銷售高端GPU的難度日益增加之時,國產互連技術的崛起,正在為自主AI算力底座鋪就一條堅實的道路。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.