過去幾年,大模型競賽不斷刷新人們對算力規模的認知。從最初的百卡集群,到如今動輒萬卡、數萬卡的訓練系統,AI基礎設施正在經歷一次堪比高性能計算發展的結構性躍遷。
![]()
很多業內人士最初以為,大模型訓練的核心變量只是GPU數量。但真正參與過大型訓練平臺建設的工程師們往往會得出另一個結論:決定系統效率的,不只是算力芯片,而是整個集群的互聯網絡;在百卡時代,網絡只是一個配套組件,而到了萬卡時代,則變成了決定系統上限的關鍵變量。
在這一背景下,高速互聯網絡開始成為AI基礎設施的核心競爭力之一。但事實卻是,長期以來,全球高端AI集群普遍采用InfiniBand架構,而在國內,隨著AI算力規模持續擴大,一條被業內稱為“國產IB路線”的技術路徑正在逐漸形成。令人驚喜的是,隨著國產原生RDMA網絡scaleFabric的發布以及萬卡集群的落地運行,這一技術路徑已經從實驗室走向真實應用。
模型訓練走向萬卡規模,網絡互聯決定成敗
如果把大模型訓練比作一條高速公路,那么GPU就是車輛,而高速互聯網絡則是道路系統。當車輛數量只有幾十輛時,道路并不會成為問題,但當車流量上升到成千上萬時,路網結構就會直接決定整體效率。具體到AI訓練系統,這種所謂的“交通壓力”則來自于分布式訓練機制。
眾所周知,如今的大模型幾乎全部采用分布式并行訓練,模型參數被拆分到大量計算節點上,每一輪訓練都需要在不同節點之間同步梯度數據,而隨著模型規模擴大和并行度提升,節點之間的數據交換量呈指數級增長。
![]()
例如在一些超大規模訓練任務中,網絡通信時間甚至會占到整體訓練時間的30%—50%,這意味著,如果沒有一套極低延遲、極高帶寬且能實現“無損”傳輸的互聯架構,花費巨資建設的萬卡集群本質上只是一個效率低下的“算力黑洞”。
事實是,很多工程師在第一次接觸萬卡集群時都會遇到類似問題,主要體現在GPU算力明明充足,但訓練效率卻遠低于預期,最終排查發現,瓶頸往往不在計算,而是通信。
對此,某AI基礎設施架構師強調,他們早期在一個萬卡訓練平臺上做測試時,GPU利用率一度只有40%左右。團隊最初懷疑是訓練框架問題,后來通過網絡分析工具才發現,節點之間的大量AllReduce通信被網絡延遲拖慢,導致GPU大量時間在等待數據。
![]()
正是上述這種對連接性的極致追求,直接催生了對RDMA(遠程直接內存訪問)網絡技術的剛性需求。
RDMA允許服務器之間直接訪問彼此內存,而不需要經過操作系統和CPU的數據拷貝,從而顯著降低延遲并提高帶寬利用率,同時憑借低延遲和無損傳輸特性,已經成為大型算力中心的基礎設施核心。而在在過去二十多年里,InfiniBand一直是這一領域的主導技術。據高性能計算榜單統計,全球約60%的超級計算機系統都采用InfiniBand互聯架構。
但隨之而來的挑戰是,當AI訓練規模從幾千卡走向數萬卡時,傳統網絡體系開始逐漸接近設計邊界。最典型的表現就是規模擴展能力。例如InfiniBand的地址空間設計限制其單子網規模大約在五萬卡以內,而隨著AI模型規模不斷膨脹,越來越多的算力中心開始規劃十萬卡級甚至更大規模的訓練平臺,這使得傳統IB架構在擴展性上逐漸逼近極限。
與此同時,國內算力基礎設施建設還面臨另一個現實問題,即InfiniBand產業鏈長期由海外廠商主導,從高速SerDes IP到交換芯片、網卡設備都高度集中在少數廠商手中。而在算力逐漸成為國家級基礎設施的背景下,這種依賴顯然難以持續。
正是在這樣需求背景的推動下,國內開始探索自主RDMA網絡技術,一條被業內稱為“國產IB”的路線逐漸形成。
從追趕到重新定義萬卡網絡,國產IB路線的自主突圍
在很多工程師看來,國產IB并非簡單復制InfiniBand,而是在吸收其核心理念的基礎上,為AI訓練場景重新設計網絡架構。換言之,以scaleFabric為代表的國產原生RDMA網絡,其目標非常明確,那就是構建一套能夠支撐超大規模AI集群的高速互聯系統,并實現從底層芯片到軟件棧的完整自主研發。
![]()
與市面上許多基于商用IP授權或成熟以太網方案進行改良的路徑不同,scaleFabric選擇了從最底層的112G SerDes IP開始,到交換芯片、網卡硬件,再到ScaleOS網絡協議棧的全棧自研路徑。盡管這種“推倒重來”的做法在初期固然艱難,但在進入萬卡實戰階段后,其爆發出的技術紅利讓一線架構師們感到振奮。
以系統核心的兩顆自研芯片為例,一顆400G RDMA網卡芯片以及一顆高性能交換芯片,均基于自主研發的112G SerDes技術,實現高速信號傳輸和低誤碼率通信。而在實際性能指標上,這套系統已經達到國際主流水平。其中網卡單端口帶寬達到400Gbps,實測帶寬接近397Gbps,端到端通信延遲約0.9微秒,交換機轉發延遲約260納秒。這意味著,在基礎通信能力上,國產RDMA網絡已經能夠與當前主流的NDR InfiniBand系統處于同一量級。
但真正體現技術差異的地方,則在于其面向萬卡集群的架構設計。
首先是擴展能力的重新設計。通過對網絡地址空間和協議結構的優化,國產RDMA網絡可以支持超過11萬卡的單子網規模,大約是傳統InfiniBand系統上限的2.3倍,這為未來十萬卡級AI集群提供了更大的擴展空間。
其次是并發通信能力。在大規模訓練中,網絡需要同時維護大量通信連接,連接數量直接影響系統并發能力。而國產RDMA網卡的QP數量達到85萬以上,遠高于傳統IB網卡水平,使系統能夠支持更多并行通信任務,尤其在面對超大規模AI集群的密集全對全(All-to-All)通信場景時,展現出極強的吞吐韌性,確保了在萬卡規模下,網絡連接不會因為資源耗盡而產生崩潰。
最后的關鍵創新是網絡無損機制。在工程師看來,AI訓練集群最怕的不是帶寬不足,而是丟包。因為一旦發生丟包,RDMA就需要重新傳輸數據,這在萬卡規模下極易引發性能雪崩。針對于此,傳統以太網方案通常依賴PFC機制保證無損,但這種方式在大規模環境中容易引發擁塞風暴。為解決這一問題,國產IB方案提出了iLossless智能無損網絡,并結合SuperTunnel通信優化體系,從應用層、傳輸層和網絡層三個維度優化通信效率。例如系統可以自動識別AllReduce通信模式,根據拓撲動態調度帶寬,并通過硬件卸載減少CPU參與,從而提升整體通信效率。
所謂事實勝于雄辯。從目前已披露的信息來看,scaleFabric網絡在部分萬卡集群中已連續穩定運行超過數月,在輻照材料分子動力學軟件模擬等場景中,當集群從千卡擴展到萬卡時,并行效率依然能維持在80%–86%的區間;在堆芯流體力學軟件的復雜測試中,通信開銷從約50%壓縮到10%左右,這些數據無疑為“真無損”提供了初步工程層面的支撐。
當然,從客觀的角度,我們也必須正視差距。畢竟國際頂尖方案在生態成熟度、全球化部署的驗證廣度以及與CUDA軟件棧的底層融合上,仍具有深厚的壁壘。相較之下,國產方案目前仍處于從“跑通”向“跑好”的關鍵跨越期。
盡管如此,國產IB在更高的端口密度、更低的整體組網成本以及更大的網絡規模擴展能力已經展現出明顯的優勢。
更重要的是,由于scaleFabric擁有完整IP自主權,它能夠支持更加靈活的網絡架構設計。例如在自動駕駛等對Checkpoint寫入頻率要求極高的訓練場景中,系統可以定制化分配存儲I/O帶寬與計算同步帶寬。而在不少工程師眼中,這種“可定義網絡”的能力,正是國產高性能網絡在真實應用中實現彎道超車的重要基礎。
重塑AI基座,國產IB路線的當下與未來
當我們把視線從具體的芯片參數移開,審視scaleFabric對于中國AI基礎設施的整體影響時,會發現其意義已經超越了單一的產品范疇。
如果說幾年前行業談論國產化更多還停留在“有沒有替代方案”的階段,那么在萬卡級算力機房里,工程師們感受到的變化已經逐漸從“替代”走向“重構”。而當網絡這條“算力大動脈”從芯片、協議到管理軟件都掌握在自己手中時,很多原本被視為既定約束的系統邊界,也開始變成可以重新設計的變量。
例如,傳統InfiniBand單子網規模長期被認為大約在五萬卡左右,工程師在設計集群時往往會在這一規模附近止步。而國產IB通過對地址編碼與路由體系的重新設計,將這一規模上限擴展到了11萬卡級別。這個數字或許暫時不會馬上被完全用滿,但它釋放出的信號卻十分清晰,即未來在規劃區域級乃至跨中心AI集群時,網絡規模不再先天受限。
與此同時,這條技術路線也正在改變AI基礎設施的工程實踐方式。例如在已經投入運行的鄭州萬卡集群項目中,給不少業內人士留下深刻印象的不只是算力規模,而是部署效率。從網絡設備進場到萬卡規模訓練任務真正跑起來,整個過程只用了大約30小時的時間,再配合自動拓撲發現、集中版本管理、主動壓測以及數字孿生可視化運維體系,過去需要數周時間逐一校對鏈路、人工執行壓測腳本的工作,如今已經被壓縮成一套高度自動化的流程。而這種“交付難度曲線被壓平”的變化,對于那些同時承擔多個算力項目卻長期面臨運維人手不足的團隊而言,意味著未來可以更加大膽地規劃多套萬卡甚至十萬卡級集群,而不必每次都擔心運維復雜度失控。
至于更長遠的影響,則體現在AI基礎設施整體形態的變化上。當算力、存儲和網絡三大子系統逐步實現自主可控之后,工程師的想象空間不再局限于“按既有架構堆接口”,而是能夠圍繞具體業務場景進行更深層次的協同設計。例如在自動駕駛數據訓練中心,可以針對高頻Checkpoint和海量日志回傳,對計算、存儲與網絡進行聯合調度;在科研和超算場景中,也可以為不同規模作業預配置Fabric網絡切片,讓網絡行為像操作系統資源調度一樣精細而可控。
值得一提的是,目前這些設想已經在部分試點項目中開始出現,而國產IB所提供的可編程能力與開放接口,正是實現這種“算網一體化”探索的重要基礎。
![]()
最后,從更宏觀的產業視角來看,高速互聯網絡的自主能力不僅關系到單個數據中心的性能上限,也將影響未來全國算力資源如何進行跨區域高效協同。而隨著多個國家算力樞紐和智算中心陸續落地,算力中心之間的互聯方式、協議體系以及運維能力,都將在相當長一段時間里影響大模型訓練效率與AI應用創新速度。
在上述背景下,國產IB路線的出現,某種意義上是在為未來十年的算力“高速公路網”鋪設路基。一方面,通過推動行業標準與開放生態的形成,讓不同廠商的算力芯片、服務器與存儲系統能夠在統一互聯規范下協同演進,避免整個產業長期受制于單一封閉協議體系;另一方面,也讓中國企業在參與國際技術標準討論時,手中不再只是理論方案,而是已經在真實生產環境中運行的大規模工程實踐。
寫在最后:過去,國內AI基礎設施更多依賴國外技術體系,而隨著國產RDMA網絡、國產AI芯片以及國產并行存儲逐漸成熟,一套完整的國產算力基礎設施體系正在形成。需要說明的是,這種體系并不是簡單替代國外產品,而是在某些維度上形成新的技術路線。例如更大的網絡規模、更靈活的通信優化機制以及更低的整體成本結構,都為未來大規模AI訓練提供了新的可能性。
展望未來,萬卡時代的基礎設施革命才剛剛開始,高速互聯網絡,很可能成為決定未來算力競爭格局的關鍵一環,而伴隨中科曙光下一代交換芯片的研發已在路上,我們正在通過scaleFabric這樣的實踐,定義出一套符合中國AI產業需求、具有韌性的技術標準。正如某架構師所言:“我們現在做的事,不是簡單的復制,而是用我們自己的方式,去翻越那座名為‘算力巔峰’的高山。路可能不一樣,但我們終將到達相同的終點。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.