![]()
![]()
先說重點,
GPU計算不能等,網要好。
到底用哪種網,
這個問題成了關鍵。
而且,還有人誤會網絡不重要,
我得知:
一家國產知名大模型廠商,
就不說哪家了,
買了英偉達一萬張卡,
配的PCIe接口。
送命不至于,
就是吃虧。
我判斷:
2024年全球頭部GPU技術路標:
用超節點連起的10萬卡GPU集群。
那么問題來了,卡之間的連接,
用什么網?
我還判斷:
英偉達超節點(NVL72)引領下一輪組網架構,
除了英偉達以外的玩家,
他們往往被稱為“非英偉達廠商”
該如何應對?
言下之意明了,
AI網絡進入大爭之世,
各自為戰,還是聯盟合作?
這篇文章將探討,
多方玩家競爭與合作的可能。
目錄:
![]()
(一)機內機外“過時了“?
![]()
故事開始了。
無論別人信不信英偉達壟斷,
反正我信了。
當然可以說得保守點:
“有壟斷之嫌”。
英偉達壟斷了計算,
那是否壟斷了網絡?
在大規模GPU相互連接進行計算的情況下,
計算與網絡緊密交織,
性能不再是一個單一的概念。
![]()
英偉達服務器內部網絡是封閉玩法,
誰也不能自造一個網絡,
跟英偉達的拼起來用。
俗稱“拼桌。
不就是傳輸個數據包,還分派系了?
真是如此,
沒辦法,
科技廠商天然偏好各自為戰,
因為終極都追求“壟斷”。
如果哪天不這樣了,
一定是有什么強大力量,
讓他們痛苦了。
這是我一開始的想法,
只看到了其中一層,
現在我有了更深的理解,
后面會講。
![]()
你看,數據中心里的AI網絡,
網絡分兩種。
機內和機外。
不得不服氣的是,
短短幾個月,
我發現這種說法已經過時了。
沒辦法,技術又迭代了。
一個服務器是4卡8卡GPU的時期,
可以這樣說。
然而,當NVL72這種超節點產品來了,
這個說法就不準了。
“機內機外”容易造成誤解。
也就是,“機內機外”過時了。
這意味著,
一場新紛爭悄然揭幕。
兩句話說不清,
展開細聊。
![]()
話說回來,
GPU4卡8卡的時候,
機內互聯,集成度高,
網絡速度非常快。
打個比方,
一個服務器好比一間教室,
坐8個學生,互相傳作業
相當于,8張GPU卡用NVLink相連。
![]()
然而,想和其他教室傳作業,
網速就會慢。
有多慢呢?
服務器外的網絡(機外網絡),
比機內網絡慢了一個數量級。
![]()
除了快慢,
還有價格,
機內網絡比機外網絡貴多了。
結果很清楚,
英偉達賺了好多錢。
強需求,
又推著GPU了上了一新臺階。
英偉達拿出了產品GB200 NVL72,
下文簡稱NVL72。
這個產品一出現,
就引領了一個新方向,
在計算集群中,
每個節點通常包含多個 GPU 和處理器。
這里提到的 " NVL +數字" ,
指的是一個超大節點中GPU數量。
NVL36的節點有36個GPU。
同理,NVL576的節點有576個GPU。
讓人生氣的是,
國產暫時沒有能比肩的。
不過譚老師我可以喊話國產廠商:
“等著用,搞快點”。
![]()
英偉達NVL72的機柜就像一個大冰箱。
內部也挺復雜,
有72個GPU分別放在18張計算卡上,
一個計算卡,其實就是一個Tray(托架)。
而一張計算卡,
相當于一臺服務器。
這樣,每張計算卡里有4個GPU。
口算4 X 18=72,
相當于裝了72個GPU。
網絡也非常好,
72個GPU工作起來像一個。
這個東西再叫服務器,就不合適了,
那就叫超節點吧。
于是,新問題來了,
請問,這個超節點里面72個GPU用的什么網絡連接?
答案是選A,還是選B?
![]()
沒搞錯吧?
以前,機內和機外網絡。
以前,8個以上GPU就是Scale out網絡,
現在72個GPU了,
理應仍然是Scale out網絡。
為什么是Scale up網絡?
當超節點走進數據中心組網,
技術變了,爭議來了。
商機也來了。
(二)題好難
論單詞難度,
Scale up網絡,Scale out網絡
是高中英語考試的難度,
論技術難度,
一下沖到了阿里P7。
題這么難,都是NVL72造成的。
替我問候一下它。
![]()
技術上的變化到底是什么呢?
以前,Scale up網絡局限在服務器內部,
現在,NVL72里面明顯用到了服務器外面的網絡,
所以,是Scale up網絡。
不只叫法變了,
本質是網絡結構變了。
最初一個服務器有8個GPU,
所有GPU在同一個操作系統 (OS) 內,
這使得它們彼此訪問內存變得很自然,
類似于一個“共享內存”的環境。
當系統擴展到 72個GPU 時,
這些GPU要被分散到18個操作系統中,
但得益于硬核網絡支持,
它們分布在不同的操作系統 (OS)上,
且能跨多個操作系統 (OS)來進行操作。
比如,第一個操作系統 (OS),
直接“訪問”第 18 個操作系統 (OS)的內存。
所以,即便擴展到72個GPU,
繼續叫它Scale up網絡。
叫法并不是重點,
重點在于要設計新網絡結構,
部署新的Scale up網絡的設備,
這些都要花錢。
![]()
另一方面,
硬件有變化,
GPU有72個,
但這個說法不準確,
應該是B200這款GPU芯片,
而GB200而不是單一的GPU,
而是一種GPU計算系統,
以SuperPOD(超級節點)方式擴展大規模部署。
和美國關系好的那些人,
英偉達B200和GB200,
將在2024年第4季度,
和2025年第1季度,
陸續出貨。
英偉達B300系列產品,
將按計劃2025年第2季度至第3季度,
開始出貨。
![]()
不僅如此,硬件變化還包括,
以前,“機內網絡”高度集成,
GPU和交換機芯片集成在一起,
現在,交換機芯片單獨出來了。
這些變化都歸結在一個難點上,
到底怎么互聯?
第一,一臺服務器里有8張GPU(H100),
第二,增加到72張GPU(NVL72),
第三,將來還會塞288個,576個GPU,
第四,甚至再塞1152個GPU。
![]()
從NVL72開始,
英偉達提出讓Scale up網絡沖出服務器邊界。
這樣,NVL72網絡的就在服務器外面了。
好消息是,
網速是快了,
更好消息是,
延續了機內比機外貴的“光榮傳統”,
Scale up網絡的價格,
也比Scale out網絡貴了一個數量級。
誰不高興利潤高呢?
好好干活,
把錢賺了。
可是,別讓英偉達一個人把錢賺了。
寫到這里,
該總結一下了:
網絡有變,錢多,速來。
(三)NVL72組網,數學題不會就是不會
硬件總會壞,沒辦法,
都想把GPU往死用。
前不久,Meta公司說1.6萬卡GPU集群搞訓練,
大概每隔2-3個小時就掛死一次,
這是什么概念?
我們假定任務重啟耗時15分鐘,
那這個占比就將近1/10。
當這個集群變成10萬卡,
30分鐘掛起一次,
15分鐘解決故障,
白費50%的時間。
而且這個硬件故障率,
短時間內不會有根本性改變。
![]()
不過,有了超節點NVL72,
情況好轉了一點,
NVL72里面,
是Scale up網絡互聯,
也就是超高速互聯。
以前,
一個服務器里8張GPU,
1張GPU卡壞了,
整個服務器就掛了。
現在,
一個服務器里面有18張計算卡,
(也就是托架,英文Tray),
一張GPU卡壞了,
還有17個計算卡可以繼續用,
故障范圍變小了。
NVL72擴大成NVL576呢?
這么多設備,
網絡肯定復雜了,
得考慮,
NVL72組網的架構怎么設計?
肯定需要多層的網絡設計。
感覺進入譚老師我不擅長之處了。
![]()
NLV576作為一個超級大的節點,
我口算一下NVL 576的網絡架構:
576=72x8
果然算錯了,
正確的算法是:
576=36 X 16,
為什么呢?
因為設備數量超過一個機架(Rack)的容量,
就需要2級組網。
引入交換機,
用交換機支持多個機架之間的通信和數據傳輸,
而每個交換機的端口數有限。
網絡在擴展,
但也會導致端口利用率的降低。
舉個例子,NVL576由16臺NVL36組成。
它的網絡結構,需引入2級交換機,
一層NV Switch上面還要再加一層NV Switch。
NV Switch之間還需要互聯,
占了一半端口。
也就是說,
不能所有的端口都連在GPU上,
留有端口連2級交換機,
所以,要空出來36個口,
讓它們去連交換機。
復雜吧。
![]()
不過,花開兩朵,各表一枝,
交換機多了,
客戶要建更復雜的網絡,
花更多的錢。
這里,用數學中的拓撲,
來分析節點之間的互聯結構和路徑優化。
阿里云智能集團研究員席永青告訴我一些細節:
“比如,模型訓練時候的資源分布,
跟網絡拓撲做一定的親和性,
可以使訓練效果更好。”
10萬卡的網絡的難題,
頂級卡規模團隊訓練必須要搞定,
目前最關心這個了,
是時候考驗團隊技術水平了,
大老板們可能會用這個技術難點做年終OKR。
![]()
寫到這里,
故事基本講完了,
若想理解更深,
需往前追溯“網絡一戰”。
(四)回顧 “網絡一戰”,勝負已分
在下手寫網絡“一戰”之前,
作為一個科技科普作者,
我必須表達一下對以太網的崇敬,
盡管計算機經歷了多次重大變革,
但以太網一直以來都在改進
對技術變革的適應性極強。
我今天講的這段,
只是以太網歷史長河中的一朵浪花。
浪花淘盡英雄,
不愧為世界上應用最廣泛的網絡技術,
以太網的發明者也說:
“將以太網設計為一個開放的、非專有的、
產業化標準的本地網絡的意義,
甚至大于發明以太網本身。”
至于AI網絡,
在4卡8卡的那個時期,
就需要高性能網絡了,
而且有兩股技術力量在較量,
InfiniBand(IB)網絡和以太網(RoCE)。
![]()
不用多說,
大家應該看出來我站哪邊了,
從古至今,勝利從來都不是輕而易得的。
IB是英偉達買下了Mellanox公司,
進而獲得了該技術。
我認為,IB挑戰以太網,
是獲得了一些先機。
但是先機不代表勝利。
IB幫英偉達賺到了大錢。
畢竟,IB這種網絡是英偉達專有,
專有意味著,
專有了技術,
專有了設備及連接部件。
這樣玩,肯定封閉了。
話說兩頭,封閉某種程度上確實賺錢,
但也會限制發展。
輸贏不在一時,
經過幾年激烈競爭,
以太網(RoCE)贏了。
誰叫人家以太網(RoCE)是開放標準呢,
可跑在任何以太網硬件(支持RoCE)上。
“任何”兩個字語氣加重。
想想換昂貴設備的成本,
語氣還得再沉痛一些。
畢竟,賊船好上,不好下。
RoCE被視為在以太網的基礎上,
實現了更高效的數據傳輸。
你也可以不理解RoCE的技術原理
簡單說,以太網(RoCE)贏在開放,
朋友多,生態大。
其實競爭還是比拼了性價比。
雖然太網(RoCE)有暗坑,
對技術團隊的要求也高,
但是,誰讓人家主打一個性價比呢?
![]()
再講一個錯誤的理解,
有人總說,英偉達這好那好,
對英偉達只會猛夸,
英偉達的IB網絡也最好。
實際上,以太網(RoCE)在萬卡規模,
已經暗暗贏了。
現在馬上進入72卡GPU的時期,
網絡“一戰”的硝煙似乎沒有消散。
我在寫網絡“一戰”的時候,
我的觀察是,
互聯網自誕生之日起就主打一個開放,
就像兩個人聊天,不能雞同鴨講,
不同廠商的設備之間,
也需要有“標準語言”來進行“連接”。
因此,一種組織應運而生,
幫大家一起合作,
畢竟,實力固然重要,
聯合起來能更厲害,
接下來,我將討論這種有影響力的聯盟,
它在網絡技術中如何發揮不可或缺的力量。
(五)激進的五大玩家
“網絡二戰”早就打響了第一槍,
戰場就是Scale up網絡。
新一輪網絡技術之間的較量又開始了,
參與的玩家很多,
準確地說,他們是“非英偉達玩家”。
到底怎么玩呢?
假如每家都搞“私有化網絡”,
場面有點尷尬,
不如這樣,
還是基于以太網開放標準的改造,
既解決Scale up網絡的難題,
也對抗英偉達一家獨大。
![]()
以太網標準就像是制定了規則,
比如道路的寬度、車速的限制等,
保證不同公司的“車輛”都可以在這個“道路”上跑。
這個派系,依賴于以太網的基礎設施,
不僅有實力的廠商非常多,
而且還有專門的聯盟。
比如,超以太網聯盟,
UEC, Ultra Ethernet Consortium。
就是一個由科技巨頭組成的聯盟,
創建了一個開放標準來對抗英偉達。
我再細數一下,
非常激進的五大廠商的玩法,
當然,他們都是UEC聯盟成員。
第一,Meta公司。
LLAMA 3.1模型,
開源最好的模型,
堅定地選擇以太網。
第二,AMD公司。
有人認為英偉達這好那好 ,
無人能抗衡。
其實,AMD的GPU實力也在積蓄,
而且,AMD也有類似NVLink的技術,
叫Infinity Fabric(IF),
但沒有做類似于NV Switch這樣專屬技術。
而在基于以太網發展網絡,
即IF over Ethernet。
這是另外一個故事了,
找機會再細聊。
第三,特斯拉公司。
馬斯克特斯拉Tesla Dojo ,
發展出基于以太網的自定義傳輸協議(TTPoE)。
幾個大公司都有自研協議,替代RoCE和NVLINK,
當然RoCE 自己也在提升。
有人批評特斯拉,說它是做車的,搞網絡不擅長。
它家剛出道的時候,做車也不擅長,
看看今天什么局面。
![]()
第四,xAI公司。
馬斯克xAI10萬卡單集群網絡,也基于以太網。
馬斯克可能是第一個,
也是唯一一個,
自動駕駛和AI大模型智算知識產權都有的老板。
沒辦法,首富唄。
第五,阿里云公司。
阿里云是AI大模型網絡頂配玩家,
數據中心早期入局者,
阿里云自研的通義大模型開源閉源通吃。
因此,阿里云得拿出來單聊,
他們近期還有一些大動作。
(六)各自為戰 or 聯合起來
大爭之世,“聯”合起來非常重要,
號召聯合的前提是技術牛,
甚至說,技術牛,是聯合各方力量的一種資格。
![]()
發起聯盟,
基因和技術領先性都很重要。
阿里云是超以太網聯能盟(UEC)
技術咨詢委員會里唯一的中國公司,
也是網絡開源操作系統SONiC創始成員中唯一的中國公司,
有開放標準聯盟的基因。
而且,技術沉淀久。
ACM SIGCOMM這個學術會議,
是網絡通信領域全球最具影響力的會議之一
論文錄取率非常低,
其中網絡架構的論文發表更難,
上一次該會發表的數據中心網絡架構方向的論文,
還是2015年(谷歌Jupiter)。
阿里云在2019年在 SIGCOMM 上,
發表的首篇論文,
也是該頂會有史以來中國大陸企業“中”的第一篇。
2024年,HPN7.0架構論文在 SIGCOMM 發表,
開啟了智算數據中心網絡架構的新范式。
通義大模型的底層也使用該架構。
這是阿里云基礎設施里的一個法寶。
![]()
為此,我求教了阿里云智能集團研究員付斌章,
他告訴我,
對于超大規模的這種訓練,
要求可靠性高,
HPN7.0架構如何來保證可靠性呢?
它有個獨有的雙上聯技術。
在這個架構里,
每個網卡會出兩個端口,
一個路徑壞了,
可走另外一個路徑。
否則如果這一個端口掛了,
這個任務就停掉了。
英偉達默認只有一個端口,
而阿里云(比如PAI靈駿產品),
也用上了雙上聯組網技術,
每個網卡的兩個端口,
分別接到兩個交換機上,
在連接出現故障時可自動切換,
保證網絡可用性。
技術原理是兩個端口對應兩個平面,
如圖所示。
![]()
學霸移步點擊這里有雙上聯技術詳細介紹
付斌章研究員還告訴我,
阿里云是全球最早做出51.2T這個容量的,
大規模商業用交換機。
我相信,從名字也可以看出來,
高通量以太網是在以太網這個公共組件上改造,
搞開放標準的聯盟,
我猜想,他們的口號可能呼之欲出了:
全球伙伴(非英偉達玩家)聯合起來,
打造智算網絡的“安卓(Android)”生態。
實際上,他們的聯盟愿景是,
基于開放、強大的以太網生態,
打造智算網絡的技術底座,
滿足Scale out和Scale up網絡,
對性能、成本和可靠性的要求。
我認為,高通量以太網等于UEC加UAL的中國版。
(七)附加題:單聊UAL
天下網絡,
合久必分,分久必合。
IB以太網之爭剛剛謝幕,
以太網交換機市場又將迎來新戰場。
蒙著一點神秘的面紗的UAL(Ultra Accelerator Link),
也加入了戰局。
標準沒有發布,
所以說,UAL蒙著神秘面紗。
10月30日,
UAL正式成立,新聞標題直接喊話英偉達
《UALink 聯盟準備與英偉達NVLink競爭》
且UAL有九大董事會成員,
來勢洶洶,
可惜沒有博通。
大爭之世,
到處紛爭,
外部爭,內部也爭,
據“親愛的數據”獨家消息,
在UAL 聯盟內部,已經改革了一次,
UAL Switch拋棄了“PCIE Switch” 道路,
也轉向以太網,
這點還是相當有前瞻性,
Scale-up 網絡規模越來越大,
我猜想,
可能某天就和Scale-out網絡合了,
畢竟,成本和性價比才是發展的硬道理。
AI大模型莫不例外,
只有基于共同的以太網,
才有合的可能。
![]()
One more thing
開頭我提到的那家知名大模型公司,
能不能亡羊補牢?
能補買NVLink,NVSwitch嗎?
答案很悲劇,
不能。
雖然GPU算力部分一樣,
但是設備在IO接口中,
沒有NVlink的接口,
只有PCIe的接口。
(完)
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.