智算集群的建設(shè)瓶頸,正在經(jīng)歷轉(zhuǎn)移。
過去兩年,行業(yè)還聚焦在算力規(guī)模上,仿佛誰拿到了更多GPU,誰就掌握了AI競爭的入場券。但當(dāng)萬卡集群逐漸落地,一個(gè)更隱蔽的瓶頸浮出水面:網(wǎng)絡(luò)。
中科曙光高級副總裁李斌算了這樣一筆賬:“原來以CPU為中心的計(jì)算單元,雙路的計(jì)算節(jié)點(diǎn)插一張網(wǎng)卡就夠了;現(xiàn)在以GPU為中心的計(jì)算節(jié)點(diǎn),一臺機(jī)器要配八張甚至更多的網(wǎng)卡。”
由此算下來,如今網(wǎng)絡(luò)的用量相比以往的數(shù)據(jù)中心,提高了十到二十倍。
數(shù)量膨脹背后,智算集群也對網(wǎng)絡(luò)性能提出更苛刻的要求:
萬卡集群的訓(xùn)練,需要網(wǎng)絡(luò)時(shí)延在納秒級內(nèi),且傳輸精度做到無損。而現(xiàn)實(shí)是,無論選擇英偉達(dá)主導(dǎo)的IB(InfiniBand)路線,還是運(yùn)維復(fù)雜的RoCE路線,國內(nèi)用戶都一定程度上“受制于人”。
![]()
正是這樣的背景下,中科曙光歷時(shí)三年推出國產(chǎn)原生IB架構(gòu)高速網(wǎng)絡(luò)產(chǎn)品scaleFabric,試圖在智算網(wǎng)絡(luò)的咽喉要道上,占據(jù)一席之地。
IB和RoCE,二分天下?
隨著AI需求飆漲,行業(yè)已經(jīng)逐漸發(fā)現(xiàn),大規(guī)模計(jì)算系統(tǒng)的效率不等于系統(tǒng)的峰值算力,在集群實(shí)際運(yùn)行中,接近一半的算力會被浪費(fèi)掉。
也就是說,單卡算力再強(qiáng),如果網(wǎng)絡(luò)無法在規(guī)定時(shí)間內(nèi)完成數(shù)據(jù)交換,大部分算力只能在等待中被浪費(fèi)。MFU(模型算力利用率)的天花板,很大程度上是由網(wǎng)絡(luò)決定的。
目前,萬卡集群高速互聯(lián)需求下,市場能滿足的技術(shù)路線主要有兩條:IB(InfiniBand)和RoCE(RDMA over Converged Ethernet)。前者是專為高性能計(jì)算設(shè)計(jì)的原生RDMA架構(gòu),后者則是基于以太網(wǎng)的RDMA技術(shù)方案。
過往,二者的場景和區(qū)別還比較涇渭分明:
IB性能卓越但價(jià)格昂貴,是超算和頂級AI集群的首選;RoCE成本較低,且互聯(lián)網(wǎng)廠商在CPU云時(shí)代便以以太網(wǎng)為基礎(chǔ),成熟的運(yùn)維體系也讓他們在智算時(shí)代更傾向于繼續(xù)沿用以太網(wǎng)路線。
然而,AI帶來算力需求爆發(fā)的當(dāng)下,隨著智算集群規(guī)模從千卡邁向萬卡甚至十萬卡,RoCE的先天短板開始顯現(xiàn)——
IB交換機(jī)采用VCT交換,可實(shí)現(xiàn)“邊收邊轉(zhuǎn)”,交換時(shí)延可控制在300納秒以內(nèi);而RoCE交換機(jī)則采用“存儲-轉(zhuǎn)發(fā)”交換,需完整接收數(shù)據(jù)包后再轉(zhuǎn)發(fā),時(shí)延普遍在500納秒以上。
在流量控制機(jī)制上,IB采用基于信用的精細(xì)化流控,發(fā)送前會確認(rèn)接收端資源,從根源避免丟包;RoCE依賴的PFC(Priority Flow Control)暫停機(jī)制則是粗粒度流控,容易出現(xiàn)丟包、PFC死鎖或風(fēng)暴,必須依賴擁塞控制且需人工調(diào)優(yōu)水線。
盡管RoCE廠商在追趕IB的性能,但用戶也已經(jīng)在“用腳投票”。例如,在感受到IB的性能優(yōu)勢后,微軟如今已開始將部分核心AI訓(xùn)練業(yè)務(wù)從以太轉(zhuǎn)向了IB。
然而,對于國內(nèi)智算用戶而言,選擇IB同樣面臨困境:
英偉達(dá)一家獨(dú)大,采購價(jià)格高昂,且供貨周期和產(chǎn)品迭代并不穩(wěn)定。并且,英偉達(dá)在B300等最新芯片中已標(biāo)配CX8網(wǎng)絡(luò)模塊,這意味著采購其芯片,往往就被強(qiáng)制綁定使用英偉達(dá)自家的IB網(wǎng)絡(luò)產(chǎn)品。
面對性能較遜色的RoCE與高價(jià)壟斷的IB,國產(chǎn)算力高速網(wǎng)絡(luò)需要一條新出路。
國產(chǎn)IB的正式突圍
中科曙光scaleFabric,試圖打破這一僵局。
這是國內(nèi)首款全棧自研原生IB架構(gòu)高速網(wǎng)絡(luò)產(chǎn)品:從底層的112G SerDes IP、交換芯片、網(wǎng)卡,到上層的交換機(jī)硬件和管理軟件,全是自主研發(fā)產(chǎn)品,歷時(shí)三年研發(fā)。
從公開的性能數(shù)據(jù)看,scaleFabric對標(biāo)的是英偉達(dá)目前主流的NDR(指 400Gb/s InfiniBand 網(wǎng)絡(luò))產(chǎn)品。
性能層面,中國科學(xué)院計(jì)算技術(shù)研究所王展表示,通信層面上,曙光的產(chǎn)品基本上和英偉達(dá)在同一水平。其端到端通信時(shí)延在0.93微秒,交換機(jī)轉(zhuǎn)發(fā)時(shí)延260納秒,與英偉達(dá)NDR持平;單端口帶寬達(dá)到800G,較RoCE主流交換機(jī)領(lǐng)先一到兩代,整機(jī)交換容量64T;在典型AI訓(xùn)練任務(wù)中,實(shí)測網(wǎng)絡(luò)效率提升40%以上。
可靠性層面,由于采用了原生IB的信用流控機(jī)制,scaleFabric實(shí)現(xiàn)了真無損網(wǎng)絡(luò),避免了RoCE方案中常見的PFC風(fēng)暴風(fēng)險(xiǎn)。曙光透露,該產(chǎn)品已在近萬卡規(guī)模的集群中持續(xù)穩(wěn)定運(yùn)行超過10個(gè)月。
當(dāng)然,對用戶而言,最敏感的變量依然是成本。曙光透露,在同等規(guī)模集群中,scaleFabric的整體網(wǎng)絡(luò)成本較進(jìn)口IB方案可降低約30%。
這一價(jià)格優(yōu)勢一旦被驗(yàn)證,RoCE賴以生存的“性價(jià)比護(hù)身符”將受到巨大沖擊。
不過,這套國產(chǎn)IB產(chǎn)品的誕生也并非坦途。
中科曙光高速網(wǎng)絡(luò)互聯(lián)產(chǎn)品部總工程師萬偉直言,研發(fā)中的第一個(gè)難點(diǎn)是鏈路技術(shù):起初大家想買現(xiàn)成的IB方案,但是根本不符合要求,最后只能招團(tuán)隊(duì)從零做起。
其次,在目標(biāo)設(shè)定上,團(tuán)隊(duì)并非簡單對標(biāo)英偉達(dá)IB,而是立志在關(guān)鍵規(guī)格上實(shí)現(xiàn)超越,這也帶來了巨大的技術(shù)挑戰(zhàn)。萬偉感慨,所幸團(tuán)隊(duì)最終在國家的支持下得以攻克難關(guān)、取得成功。
李斌補(bǔ)充說,當(dāng)前業(yè)界存在RoCE、ScaleOut、ScaleUP等多種技術(shù)路線,百花齊放,而曙光的選擇是在原生RDMA架構(gòu)基礎(chǔ)上,為超大規(guī)模系統(tǒng)上的性能和擴(kuò)展性做深度考量。
他對市場競爭格局有清醒的判斷:“目前這個(gè)市場的主要玩家還是英偉達(dá)。我們對于產(chǎn)品的定位,是期待在IB的技術(shù)路線能實(shí)現(xiàn)技術(shù)上的國產(chǎn)化替代,實(shí)現(xiàn)業(yè)務(wù)上真正的市場占比替代。我們希望打破一家獨(dú)大的局面,把整個(gè)技術(shù)做開放,市場的蛋糕大家共享。”
盡管英偉達(dá)的領(lǐng)先地位短期難以撼動,但國產(chǎn)IB的突破,已為智算網(wǎng)絡(luò)自主之路點(diǎn)亮希望。
雷峰網(wǎng)雷峰網(wǎng)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.