成本下探30%，中科曙光IB產(chǎn)品沖擊RoCE性價(jià)比「護(hù)城河」

推理領(lǐng)域存在CUDA護(hù)城河嗎

2026-03-18 17:36:17　來源: 雷峰網(wǎng)

北京舉報(bào)

分享至

智算集群的建設(shè)瓶頸，正在經(jīng)歷轉(zhuǎn)移。

過去兩年，行業(yè)還聚焦在算力規(guī)模上，仿佛誰拿到了更多GPU，誰就掌握了AI競爭的入場券。但當(dāng)萬卡集群逐漸落地，一個(gè)更隱蔽的瓶頸浮出水面：網(wǎng)絡(luò)。

中科曙光高級副總裁李斌算了這樣一筆賬：“原來以CPU為中心的計(jì)算單元，雙路的計(jì)算節(jié)點(diǎn)插一張網(wǎng)卡就夠了；現(xiàn)在以GPU為中心的計(jì)算節(jié)點(diǎn)，一臺機(jī)器要配八張甚至更多的網(wǎng)卡。”

由此算下來，如今網(wǎng)絡(luò)的用量相比以往的數(shù)據(jù)中心，提高了十到二十倍。

數(shù)量膨脹背后，智算集群也對網(wǎng)絡(luò)性能提出更苛刻的要求：

萬卡集群的訓(xùn)練，需要網(wǎng)絡(luò)時(shí)延在納秒級內(nèi)，且傳輸精度做到無損。而現(xiàn)實(shí)是，無論選擇英偉達(dá)主導(dǎo)的IB（InfiniBand）路線，還是運(yùn)維復(fù)雜的RoCE路線，國內(nèi)用戶都一定程度上“受制于人”。

正是這樣的背景下，中科曙光歷時(shí)三年推出國產(chǎn)原生IB架構(gòu)高速網(wǎng)絡(luò)產(chǎn)品scaleFabric，試圖在智算網(wǎng)絡(luò)的咽喉要道上，占據(jù)一席之地。

IB和RoCE，二分天下？

隨著AI需求飆漲，行業(yè)已經(jīng)逐漸發(fā)現(xiàn)，大規(guī)模計(jì)算系統(tǒng)的效率不等于系統(tǒng)的峰值算力，在集群實(shí)際運(yùn)行中，接近一半的算力會被浪費(fèi)掉。

也就是說，單卡算力再強(qiáng)，如果網(wǎng)絡(luò)無法在規(guī)定時(shí)間內(nèi)完成數(shù)據(jù)交換，大部分算力只能在等待中被浪費(fèi)。MFU（模型算力利用率）的天花板，很大程度上是由網(wǎng)絡(luò)決定的。

目前，萬卡集群高速互聯(lián)需求下，市場能滿足的技術(shù)路線主要有兩條：IB（InfiniBand）和RoCE（RDMA over Converged Ethernet）。前者是專為高性能計(jì)算設(shè)計(jì)的原生RDMA架構(gòu)，后者則是基于以太網(wǎng)的RDMA技術(shù)方案。

過往，二者的場景和區(qū)別還比較涇渭分明：

IB性能卓越但價(jià)格昂貴，是超算和頂級AI集群的首選；RoCE成本較低，且互聯(lián)網(wǎng)廠商在CPU云時(shí)代便以以太網(wǎng)為基礎(chǔ)，成熟的運(yùn)維體系也讓他們在智算時(shí)代更傾向于繼續(xù)沿用以太網(wǎng)路線。

然而，AI帶來算力需求爆發(fā)的當(dāng)下，隨著智算集群規(guī)模從千卡邁向萬卡甚至十萬卡，RoCE的先天短板開始顯現(xiàn)——

IB交換機(jī)采用VCT交換，可實(shí)現(xiàn)“邊收邊轉(zhuǎn)”，交換時(shí)延可控制在300納秒以內(nèi)；而RoCE交換機(jī)則采用“存儲-轉(zhuǎn)發(fā)”交換，需完整接收數(shù)據(jù)包后再轉(zhuǎn)發(fā)，時(shí)延普遍在500納秒以上。

在流量控制機(jī)制上，IB采用基于信用的精細(xì)化流控，發(fā)送前會確認(rèn)接收端資源，從根源避免丟包；RoCE依賴的PFC（Priority Flow Control）暫停機(jī)制則是粗粒度流控，容易出現(xiàn)丟包、PFC死鎖或風(fēng)暴，必須依賴擁塞控制且需人工調(diào)優(yōu)水線。

盡管RoCE廠商在追趕IB的性能，但用戶也已經(jīng)在“用腳投票”。例如，在感受到IB的性能優(yōu)勢后，微軟如今已開始將部分核心AI訓(xùn)練業(yè)務(wù)從以太轉(zhuǎn)向了IB。

然而，對于國內(nèi)智算用戶而言，選擇IB同樣面臨困境：

英偉達(dá)一家獨(dú)大，采購價(jià)格高昂，且供貨周期和產(chǎn)品迭代并不穩(wěn)定。并且，英偉達(dá)在B300等最新芯片中已標(biāo)配CX8網(wǎng)絡(luò)模塊，這意味著采購其芯片，往往就被強(qiáng)制綁定使用英偉達(dá)自家的IB網(wǎng)絡(luò)產(chǎn)品。

面對性能較遜色的RoCE與高價(jià)壟斷的IB，國產(chǎn)算力高速網(wǎng)絡(luò)需要一條新出路。

國產(chǎn)IB的正式突圍

中科曙光scaleFabric，試圖打破這一僵局。

這是國內(nèi)首款全棧自研原生IB架構(gòu)高速網(wǎng)絡(luò)產(chǎn)品：從底層的112G SerDes IP、交換芯片、網(wǎng)卡，到上層的交換機(jī)硬件和管理軟件，全是自主研發(fā)產(chǎn)品，歷時(shí)三年研發(fā)。

從公開的性能數(shù)據(jù)看，scaleFabric對標(biāo)的是英偉達(dá)目前主流的NDR（指 400Gb/s InfiniBand 網(wǎng)絡(luò)）產(chǎn)品。

性能層面，中國科學(xué)院計(jì)算技術(shù)研究所王展表示，通信層面上，曙光的產(chǎn)品基本上和英偉達(dá)在同一水平。其端到端通信時(shí)延在0.93微秒，交換機(jī)轉(zhuǎn)發(fā)時(shí)延260納秒，與英偉達(dá)NDR持平；單端口帶寬達(dá)到800G，較RoCE主流交換機(jī)領(lǐng)先一到兩代，整機(jī)交換容量64T；在典型AI訓(xùn)練任務(wù)中，實(shí)測網(wǎng)絡(luò)效率提升40%以上。

可靠性層面，由于采用了原生IB的信用流控機(jī)制，scaleFabric實(shí)現(xiàn)了真無損網(wǎng)絡(luò)，避免了RoCE方案中常見的PFC風(fēng)暴風(fēng)險(xiǎn)。曙光透露，該產(chǎn)品已在近萬卡規(guī)模的集群中持續(xù)穩(wěn)定運(yùn)行超過10個(gè)月。

當(dāng)然，對用戶而言，最敏感的變量依然是成本。曙光透露，在同等規(guī)模集群中，scaleFabric的整體網(wǎng)絡(luò)成本較進(jìn)口IB方案可降低約30%。

這一價(jià)格優(yōu)勢一旦被驗(yàn)證，RoCE賴以生存的“性價(jià)比護(hù)身符”將受到巨大沖擊。

不過，這套國產(chǎn)IB產(chǎn)品的誕生也并非坦途。

中科曙光高速網(wǎng)絡(luò)互聯(lián)產(chǎn)品部總工程師萬偉直言，研發(fā)中的第一個(gè)難點(diǎn)是鏈路技術(shù)：起初大家想買現(xiàn)成的IB方案，但是根本不符合要求，最后只能招團(tuán)隊(duì)從零做起。

其次，在目標(biāo)設(shè)定上，團(tuán)隊(duì)并非簡單對標(biāo)英偉達(dá)IB，而是立志在關(guān)鍵規(guī)格上實(shí)現(xiàn)超越，這也帶來了巨大的技術(shù)挑戰(zhàn)。萬偉感慨，所幸團(tuán)隊(duì)最終在國家的支持下得以攻克難關(guān)、取得成功。

李斌補(bǔ)充說，當(dāng)前業(yè)界存在RoCE、ScaleOut、ScaleUP等多種技術(shù)路線，百花齊放，而曙光的選擇是在原生RDMA架構(gòu)基礎(chǔ)上，為超大規(guī)模系統(tǒng)上的性能和擴(kuò)展性做深度考量。

他對市場競爭格局有清醒的判斷：“目前這個(gè)市場的主要玩家還是英偉達(dá)。我們對于產(chǎn)品的定位，是期待在IB的技術(shù)路線能實(shí)現(xiàn)技術(shù)上的國產(chǎn)化替代，實(shí)現(xiàn)業(yè)務(wù)上真正的市場占比替代。我們希望打破一家獨(dú)大的局面，把整個(gè)技術(shù)做開放，市場的蛋糕大家共享。”

盡管英偉達(dá)的領(lǐng)先地位短期難以撼動，但國產(chǎn)IB的突破，已為智算網(wǎng)絡(luò)自主之路點(diǎn)亮希望。

雷峰網(wǎng)雷峰網(wǎng)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.