![]()
3月12日,中科曙光在鄭州正式發(fā)布全自研的scaleFabric高速網(wǎng)絡(luò)產(chǎn)品,并宣布其已在位于鄭州的國家超算互聯(lián)網(wǎng)核心節(jié)點(diǎn)成功部署了萬卡級國產(chǎn)智算集群。這一里程碑事件,標(biāo)志著國產(chǎn)算力基礎(chǔ)設(shè)施在突破“卡脖子”關(guān)鍵環(huán)節(jié)上邁出了堅(jiān)實(shí)一步。
然而,當(dāng)國產(chǎn)算力剛剛叩開萬卡時(shí)代的大門,海外巨頭英偉達(dá)已宣稱構(gòu)建了十萬卡甚至更大規(guī)模的集群。從萬卡到十萬卡,國產(chǎn)算力需要跨越的不僅是數(shù)字的鴻溝,更是技術(shù)、生態(tài)與系統(tǒng)工程的全面挑戰(zhàn)。
萬卡初成與十萬卡之距
“目前,從我知道的信息角度,曙光這個(gè)萬卡是唯一一個(gè)(全國產(chǎn)化集群)。”中國科學(xué)院計(jì)算技術(shù)研究所王展在與筆者的溝通中直言。他的判斷揭示了當(dāng)前國產(chǎn)算力集群的一個(gè)現(xiàn)實(shí):實(shí)現(xiàn)CPU、GPU、交換機(jī)芯片、網(wǎng)卡芯片全棧國產(chǎn)化的萬卡集群,曙光scaleX是已知的孤例。與之形成鮮明對比的是,英偉達(dá)憑借其CUDA生態(tài)與InfiniBand(簡稱IB)網(wǎng)絡(luò),早已將集群規(guī)模推向了十萬卡級別,并持續(xù)探索更大規(guī)模。
在國家超算互聯(lián)網(wǎng)核心節(jié)點(diǎn)國產(chǎn)萬卡集群亮相之前,高速互聯(lián)領(lǐng)域的IB網(wǎng)絡(luò)技術(shù)長期被英偉達(dá)形成壟斷格局,其通過收購邁絡(luò)思掌握了IB網(wǎng)絡(luò)的核心技術(shù),構(gòu)筑起難以突破的技術(shù)壁壘,牢牢把控著全球高端算力集群的網(wǎng)絡(luò)核心環(huán)節(jié),國內(nèi)算力產(chǎn)業(yè)向超大規(guī)模發(fā)展的步伐,正因這一關(guān)鍵技術(shù)的 “卡脖子” 問題備受制約。
這不僅僅是數(shù)字上的差距,其背后反映的是系統(tǒng)性能力的代際落差。而曙光scaleX萬卡集群的成功落地,依托自研的scaleFabric 高速網(wǎng)絡(luò)實(shí)現(xiàn)了IB網(wǎng)絡(luò)技術(shù)的國產(chǎn)化突破,一舉打破了英偉達(dá)的技術(shù)壟斷,成功解決了這一領(lǐng)域的“卡脖子”難題。
中科曙光高級副總裁李斌告訴筆者,從萬卡到十萬卡的突破,最核心的技術(shù)挑戰(zhàn)并非來自計(jì)算節(jié)點(diǎn)本身,而在于互聯(lián)系統(tǒng)。當(dāng)集群規(guī)模呈數(shù)量級增長時(shí),如何保證計(jì)算效率的可擴(kuò)展性、如何維持超高可靠性,成為壓倒性的難題。
無獨(dú)有偶,中國信通院云計(jì)算與數(shù)字化研究所的鄭立也曾公開表示,超大規(guī)模集群已成為國內(nèi)外AI競爭的焦點(diǎn)。
據(jù)行業(yè)調(diào)查數(shù)據(jù)顯示,到2025年底,全球智算基礎(chǔ)設(shè)施投資規(guī)模巨大,而支撐下一代萬億乃至十萬億參數(shù)大模型,需要八萬到十萬卡左右的集群規(guī)模。國產(chǎn)算力若想?yún)⑴c這場頂級競賽,就必須攻克超大規(guī)模組網(wǎng)的技術(shù)壁壘。
李斌跟筆者算了一筆簡單的賬:規(guī)模從百卡放大到十萬卡,單點(diǎn)故障率即便極低,在系統(tǒng)層面也會(huì)被指數(shù)級放大。確保十萬張加速卡能夠高度協(xié)同、穩(wěn)定持續(xù)運(yùn)行數(shù)小時(shí)乃至數(shù)天完成一次大模型訓(xùn)練,其技術(shù)復(fù)雜度呈幾何級數(shù)上升。
奇異摩爾聯(lián)合創(chuàng)始人、產(chǎn)品及解決方案副總裁祝俊東從互聯(lián)角度提供了更技術(shù)化的解讀。他將超大規(guī)模集群(Scale Out)的挑戰(zhàn)歸納為幾個(gè)核心點(diǎn):
- 首先,隨著規(guī)模擴(kuò)大,對交換機(jī)的交換帶寬和存儲(chǔ)容量提出了極高要求(如25.6T、51.2T乃至更高),這是國產(chǎn)化需要追趕的。
- 其次,更關(guān)鍵的挑戰(zhàn)在于端側(cè)(網(wǎng)卡)和協(xié)議層面。傳統(tǒng)基于IB或RoCEv2的協(xié)議面向的是“無損網(wǎng)絡(luò)”,但當(dāng)集群規(guī)模達(dá)到萬卡乃至十萬卡時(shí),網(wǎng)絡(luò)必然變?yōu)椤坝袚p網(wǎng)絡(luò)”。這將引發(fā)一系列連鎖問題:如何高效重傳、處理丟包、管理大規(guī)模擁塞?祝俊東表示,其公司通過自研的Kiwi Fabric協(xié)議棧,采用更快速的檢測與重傳機(jī)制,來應(yīng)對這些挑戰(zhàn)。
- 然而,硬件和協(xié)議只是基礎(chǔ)。祝俊東和李斌都強(qiáng)調(diào)了生態(tài)協(xié)同的極端重要性。祝俊東指出,到了超大規(guī)模,需要網(wǎng)絡(luò)側(cè)、計(jì)算側(cè)、供電與機(jī)柜形態(tài)、上層控制系統(tǒng)進(jìn)行整體協(xié)同。李斌則補(bǔ)充,這還需要與上層應(yīng)用的算法和分布式訓(xùn)練流程深度耦合。北京科技大學(xué)儲(chǔ)根深教授的優(yōu)化實(shí)踐印證了這一點(diǎn):通過利用GPU顯存直接互聯(lián)技術(shù),將通信路徑優(yōu)化,使萬卡規(guī)模下某些軟件的通信開銷從50%降至10%。這表明,硬件能力必須通過軟件棧的深度適配,才能轉(zhuǎn)化為實(shí)際性能。
實(shí)現(xiàn)十萬卡級別的國產(chǎn)算力集群,絕非將現(xiàn)有萬卡方案簡單線性放大。李斌清晰地指出了三個(gè)核心挑戰(zhàn):大規(guī)模可靠性、與應(yīng)用的深度協(xié)同、以及極高的軟件系統(tǒng)調(diào)優(yōu)門檻。這構(gòu)成了國產(chǎn)算力向超大規(guī)模進(jìn)發(fā)的“三重門”。
挑戰(zhàn)一:超大規(guī)模下的可靠性“魔咒”。 可靠性是十萬卡集群的生命線。曙光信息產(chǎn)業(yè)(北京)有限公司副總裁李柳指出,未來萬卡、十萬卡集群可能是常態(tài),每一次計(jì)算失敗背后都是巨大的成本損耗,“未來每算一次,我們爭取一次性算成功”。他強(qiáng)調(diào),規(guī)模擴(kuò)大后,故障率恢復(fù)時(shí)間都是指數(shù)級增長,因此高可靠性是比高帶寬、低延遲更重要的指標(biāo)。
scaleFabric的設(shè)計(jì)正是圍繞此展開,其采用與InfiniBand(IB)相同的基于信用的流控機(jī)制,從理論上保證無損傳輸,避免因少量丟包引發(fā)的性能雪崩。同時(shí),曙光研發(fā)了鏈路故障路由快速恢復(fù)技術(shù),將故障恢復(fù)時(shí)間降至毫秒級且與規(guī)模無關(guān),并進(jìn)行了長達(dá)10個(gè)月、累計(jì)超50萬小時(shí)的設(shè)備穩(wěn)定性測試。這些舉措旨在對抗規(guī)模效應(yīng)下的可靠性衰減,但真正的考驗(yàn)仍需在未來的十萬卡真實(shí)業(yè)務(wù)環(huán)境中持續(xù)驗(yàn)證。
挑戰(zhàn)二:與算法流程的深度協(xié)同。 算力集群的高效協(xié)同,不僅取決于硬件,更取決于上層應(yīng)用的算法和分布式訓(xùn)練策略。李斌指出,集群能協(xié)同高效工作,“需要跟應(yīng)用的算法和流程去高度的耦合”。這意味著硬件系統(tǒng)設(shè)計(jì)不能背離應(yīng)用需求太遠(yuǎn)。
北京科技大學(xué) 計(jì)算機(jī)與通信工程學(xué)院儲(chǔ)根深以其團(tuán)隊(duì)在工程計(jì)算軟件上的優(yōu)化實(shí)踐為例,展示了這種協(xié)同的價(jià)值。通過利用scaleFabric支持的GPU顯存直接互聯(lián)(GDR)技術(shù),他們將通信路徑從“GPU->CPU內(nèi)存->網(wǎng)絡(luò)->CPU內(nèi)存->GPU”優(yōu)化為“GPU顯存直通網(wǎng)絡(luò)到GPU顯存”,顯著降低了通信開銷。在其測試中,某些工程計(jì)算軟件的通信時(shí)間占比從50%降至10%,在萬卡規(guī)模下仍能保持較高的并行效率。這表明,硬件能力必須通過軟件棧的深度適配和優(yōu)化,才能轉(zhuǎn)化為實(shí)際應(yīng)用性能。然而,這種深度協(xié)同需要跨領(lǐng)域的專家團(tuán)隊(duì),既懂芯片與系統(tǒng)架構(gòu),又懂AI算法與分布式框架,目前國內(nèi)此類復(fù)合型人才團(tuán)隊(duì)仍顯稀缺。
挑戰(zhàn)三:極高的系統(tǒng)級調(diào)優(yōu)門檻。 這是將硬件潛力充分釋放的關(guān)鍵,也是國內(nèi)產(chǎn)業(yè)相對薄弱的環(huán)節(jié)。過去看,國內(nèi)大模型工程化落地能力比較弱,有很強(qiáng)的算法能力,但到大規(guī)模系統(tǒng)上效率往往很低。真正讓萬卡以上集群性能發(fā)揮好,需要一支專業(yè)團(tuán)隊(duì)進(jìn)行從硬件到軟件的全棧調(diào)優(yōu)。
科大訊飛AI工程院智算基礎(chǔ)設(shè)施架構(gòu)師鮑中帥從用戶角度印證了這一點(diǎn)。他指出,國產(chǎn)單卡性能已對標(biāo)甚至超越英偉達(dá)A100,但“從單卡到八卡,在一個(gè)機(jī)器內(nèi)它的性能度做得還是比較好的,但是如果把它擴(kuò)散到萬卡,沒有多少廠商有那么高的信心”。其核心瓶頸就在于網(wǎng)絡(luò)以及基于網(wǎng)絡(luò)的系統(tǒng)性調(diào)優(yōu)能力。鮑中帥強(qiáng)調(diào),實(shí)現(xiàn)“1+1=2”的前提是網(wǎng)絡(luò)不成為瓶頸,而國內(nèi)具備強(qiáng)大網(wǎng)絡(luò)能力和集群方案能力的廠商并不多。這不僅是硬件的比拼,更是系統(tǒng)工程能力和軟件棧實(shí)力的較量。
突破這三重挑戰(zhàn)需要從芯片、網(wǎng)絡(luò)、存儲(chǔ)、冷卻到系統(tǒng)軟件、應(yīng)用框架的“算存?zhèn)饕惑w化”協(xié)同設(shè)計(jì)。
未來高性能計(jì)算是一項(xiàng)系統(tǒng)工程,計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)任何一環(huán)的短板都會(huì)被指數(shù)級放大。而曙光提出的scaleX超集群和算存?zhèn)黢詈霞軜?gòu),正是試圖通過系統(tǒng)級創(chuàng)新,實(shí)現(xiàn)“1+1+1>3”的效果。然而,這條道路漫長且需要全產(chǎn)業(yè)鏈的緊密協(xié)作。
IB還是以太?用戶習(xí)慣與產(chǎn)業(yè)現(xiàn)實(shí)的分野
在邁向超大規(guī)模的道路上,除了上述三個(gè)挑戰(zhàn)之外,國產(chǎn)算力還面臨著一個(gè)基礎(chǔ)性的選擇與挑戰(zhàn):高速互聯(lián)的技術(shù)路線之爭。當(dāng)前主要存在InfiniBand(IB)和基于以太網(wǎng)的RoCE兩條路徑,它們背后代表著不同的技術(shù)傳承、產(chǎn)業(yè)陣營和用戶習(xí)慣,這一分歧深刻影響著國產(chǎn)生態(tài)的構(gòu)建策略。
中科曙光scaleFabric選擇了兼容IB生態(tài)的路線。其總工程師萬偉解釋,IB是“真正的無損網(wǎng)絡(luò)”,這一特性對RDMA性能至關(guān)重要。然而,另一部分行業(yè)專家觀點(diǎn)則認(rèn)為:當(dāng)前全球大部分智算中心還是基于以太網(wǎng)的RoCE技術(shù),而非IB。有行業(yè)專家對筆者表示,IB最初主要服務(wù)于超算領(lǐng)域,被英偉達(dá)發(fā)揚(yáng)光大后應(yīng)用于智算,但由于其協(xié)議存在局限性,且互聯(lián)網(wǎng)大廠已擁有成熟的以太網(wǎng)架構(gòu)體系,若在智算領(lǐng)域單獨(dú)部署IB網(wǎng)絡(luò),會(huì)大幅增加網(wǎng)絡(luò)形態(tài)的復(fù)雜性。
這種分歧并非偶然,而是根植于用戶背景。王展精準(zhǔn)概括道:“做超算的行業(yè)從業(yè)者,原來用的是IB體系,所以他們肯定更喜歡用IB。但是現(xiàn)在做智算那幫人還是以互聯(lián)網(wǎng)企業(yè)為主。這些互聯(lián)網(wǎng)企業(yè),他們原來做云的時(shí)候,他們就用的是以太網(wǎng),所以他們覺得以太用得更順手。”
IB網(wǎng)絡(luò),尤其是純國產(chǎn)的IB網(wǎng)絡(luò)實(shí)現(xiàn)萬卡對于國產(chǎn)算力的“進(jìn)化”意味著什么?首先,它意味著市場將是雙軌并存的格局。李斌闡述了其開放生態(tài)的理念,希望支持國內(nèi)不同算力芯片的適配。奇異摩爾則直接投身于RoCE路線的演進(jìn)與優(yōu)化,并針對其在大規(guī)模有損網(wǎng)絡(luò)下的缺陷提出了自己的協(xié)議解決方案。
其次,這帶來了增量部署的兼容性挑戰(zhàn)。王展指出,在全新部署的國產(chǎn)集群上,應(yīng)用可以無縫遷移。但如果用戶想保留原有英偉達(dá)IB交換機(jī),只替換國產(chǎn)網(wǎng)卡,可能會(huì)因英偉達(dá)的私有協(xié)議限制而無法通信。這體現(xiàn)了生態(tài)替代過程中的現(xiàn)實(shí)摩擦,也凸顯了掌握自主核心技術(shù)的必要性。
因此,國產(chǎn)解決方案能否成功,不僅取決于單一技術(shù)路線的性能優(yōu)劣,更取決于堅(jiān)定并做強(qiáng)自主可控的 IB 技術(shù)路線,同時(shí)以開放的姿態(tài),靈活適配IB與RoCE雙軌生態(tài),降低不同背景用戶的遷移和運(yùn)維成本。
樂觀的一面是,國產(chǎn)算力正走出一條更具優(yōu)勢、更符合未來趨勢的發(fā)展路徑。祝俊東告訴筆者,美國走的是“暴力堆算力”的路線,追求單卡算力和規(guī)模的快速迭代;而中國則走高效集約、自主可控、開放共享的精細(xì)化發(fā)展路線,通過提升算力效率、降低成本,推動(dòng)AI普惠,同時(shí)依托電力優(yōu)勢和互聯(lián)技術(shù)的快速追趕,實(shí)現(xiàn)“以系統(tǒng)優(yōu)勢彌補(bǔ)單點(diǎn)差異“的高質(zhì)量發(fā)展。在軟件層面,國產(chǎn)廠商通過精細(xì)化優(yōu)化,充分挖掘現(xiàn)有硬件的算力潛力;在架構(gòu)層面,DSA路線、存算一體、重構(gòu)計(jì)算等新型架構(gòu)的探索,也為國產(chǎn)算力突破海外限制提供了新路徑。(文|Leo張ToB雜談,作者|張申宇,編輯丨蓋虹達(dá))
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.