337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

讓萬卡算力火力全開,沒那么復雜,國產AI算力,滿血前進

0
分享至



讓中國算力更好地跑在中國網絡上。

萬卡集群已成AI算力標配,而決定有效算力上限的關鍵——網絡卻成掣肘。當前業界要么選供應鏈風險高的海外IB方案,要么選需專業團隊反復調參的RoCE方案。

近日,中科曙光發布了首款原生無損RDMA高速網絡scaleFabric。它試圖打破不用復雜調優,也能讓AI集群跑出“滿血”性能的行業僵局。



1.網絡成AI算力之踵

很長一段時間里,提升算力的思路很簡單:堆疊GPU。但在真實的萬卡集群中,事情遠沒有這么容易。

若把萬卡集群比作一座超大規模城市,GPU是住宅,CPU是工廠,那么網絡就是連接一切的“道路交通系統”。

傳統RoCE方案中,這座城市的交通規則極其復雜:為了避免數據包“堵車”(丟包),工程師們設計了各種復雜的“紅綠燈系統”(PFC流控)和“導航策略”(ECN擁塞控制)。

這套系統能運轉,但異常脆弱。有人形象地比喻:RoCE網絡就像“一腳油門一腳剎車”,為了不撞車,必須時刻緊繃神經。

究其根源,RoCE本質是在傳統以太網基礎上“打補丁”,通過PFC(基于優先級的流量控制)機制模擬無損環境。一旦流量突發,緩沖區瞬間占滿,PFC就會像連鎖反應般層層傳導,這腳“急剎車”,極易引發網絡擁塞的鏈式反應,造成吞吐驟降,甚至全局死鎖的風險。

這正是當前AI基建領域的隱秘痛點。

大多數企業沒有互聯網大廠那樣的專家團隊,無法常年累月地“調水線”、優化擁塞控制算法。對他們而言,要跑出理想的訓練性能,往往要在部署周期和運維復雜度上付出巨大代價。

2.用原生網絡解決“堵車”


有沒有一種方案,能從底層設計上規避這種復雜性?曙光scaleFabric給出的答案是:回歸“原生”。

RDMA技術有三條路徑:IB、RoCE和iWARP。其中,RoCE是在廣泛部署的以太網“公路”上,通過疊加復雜的流量控制規則(PFC/ECN)來構建“高速無損”通道;而InfiniBand(IB)則是為高性能計算量身定制的“高速鐵路”,其基于信用的流控機制是與生俱來的核心設計,如同集中調度、無紅綠燈的高鐵軌道交通系統。

曙光此次發布的scaleFabric,是國內首個類InfiniBand原生無損RDMA方案,它不是在以太網的舊土壤上修修補補,而是從底層112G PAM4高速Serdes IP,到交換芯片、網卡芯片,再到軟件平臺,完成了全棧自研的徹底革新。



這種“原生”帶來的最直觀改變,就是“即插即用”。

基于信用的流控機制(Credit-based Flow Control),是IB網絡與生俱來的優勢。數據傳輸前發送端會先確認接收端有足夠“空位”(緩沖區)再發車,從根本上杜絕了因資源不足導致的丟包。

相比之下,RoCE的PFC機制,往往是在接收端快撐不住時才“叫?!?,這腳“急剎車”本身,就已埋下風險隱患,往往伴隨網絡性能斷崖性下跌或死鎖風險。

這意味著,采用曙光scaleFabric的AI集群,不再需要工程師反復估算、調整那根懸在頭頂的“水線”。

網絡終于回歸基礎設施的本色:穩定、安靜,且高效。

3.部署從“天”到“小時”


底層架構的差異,最終體現在用戶最敏感的“建設周期”和“持有成本”上。

在鄭州國家超算互聯網核心節點,曙光scaleFabric經歷了一場嚴苛考驗:3套萬卡集群同步上線,從上電到完成網絡調試部署,僅用了36個小時。

這是什么概念?

傳統RoCE組網方案中,僅一個千卡集群的調優,就往往以“周”為單位,涉及PFC死鎖檢測、ECN水線調整、擁塞控制策略適配等一系列復雜操作。若面對萬卡級別規模,配置復雜度和故障排查難度會指數級上升,部署周期拖至數月也并不罕見。

scaleFabric能實現36小時完成三萬卡集群部署,核心在于其集中管控、分布式轉發的架構。如果說RoCE是分布式的“各自為政”,每臺設備都需要單獨調試,那么scaleFabric就像軌道交通的“集中控制”:子網管理系統如同全局調度員,上電3分鐘內即可自動發現全網拓撲、完成路由計算,實現一鍵下發。 對運維人員而言,相當于從“救火隊員”變身“指揮官”。



這種快速的部署與穩定運維能力,得到了來自產品研發一線的證實。 中科曙光高端計算總工程師解西國在發布會上詳細介紹了支撐scaleFabric的智能運維體系。他指出,該體系基于網絡豐富的監控數據,構建了自動化配置管理、主動性能壓測、全棧監控、故障診斷自愈、智能分析和數字孿生可視化六大核心能力。這套系統能夠自動發現并管理百萬量級的設備與端口,并通過主動壓測提前發現90%以上的隱性性能風險,從而將集群算力利用率提升20%以上。當故障發生時,能實現毫秒級的鏈路快速恢復,并通過智能體與運維知識庫結合,顯著降低超大規模網絡的運維門檻。

當一條鏈路故障時,scaleFabric的快速容錯路由能在毫秒級完成切換,且恢復時間不隨網絡規模增長而延長;而在RoCE網絡中,路由收斂往往需要秒級。這期間的訓練中斷和回滾,可能意味著幾十萬甚至上百萬的經濟損失。

4.TCO降低30%的背后

長期以來,企業在IB和RoCE之間的糾結,本質是“性能”與“成本”的博弈:IB雖好,但價格昂貴、供應不穩;RoCE開放,但隱性運維成本極高。

曙光試圖在這場“不可能三角”中找到平衡點。

首先是顯性成本。通過自研高密度交換芯片(單芯片支持80個400G端口或40個800G口),scaleFabric的組網密度較同類產品提升25%。



這意味著組建同等規模集群時,所需交換機、光模塊和線纜數量大幅減少,綜合下來,總體網絡成本較海外主流IB方案降低約30%。

其次是隱性成本——這也是最容易被忽視的部分。

很多企業選擇RoCE,以為抓住了“性價比”,最終卻需要雇傭高薪專家團隊常年調優。RoCE廠商常宣稱產品支持自動調節水線,但問及具體實現方式,答案往往是模糊的“AI/強化學習”,缺乏可落地的明確路徑。

而scaleFabric的“原生無損”特性,極大降低了對運維人員經驗的依賴。它把網絡配置從一門依賴直覺的“藝術”,變成了一門標準化的“科學”。

對于大多數不具備互聯網大廠自研能力的傳統企業、科研機構和高校計算中心而言,這種“開箱即用”的確定性,本身就是最大的性價比。

這種“確定性”直接轉化為可量化的系統效能提升。 中科曙光工業計算方案總監姚浪從系統工程角度分析指出,在大規模并行計算中,計算、存儲、網絡任何一個環節成為瓶頸,整體效率都會急劇下降,在萬卡規模下,這種不平衡會被指數級放大。他以工業仿真為例,當并行規模達到2048核時,通信時間占比可接近50%。姚浪提供的實測數據顯示,在并行計算場景中,采用scaleFabric的方案效率可達85%左右,而傳統RoCE方案效率約為65%,這意味著有效算力利用率可提升20%以上。 在商業軟件測試中,scaleFabric性能達到國際主流同類產品(英偉達NDR 400G網絡)的96%-105%。這證明,選擇高性能網絡不僅是保障穩定,更是直接提升算力資產回報率的關鍵。

5.跑贏AI算力的開放邏輯


scaleFabric的意義,遠不止一款產品的問世,更在于它為中國AI算力生態,提供了一個“開放的基礎設施基座”。

中科曙光并未選擇封閉自研的路線。在光合組織AI計算開放架構框架下,曙光牽頭成立“AIDC高速網絡工作組”,攜手十多家軟硬件合作伙伴,共同開展場景化方案的聯合研發。

scaleFabric不僅是國產的,更是開放的。



它原生兼容IB應用生態,支持主流通信庫接口,PyTorch、OpenMPI等常用框架無需修改代碼,即可無縫遷移。

其技術先進性與開放兼容性,在科研與產業最前沿的應用中得到了交叉驗證。 在科研領域,通信是制約算力擴展的核心瓶頸。中國科學院計算技術研究所專家王展的測試結果顯示,scaleFabric在單QP通信性能、多QP性能以及端到端延遲等關鍵微觀指標上,與國際領先產品相當甚至部分更優。王展特別指出,其“即插即用”的部署體驗和對國產CPU的良好耦合,為科學智能(AI for Science)這類前沿探索提供了可靠的底層支撐。

在產業落地層面,scaleFabric瞄準的是最嚴苛的超大規模智算場景。 科大訊飛AI工程院智算基礎設施架構師鮑中帥結合產業實踐分享道,當前AI發展正從訓練擴展到推理,亟需強大而穩定的智算底座。曙光在鄭州國家超算互聯網核心節點部署的scaleX超集群,單機柜集成640張GPU加速卡,正是scaleFabric支撐超萬卡集群能力的集中體現。鮑中帥認為,對于企業用戶而言,scaleFabric與RoCE并非簡單替代關系,而是針對不同場景的選項。 在追求極致性能、確定性和超大規模擴展的智算集群中,原生無損的scaleFabric提供了關鍵基礎;而在其他場景,產業界也在持續優化RoCE方案。這種“雙軌”推進的策略,體現了國產算力生態的務實與開放。

與此同時,曙光正聯合產業鏈上下游,推動自主網絡標準的制定與優化實踐,讓中國AI算力不再依賴單一技術路線的“舶來品”,走出一條“開放協作、共同定義”的自主發展之路。

2026年伊始,中國移動就啟動了10億元RoCE交換機集采,而隨著國產原生RDMA技術的突破和產品落地,算力網絡的國產化替代也全面進入深水區。

中科曙光scaleFabric的出現,不僅填補了國內原生RDMA網絡的技術空白,更重要的是,它提供了一種新的范式思考:在追求極致性能的道路上,我們不一定要通過復雜度的飆升來換取。scaleFabric通過集中控制、信用流控和全棧自研,將底層復雜性徹底封裝。

讓中國算力,更好地跑在中國網絡上。當網絡不再需要費心“伺候”,當部署周期從數月縮短至數十小時,AI創新的腳步,才能真正輕盈起來。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
圖赫爾談棄用阿諾德:這是戰術層面的決定

圖赫爾談棄用阿諾德:這是戰術層面的決定

懂球帝
2026-03-20 20:26:08
U23國足25人名單!李昊意外落選,汪士欽回歸,依木蘭于金永入選

U23國足25人名單!李昊意外落選,汪士欽回歸,依木蘭于金永入選

奧拜爾
2026-03-20 12:36:53
律師解讀“舉報重慶退休領導母親巨額財產被判公開道歉”

律師解讀“舉報重慶退休領導母親巨額財產被判公開道歉”

大象新聞
2026-03-20 16:04:02
近8戰場均40.8分9板!NBA史上最離譜的交易,拿超巨換過氣球星

近8戰場均40.8分9板!NBA史上最離譜的交易,拿超巨換過氣球星

你的籃球頻道
2026-03-20 11:09:08
去深圳才發現:年輕人都不穿耐克、薩洛蒙了,滿街都是這3個品牌

去深圳才發現:年輕人都不穿耐克、薩洛蒙了,滿街都是這3個品牌

白宸侃片
2026-03-11 13:18:49
騰訊音樂大跌,是因為汽水音樂“偷家”嗎?

騰訊音樂大跌,是因為汽水音樂“偷家”嗎?

鈦媒體APP
2026-03-19 16:41:13
黃金白銀遭全球拋售

黃金白銀遭全球拋售

界面新聞
2026-03-20 08:25:03
別信什么“瘦了就好”,看看蔣欣,瘦了20多斤,代價是臉垮了

別信什么“瘦了就好”,看看蔣欣,瘦了20多斤,代價是臉垮了

西樓知趣雜談
2026-03-18 11:48:25
王菲謝霆鋒日本回國!王菲用拳頭捶男友撒嬌,脖子上大疙瘩引猜測

王菲謝霆鋒日本回國!王菲用拳頭捶男友撒嬌,脖子上大疙瘩引猜測

八卦王者
2026-03-20 14:17:59
邵佳一慧眼識珠?3任主教練都沒選拔的人,被他招入進國足

邵佳一慧眼識珠?3任主教練都沒選拔的人,被他招入進國足

何老師呀
2026-03-20 15:55:30
千萬別讓田曦薇露額頭!看了她以前的照片,才懂“鐵劉?!焙鹆?>
    </a>
        <h3>
      <a href=娛樂圈十三太保
2026-03-20 15:07:37
比亞迪拿下英偉達,炸翻全球!

比亞迪拿下英偉達,炸翻全球!

財經三分鐘pro
2026-03-19 18:22:04
官方發文!李湘風波有了新進展,讓她懷二胎的男人,能松口氣了

官方發文!李湘風波有了新進展,讓她懷二胎的男人,能松口氣了

地理三體說
2026-03-20 23:00:34
高市早苗見特朗普送730億美元投資“大禮”!她說:你兒子又高又帥,優秀的基因來自哪里,一目了然;特朗普得意地笑了

高市早苗見特朗普送730億美元投資“大禮”!她說:你兒子又高又帥,優秀的基因來自哪里,一目了然;特朗普得意地笑了

每日經濟新聞
2026-03-20 15:28:04
小伙上班打了輛無人駕駛車,30分鐘路程開近1小時還沒到大喊“不要剎車,超他”,當事人:第一次嘗試,很安全但確實著急

小伙上班打了輛無人駕駛車,30分鐘路程開近1小時還沒到大喊“不要剎車,超他”,當事人:第一次嘗試,很安全但確實著急

大象新聞
2026-03-20 18:45:38
2換1!庫明加將大戰勇士!合作了整整五年時間

2換1!庫明加將大戰勇士!合作了整整五年時間

籃球實戰寶典
2026-03-20 22:15:47
比謝霆鋒還猛!張柏芝大兒子戀情疑曝光,46歲阿姨,辣妹都不放過

比謝霆鋒還猛!張柏芝大兒子戀情疑曝光,46歲阿姨,辣妹都不放過

漫婷侃娛樂
2026-03-18 22:17:27
蔣介石孫子召開發布會,提出“兩蔣”移靈大陸,2句話讓世人唏噓

蔣介石孫子召開發布會,提出“兩蔣”移靈大陸,2句話讓世人唏噓

老謝談史
2026-03-18 18:33:35
2月28日以來被美以空襲致死的伊朗高官們

2月28日以來被美以空襲致死的伊朗高官們

陶短房之短話短說
2026-03-19 21:03:30
輸給江蘇1分!揪出1個表現最差之人,坑慘了廣東隊

輸給江蘇1分!揪出1個表現最差之人,坑慘了廣東隊

體育哲人
2026-03-20 22:40:21
2026-03-20 23:55:00
甲子光年
甲子光年
中國科技產業化前沿智庫
3377文章數 9262關注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機器人出貨量第一!

頭條要聞

向特朗普提問日記者遭瘋狂網暴 被罵幫中國讓高市難堪

頭條要聞

向特朗普提問日記者遭瘋狂網暴 被罵幫中國讓高市難堪

體育要聞

6年前的一場悲劇,造就了“法國瓦爾迪”

娛樂要聞

總臺首屆電影盛典,“沈馬”CP再合體

財經要聞

金融法草案向社會公開征求意見

汽車要聞

何小鵬坦白局:每月3億的“慌”與通向L4的堅定

態度原創

房產
游戲
親子
本地
手機

房產要聞

全城狂送1000杯咖啡!網易房產【早C計劃】,即刻啟動!

日媒爆料任天堂將推Switch 2新版本!可更換電池

親子要聞

大學同學 住同一小區,組團帶娃 一次派一個爸

本地新聞

春色滿城關不住|紹興春日頂流,這片櫻花海藏不住了

手機要聞

華為春季新品發布會陣容豪華:3款新機+4款穿戴 還有顯示器、智慧屏

無障礙瀏覽 進入關懷版