近日,依托OISA協同創新平臺,摩爾線程、中國移動研究院、之江實驗室等產業伙伴正式發布《OISA高密超節點參考設計技術規范》。該規范針對當前智算中心面臨的互聯瓶頸、供電壓力及散熱極限,提出了全棧式解決方案,為構建自主可控、高性能的智算集群奠定了關鍵技術基石。
![]()
在智算中心的物理布局與邏輯拓撲中,OISA高密超節點通過空間密度與擴展維度的深度重構,打破傳統架構的算力增長壁壘。技術規范大膽引入大尺寸高密線纜方案,在主流32卡至64卡互聯的基礎上,實現了標準單寬機柜內128卡的全互聯,并支持通過并柜擴展實現256卡部署,極大優化了單位土地面積的算力產出。
![]()
很多讀者對《OISA高密超節點參考設計技術規范》還未了解到它的意義。本次規范的的發布,針對當前智算中心規模化發展中互聯瓶頸、供電壓力、散熱極限三大核心痛點,有著極高的價值!
1、技術突破:解決智算中心“卡脖子”問題,實現“密度+性能+能效”三重躍升
該規范的核心創新在于“高密度物理空間+高帶寬邏輯互聯+高效能底座”的三位一體設計,直接針對智算中心規模化的最迫切需求:
物理密度翻倍,突破空間限制:采用大尺寸高密線纜方案,在主流32-64卡互聯的基礎上,實現標準單寬機柜內128卡全互聯,并支持并柜擴展至256卡。這一設計將單位機柜的算力密度提升了一倍以上(從傳統的8-16卡/機柜到128卡/機柜),極大優化了數據中心的土地利用率,為“萬卡級”“十萬卡級”超大規模集群的建設奠定了基礎。
邏輯互聯升級,破解通信瓶頸:基于OISA 2.0版本的原生內存語義支持,實現跨節點無障礙數據訪問;配合創新報文重構技術,將卡間帶寬提升至TB/s級別(遠超傳統PCIe的GB/s級),時延縮短至數百納秒(接近單機內存訪問速度)。這種“高帶寬+低延遲”的互聯能力,徹底解決了大模型訓練中“通信墻”問題——例如,超萬億參數模型的張量并行、專家并行等通信需求,可通過OISA的高密互聯實現近似單機性能的協同計算。
![]()
效能底座革命,應對功耗挑戰:針對單顆GPU功耗攀升至700W以上、機柜功率向350kW演進的問題,規范從供電和散熱兩側進行重構:
供電側:引入高壓直流系統+柜內集中供電+盲插技術,減少中間電力轉換層級,降低能耗損耗(相比傳統供電方案,效率提升約10%-15%);
散熱側:將液冷技術從“可選”變為“原生標配”,針對單GPU 2kW以上的散熱需求深度優化,將數據中心PUE值(電源使用效率)從風冷時代的1.4降至1.05-1.15(接近理想值1.0)。這種“高效供電+液冷散熱”的組合,徹底解決了高密集群的“功耗墻”問題,支撐算力規模的持續擴張。
2、產業支撐:構建自主可控智算生態,推動多廠商兼容互通
該規范的另一核心價值在于為自主可控智算集群提供關鍵技術基石,具體體現在:
多廠商芯片兼容,打破生態壁壘:規范采用開放架構設計,支持多廠商國產芯片(如摩爾線程GPU、昇騰芯片等)的兼容互通,避免了單一廠商的生態鎖定。例如,摩爾線程作為GPU廠商,可通過OISA規范接入超節點架構,與其他廠商的芯片協同工作,為多廠商聯合構建自主可控智算集群提供了技術依據。
標準化接口,降低集成成本:規范明確了互聯、供電、散熱等環節的統一接口與架構要求,降低了硬件集成與集群部署的實施成本。例如,服務器廠商可根據規范要求,快速開發出符合高密超節點標準的服務器產品;集成商可通過標準化的接口,實現不同廠商設備的無縫對接,縮短集群建設周期。
推動產業協同,完善生態閉環:該規范由摩爾線程、中國移動研究院、之江實驗室等產業伙伴聯合發布,依托OISA協同創新平臺,凝聚了芯片廠商、運營商、科研院所等多方力量。這種“產學研用”協同模式,將推動OISA技術從“標準”到“產品”的快速轉化,完善智算產業生態閉環。
3、應用賦能:為大模型等核心場景提供“算力引擎”
該規范的最終價值在于為大模型訓練、推理等核心AI應用提供高性能算力支撐,具體體現在:
大模型訓練的“加速器”:對于超萬億參數模型(如GPT-4、Llama 3等),訓練過程中的梯度同步、參數聚合等通信開銷占總時間的比重高達30%-50%。OISA高密超節點的TB/s級帶寬+數百納秒時延,可將通信開銷降低至10%以下,使算力實現近似線性增長(例如,128卡超節點的算力可達到單卡的120倍以上)。這種“高密互聯+低延遲”的能力,為大模型的快速迭代提供了關鍵支撐。
多場景算力供給的“倍增器”:規范的應用場景不僅限于大模型訓練,還可擴展至科學計算、工業仿真、智能推理等領域。例如,在科學計算中,超節點架構可實現多GPU的協同計算,將氣象預測、基因測序等任務的效率提升數倍;在工業仿真中,高密超節點可支撐復雜的流體力學、電磁學仿真,縮短產品研發周期。
《OISA高密超節點參考設計技術規范》的發布,是我國智算產業在超大規模集群技術上的重要突破。其價值不僅在于解決了當前的“互聯、供電、散熱”痛點,更在于為自主可控、高性能智算生態的構建提供了關鍵技術基石。隨著該規范的落地應用,智算中心將進入“高密高效”的新時代,為大模型的快速迭代、數字經濟的轉型升級提供強有力的算力支撐。
未來,隨著OISA協同創新平臺不斷融合Chiplet、光互連、內存池等前沿技術,該規范的價值還將進一步拓展,成為我國智算產業參與全球競爭的重要砝碼。
堅持推文不易您的贊賞是對我們最大的支持
小手一抖,立馬轉走!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.