文/黃海峰的通信生活
當(dāng)千億參數(shù)大模型成為產(chǎn)業(yè)智能化標(biāo)配,我們的計(jì)算基礎(chǔ)設(shè)施,能接住這場(chǎng)AI浪潮嗎?
12月25日,筆者前往杭州參加“昇思MindSpore為超節(jié)點(diǎn)而生的AI框架”為主題的昇思人工智能框架峰會(huì),看展、聽(tīng)會(huì)、交流,頗有收獲,找到問(wèn)題答案。
最讓筆者印象深刻的一句話是華為中央軟件院總裁謝桂磊在致辭中指出,AI邁入產(chǎn)業(yè)規(guī)模化應(yīng)用關(guān)鍵階段,而基于高速互聯(lián)的超節(jié)點(diǎn)成為AI算力基礎(chǔ)設(shè)施的新常態(tài)。
當(dāng)傳統(tǒng)計(jì)算集群捉襟見(jiàn)肘,超節(jié)點(diǎn)技術(shù)與生態(tài)實(shí)踐,是否預(yù)示著AI基礎(chǔ)設(shè)施的換代時(shí)刻已經(jīng)到來(lái)?如今市面上一下子涌現(xiàn)出多個(gè)“超節(jié)點(diǎn)”,哪一種是真正滿(mǎn)足未來(lái)需求的?
![]()
模型的算力焦慮,傳統(tǒng)集群為何難承重負(fù)?
AI技術(shù)的爆發(fā)式增長(zhǎng),正在對(duì)底層計(jì)算基礎(chǔ)設(shè)施提出前所未有的嚴(yán)苛要求。模型規(guī)模的指數(shù)級(jí)擴(kuò)張引發(fā)算力海嘯,而業(yè)界卻面臨著效率低下、穩(wěn)定性不足等諸多難題。
![]()
首先是算力協(xié)同效率低。傳統(tǒng)計(jì)算集群中,數(shù)百?gòu)圓I芯片通過(guò)以太網(wǎng)連接,數(shù)據(jù)傳輸需經(jīng)過(guò)序列化-網(wǎng)絡(luò)傳輸-反序列化的復(fù)雜流程。就像多個(gè)倉(cāng)庫(kù)各自為政,貨物調(diào)運(yùn)要走繁瑣的審批手續(xù),即便道路再寬(高帶寬),也會(huì)因流程梗阻導(dǎo)致效率低下。
其次是內(nèi)存資源孤島化。大模型訓(xùn)練的海量參數(shù)和中間數(shù)據(jù)需要在不同芯片間頻繁交互,但傳統(tǒng)架構(gòu)中每張芯片的內(nèi)存都是獨(dú)立空間,跨芯片訪問(wèn)不僅耗時(shí),還會(huì)出現(xiàn)數(shù)據(jù)不一致。
最后是生態(tài)適配成本高。不同廠商的芯片、框架、工具鏈各自為戰(zhàn),企業(yè)在部署大模型時(shí),往往需要投入大量資源進(jìn)行適配開(kāi)發(fā),阻礙AI技術(shù)的規(guī)模化落地。
面對(duì)這些痛點(diǎn),超節(jié)點(diǎn)技術(shù)應(yīng)運(yùn)而生。超節(jié)點(diǎn)的基礎(chǔ)技術(shù)特征應(yīng)包含哪些核心要素?
一是超大帶寬,可支撐大規(guī)模AI處理器間高效協(xié)同與海量數(shù)據(jù)傳輸;二是超低時(shí)延,能大幅降低跨設(shè)備通信耗時(shí),避免計(jì)算等待通信的效率損耗;三是內(nèi)存統(tǒng)一編址,實(shí)現(xiàn)超節(jié)點(diǎn)內(nèi)所有互聯(lián)設(shè)備的內(nèi)存地址全局唯一,支持設(shè)備間基于內(nèi)存語(yǔ)義直接訪問(wèn),提升數(shù)據(jù)交互效率。
經(jīng)過(guò)筆者對(duì)目前國(guó)內(nèi)已落地的超節(jié)點(diǎn)實(shí)踐來(lái)看,除了大帶寬、低時(shí)延能力之外,內(nèi)存統(tǒng)一編址發(fā)揮了巨大作用,在互聯(lián)網(wǎng)、運(yùn)營(yíng)商等行業(yè)應(yīng)用中,極大加速了大模型訓(xùn)練及推理的效率。
作為超節(jié)點(diǎn)的核心必備能力,內(nèi)存統(tǒng)一編址實(shí)現(xiàn)了超節(jié)點(diǎn)內(nèi)所有互聯(lián)設(shè)備的內(nèi)存地址全局唯一,讓不同芯片間可基于內(nèi)存語(yǔ)義直接訪問(wèn)數(shù)據(jù),無(wú)需經(jīng)過(guò)傳統(tǒng)“序列化-網(wǎng)絡(luò)傳輸-反序列化”的繁瑣流程。這一特性不僅徹底打破了內(nèi)存資源孤島,大幅降低跨設(shè)備數(shù)據(jù)交互的時(shí)延,更成為支撐萬(wàn)億參數(shù)模型、MoE架構(gòu)及長(zhǎng)序列任務(wù)高效運(yùn)行的關(guān)鍵技術(shù)底座。
互聯(lián)網(wǎng)廠商超節(jié)點(diǎn)實(shí)踐,大模型創(chuàng)新的算力先鋒樣本
在大模型向萬(wàn)億參數(shù)、多模態(tài)方向快速迭代的行業(yè)背景下,超節(jié)點(diǎn)已成為互聯(lián)網(wǎng)企業(yè)突破AI算力瓶頸的核心選擇,其商業(yè)價(jià)值通過(guò)多個(gè)實(shí)踐案例充分顯現(xiàn)。
第一,商用成本與效率雙優(yōu)。某頭部互聯(lián)網(wǎng)企業(yè)采用超節(jié)點(diǎn)部署MoE模型分布式推理方案,依托超大帶寬、超低時(shí)延特性,以及內(nèi)存統(tǒng)一編址帶來(lái)的直接數(shù)據(jù)訪問(wèn)能力,無(wú)需CPU中轉(zhuǎn)即可完成跨芯片數(shù)據(jù)交互,將單token成本壓縮40%-50%,單卡吞吐較行業(yè)平均水平提升2.4-2.8倍,成功打通MoE模型規(guī)模化商用的關(guān)鍵路徑。
第二,大模型訓(xùn)練效能躍升。另一互聯(lián)網(wǎng)科技公司依托超節(jié)點(diǎn)的內(nèi)存統(tǒng)一編址能力,徹底打破傳統(tǒng)集群的資源孤島限制,配合高效互聯(lián)協(xié)議,讓訓(xùn)練過(guò)程中頻繁的參數(shù)同步與數(shù)據(jù)交互無(wú)需額外轉(zhuǎn)換流程,將未掩蓋的通信耗時(shí)占比優(yōu)化至 15%,大幅提升算力利用率,高效支撐了多專(zhuān)家、長(zhǎng)序列基礎(chǔ)模型的訓(xùn)練工作。
第三,技術(shù)生態(tài)靈活適配。國(guó)內(nèi)某互聯(lián)網(wǎng)平臺(tái)基于超節(jié)點(diǎn)推進(jìn)強(qiáng)化學(xué)習(xí)訓(xùn)練,內(nèi)存統(tǒng)一編址技術(shù)保障了Qwen、DeepSeek等主流模型在跨芯片協(xié)同計(jì)算時(shí)的數(shù)據(jù)一致性與傳輸效率,配合超節(jié)點(diǎn)對(duì)verl+vLLM等工具鏈的兼容能力,讓企業(yè)無(wú)需在算力適配層額外投入,得以聚焦算法創(chuàng)新,加速技術(shù)落地。
可以看出,這些來(lái)自互聯(lián)網(wǎng)行業(yè)的實(shí)踐案例,充分驗(yàn)證了超節(jié)點(diǎn)在大模型訓(xùn)推效率、成本控制、技術(shù)創(chuàng)新等方面的核心價(jià)值。作為AI基礎(chǔ)設(shè)施的新一代形態(tài),超節(jié)點(diǎn)正通過(guò)與互聯(lián)網(wǎng)廠商的深度協(xié)同,加速大模型技術(shù)從實(shí)驗(yàn)室走向產(chǎn)業(yè)實(shí)踐。
運(yùn)營(yíng)商部署超節(jié)點(diǎn),從技術(shù)驗(yàn)證到規(guī)模落地的實(shí)踐樣本
在超節(jié)點(diǎn)應(yīng)用前,電信運(yùn)營(yíng)商在AI大模型時(shí)代面臨著傳統(tǒng)集群難以支撐千億級(jí)參數(shù)行業(yè)大模型的訓(xùn)練需求,跨節(jié)點(diǎn)數(shù)據(jù)傳輸時(shí)延導(dǎo)致推理響應(yīng)速度不達(dá)標(biāo),制約AI和通信融合。筆者了解到多家電信運(yùn)營(yíng)商已完成昇騰超節(jié)點(diǎn)部署實(shí)踐,驗(yàn)證其技術(shù)成熟度與行業(yè)適配價(jià)值。
![]()
其一,國(guó)內(nèi)某電信運(yùn)營(yíng)商的基礎(chǔ)大模型項(xiàng)目,依托昇騰384超節(jié)點(diǎn)架構(gòu)優(yōu)勢(shì),以及內(nèi)存統(tǒng)一編址帶來(lái)的高效數(shù)據(jù)交互能力,跨芯片參數(shù)同步效率顯著提升,通過(guò)機(jī)間通信合并優(yōu)化進(jìn)一步降低隨機(jī)通信量,最終實(shí)現(xiàn)訓(xùn)練性能提升20%;在集群穩(wěn)定性層面,借助算子通信預(yù)建鏈等技術(shù),將大規(guī)模集群的故障恢復(fù)時(shí)間縮短至小于13分鐘,集群可用度達(dá)99%。
其二,某運(yùn)營(yíng)商智算平臺(tái)搭載昇騰超節(jié)點(diǎn),內(nèi)存統(tǒng)一編址技術(shù)讓Llama3.1-405B 模型訓(xùn)練中的海量中間數(shù)據(jù)可直接跨芯片訪問(wèn),減少了數(shù)據(jù)遷移損耗,使其算力利用率(MFU)達(dá)到43%,處于業(yè)界領(lǐng)先水平;同時(shí)通過(guò)冷熱專(zhuān)家遷移創(chuàng)新,解決MoE模型訓(xùn)練中熱門(mén)/冷門(mén)專(zhuān)家分布不均的問(wèn)題,在收益區(qū)間內(nèi)實(shí)現(xiàn)性能提升7.83%。
這些實(shí)踐充分證明,昇騰超節(jié)點(diǎn)憑借在性能優(yōu)化、穩(wěn)定性保障與場(chǎng)景適配方面的核心優(yōu)勢(shì),精準(zhǔn)破解了運(yùn)營(yíng)商在大模型發(fā)展中的核心痛點(diǎn),為運(yùn)營(yíng)商在智算競(jìng)爭(zhēng)中構(gòu)建差異化優(yōu)勢(shì)、實(shí)現(xiàn)算力+算法+數(shù)據(jù)全棧能力升級(jí)奠定了堅(jiān)實(shí)基礎(chǔ)。
筆者觀察:為何昇騰超節(jié)點(diǎn)成為引領(lǐng)者?
看完現(xiàn)場(chǎng)展示,筆者更加確定所有超節(jié)點(diǎn)的落地實(shí)踐,在實(shí)際應(yīng)用中,內(nèi)存統(tǒng)一編址都是必備能力,這與部分同類(lèi)超節(jié)點(diǎn)形成了鮮明對(duì)比。
市面上部分超節(jié)點(diǎn)產(chǎn)品仍采用傳統(tǒng)以太網(wǎng)方案,受限于架構(gòu)特性無(wú)法實(shí)現(xiàn)內(nèi)存統(tǒng)一編址,本質(zhì)僅是高速互聯(lián)的硬件堆疊。這類(lèi)方案的數(shù)據(jù)傳輸依賴(lài)傳統(tǒng)消息通信模式,跨節(jié)點(diǎn)訪問(wèn)需經(jīng)CPU中轉(zhuǎn)完成數(shù)據(jù)序列化與反序列化,不僅時(shí)延難以突破毫秒級(jí)下限,更無(wú)法支持內(nèi)存語(yǔ)義通信,導(dǎo)致大模型訓(xùn)練中高頻小包數(shù)據(jù)傳輸效率低下,形成難以突破的通信瓶頸。
這就像沒(méi)有統(tǒng)一門(mén)牌號(hào)的大型社區(qū),不同樓棟(對(duì)應(yīng)芯片/節(jié)點(diǎn))的住戶(hù)(數(shù)據(jù))要互通消息,得先找社區(qū)管理員(CPU)登記核實(shí)位置,再通過(guò)專(zhuān)門(mén) 的送信人(傳統(tǒng)通信協(xié)議)傳遞,不僅要走繁瑣流程,還容易因信息傳遞偏差耽誤時(shí)間。
而具備內(nèi)存統(tǒng)一編址能力的超節(jié)點(diǎn),就像給社區(qū)里每一戶(hù)都分配了唯一且通用的門(mén)牌號(hào),所有住戶(hù)憑借門(mén)牌號(hào)就能上門(mén)溝通,數(shù)據(jù)在不同芯片間的訪問(wèn)無(wú)需額外轉(zhuǎn)換流程,就像鄰里間即時(shí)對(duì)話般順暢,這正是大模型訓(xùn)練中打破內(nèi)存孤島、實(shí)現(xiàn)高效協(xié)同計(jì)算的關(guān)鍵所在。
因此我們認(rèn)為,超節(jié)點(diǎn)的定義除了超大帶寬和超低時(shí)延之外,“內(nèi)存統(tǒng)一編址”是必備能力。業(yè)界有聲音認(rèn)為,不能支持超節(jié)點(diǎn)域內(nèi)“內(nèi)存統(tǒng)一編址”能力的都不是超節(jié)點(diǎn)。
當(dāng)前,眾多企業(yè)紛紛布局超節(jié)點(diǎn)產(chǎn)品。筆者發(fā)現(xiàn),不同廠商的技術(shù)路線各有側(cè)重:有的主打單機(jī)柜高密度部署,有的聚焦封閉生態(tài)下的極致性能,有的側(cè)重開(kāi)放架構(gòu)的兼容性。
在這些玩家中,昇騰超節(jié)點(diǎn)為何能成為全球超節(jié)點(diǎn)領(lǐng)域的引領(lǐng)者?
首先,技術(shù)架構(gòu)與工程創(chuàng)新雙領(lǐng)先。昇騰超節(jié)點(diǎn)以超大帶寬、超低時(shí)延及內(nèi)存統(tǒng)一編址三大核心能力為架構(gòu)基石,通過(guò)自研靈衢總線實(shí)現(xiàn)384卡超節(jié)點(diǎn)的緊密耦合,徹底攻克節(jié)點(diǎn)內(nèi)通信瓶頸。依托這一先進(jìn)架構(gòu),結(jié)合工程技術(shù)創(chuàng)新,打造了規(guī)模領(lǐng)先的超節(jié)點(diǎn)產(chǎn)品。
其次,生態(tài)開(kāi)放性與兼容性,相比國(guó)外企業(yè)的封閉生態(tài),昇騰超節(jié)點(diǎn)的開(kāi)放互聯(lián)協(xié)議更能適應(yīng)多廠商協(xié)同的產(chǎn)業(yè)需求。
最后,場(chǎng)景適配深度,從運(yùn)營(yíng)商的算力服務(wù)到金融行業(yè)的核心業(yè)務(wù),從大模型訓(xùn)練到端側(cè)部署,昇騰超節(jié)點(diǎn)已在多領(lǐng)域形成成熟方案,展現(xiàn)出強(qiáng)大的場(chǎng)景適配能力。
未來(lái)隨著AI技術(shù)向更深入、更廣泛的領(lǐng)域滲透,超節(jié)點(diǎn)的應(yīng)用場(chǎng)景將不斷拓展。而內(nèi)存統(tǒng)一編址作為超節(jié)點(diǎn)的核心必備能力,將成為行業(yè)準(zhǔn)入的硬標(biāo)準(zhǔn)。
算力潮涌開(kāi)新境,生態(tài)協(xié)同啟遠(yuǎn)航。超節(jié)點(diǎn)為AI時(shí)代的競(jìng)爭(zhēng)提供了新賽道,而昇騰生態(tài)不僅將推動(dòng)超節(jié)點(diǎn)技術(shù)不斷成熟,更會(huì)讓智能時(shí)代的紅利惠及更多行業(yè)與用戶(hù)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.