近日,MLCommons協(xié)會(huì)發(fā)布最新MLPerf? Storage v1.0 AI存儲(chǔ)基準(zhǔn)測(cè)試成績(jī)。
測(cè)試結(jié)果頗有些意外,卻又在情理之中:以浪潮信息為首的三家中國(guó)存儲(chǔ)廠(chǎng)商位列MLPerf? Storage多項(xiàng)細(xì)分評(píng)測(cè)最佳,中國(guó)速度在全球AI存儲(chǔ)權(quán)威測(cè)試中實(shí)現(xiàn)領(lǐng)跑。這既是中國(guó)數(shù)據(jù)存儲(chǔ)產(chǎn)業(yè)整體實(shí)力近年來(lái)穩(wěn)步提升的客觀反映,也是AI時(shí)代中國(guó)存儲(chǔ)廠(chǎng)商產(chǎn)品與技術(shù)創(chuàng)新能力的集中體現(xiàn)。
隨著AI技術(shù)與AI應(yīng)用不斷進(jìn)入到千行百業(yè),各大行業(yè)圍繞AI、數(shù)據(jù)要素等發(fā)展新質(zhì)生產(chǎn)力已成為確定性趨勢(shì)。可以預(yù)見(jiàn),算力與存力齊頭并進(jìn)的局面也將全面打開(kāi),而中國(guó)存儲(chǔ)廠(chǎng)商在AI存儲(chǔ)領(lǐng)域的持續(xù)創(chuàng)新,有望推動(dòng)存算協(xié)同效應(yīng)持續(xù)優(yōu)化,讓AI技術(shù)在千行百業(yè)中遍地開(kāi)花。
MLPerf測(cè)試:存儲(chǔ)性能的一把新標(biāo)尺
一直以來(lái),性能都是衡量存儲(chǔ)系統(tǒng)的重要指標(biāo)之一。
過(guò)去,SPC測(cè)試(Storage Performance Council,存儲(chǔ)性能委員會(huì)測(cè)試)是存儲(chǔ)系統(tǒng)性能的權(quán)威評(píng)測(cè);如今,隨著AI大模型獲得越來(lái)越多應(yīng)用,關(guān)鍵在于對(duì)于大規(guī)模海量數(shù)據(jù)的高效處理,這不僅僅需要強(qiáng)大的AI算力,亦離不開(kāi)存儲(chǔ)系統(tǒng)在性能、可靠性等方面的有力支撐。那么,如何衡量存儲(chǔ)在AI場(chǎng)景中的性能、可靠性等能力?
為此,MLPerf?應(yīng)運(yùn)而生。MLPerf? 是影響力最廣的國(guó)際AI性能基準(zhǔn)評(píng)測(cè),由圖靈獎(jiǎng)得主大衛(wèi)?帕特森(David Patterson)聯(lián)合頂尖學(xué)術(shù)機(jī)構(gòu)發(fā)起成立,并于2023年推出MLPerf? Storage基準(zhǔn)性能測(cè)試,該測(cè)試通過(guò)準(zhǔn)確建模ML工作負(fù)載所產(chǎn)生的I/O模式來(lái)幫助解決存算平衡問(wèn)題,為不同存儲(chǔ)系統(tǒng)和不同加速器類(lèi)型的混合和匹配提供靈活性,為ML/AI模型開(kāi)發(fā)者選擇存儲(chǔ)解決方案提供權(quán)威的參考依據(jù)。
![]()
據(jù)悉,MLPerf? Storage基準(zhǔn)性能測(cè)試推出兩年時(shí)間里,已歷多個(gè)版本迭代,并獲得全球多家廠(chǎng)存儲(chǔ)廠(chǎng)商的積極參與和支持。以本次測(cè)試為例,評(píng)測(cè)圍繞醫(yī)學(xué)影像分割、圖像分類(lèi)、宇宙學(xué)參數(shù)預(yù)測(cè)三大AI存儲(chǔ)應(yīng)用場(chǎng)景,采用主流的3D-Unet、ResNet50、CosmoFlow三類(lèi)模型,在GPU利用率高達(dá)90%或70%的條件下,以帶寬和支持的模擬 GPU (模擬加速器)數(shù)量為關(guān)鍵性能指標(biāo),評(píng)估單客戶(hù)端或集群模式下存儲(chǔ)系統(tǒng)的性能表現(xiàn)。
可以說(shuō),MLPerf? Storage基準(zhǔn)測(cè)試正迅速成長(zhǎng)為衡量存儲(chǔ)在AI場(chǎng)景中性能產(chǎn)品力的一把標(biāo)尺。浪潮信息存儲(chǔ)產(chǎn)品線(xiàn)副總經(jīng)理劉希猛介紹,ML commons協(xié)會(huì)已有超過(guò)160個(gè)會(huì)員,MLPerf? Storage基準(zhǔn)測(cè)試建立之初就以架構(gòu)中立、公平性和可重復(fù)性為宗旨,從測(cè)試的設(shè)計(jì)端盡量確保客觀、公正地反映存儲(chǔ)系統(tǒng)在AI場(chǎng)景中的的性能。
再仔細(xì)分析MLPerf? Storage基準(zhǔn)測(cè)試,其數(shù)據(jù)格式、測(cè)試套件框架、測(cè)試邏輯和流程均高度適配真實(shí)AI場(chǎng)景,任何存儲(chǔ)廠(chǎng)商均能在相同的、公正的平臺(tái)上測(cè)試自身軟、硬件的產(chǎn)品性能,從而快速評(píng)估自身產(chǎn)品的能力。
例如,MLPerf? Storage基準(zhǔn)測(cè)試為保證測(cè)試公正性,通過(guò)運(yùn)行一個(gè)分布式訓(xùn)練測(cè)試程序,模擬GPU計(jì)算過(guò)程,最大程度還原AI服務(wù)器對(duì)存儲(chǔ)系統(tǒng)的訪(fǎng)問(wèn),在滿(mǎn)足計(jì)算資源利用率和IO時(shí)間相同的條件下,比較存儲(chǔ)在同樣時(shí)間里加載和處理數(shù)據(jù)的利用率,以此來(lái)測(cè)試存儲(chǔ)系統(tǒng)能夠支撐的最大GPU數(shù)量和性能表現(xiàn)。
“像3D-UNet測(cè)試不允許提前在主機(jī)上緩存數(shù)據(jù),數(shù)據(jù)需要從存儲(chǔ)節(jié)點(diǎn)讀取,能夠更加全面、科學(xué)體現(xiàn)存儲(chǔ)系統(tǒng)在大規(guī)模AI集群中的性能表現(xiàn)。”浪潮信息分布式存儲(chǔ)方案架構(gòu)師Lance Sun介紹道。
![]()
事實(shí)上,全球有十三家重量級(jí)存儲(chǔ)廠(chǎng)商參與本次評(píng)測(cè),以浪潮信息為代表的三家中國(guó)存儲(chǔ)廠(chǎng)商表現(xiàn)優(yōu)異。其中,浪潮信息更是主動(dòng)選擇封閉賽道,嚴(yán)格遵循既定配置和代碼規(guī)范,其分布式存儲(chǔ)平臺(tái)AS13000G7在3D-UNet和CosmoFlow兩個(gè)模型共計(jì)8項(xiàng)測(cè)試中斬獲5項(xiàng)最佳成績(jī),展現(xiàn)出極強(qiáng)的產(chǎn)品競(jìng)爭(zhēng)力。
中國(guó)速度領(lǐng)跑
為什么中國(guó)存儲(chǔ)廠(chǎng)商能在MLPerf? Storage性能基準(zhǔn)測(cè)試中領(lǐng)跑?
事實(shí)上,這更像是中國(guó)存儲(chǔ)產(chǎn)業(yè)不斷積累和持續(xù)成長(zhǎng)的必然結(jié)果。十年前的SPC測(cè)試開(kāi)始,中國(guó)存儲(chǔ)產(chǎn)品逐漸登陸SPC性能榜單之中,那時(shí)候中國(guó)存儲(chǔ)廠(chǎng)商渴望在國(guó)際權(quán)威舞臺(tái)中證明自己,后來(lái)甚至屢次上演霸榜的好戲,“不服?跑個(gè)分!”成為中國(guó)存儲(chǔ)廠(chǎng)商的常規(guī)操作。
隨著AI大模型的興起,AI場(chǎng)景的大量涌現(xiàn),對(duì)于存儲(chǔ)系統(tǒng)的性能、多協(xié)議、可靠性、數(shù)據(jù)管理等帶來(lái)深遠(yuǎn)影響。與SPC那套成熟的測(cè)試機(jī)制相比,以MLPerf? Storage為代表的聚焦AI場(chǎng)景的存儲(chǔ)基準(zhǔn)測(cè)試剛剛起步,尚處于高速發(fā)展的階段。此時(shí),中國(guó)存儲(chǔ)廠(chǎng)從早期就積極參與其中,更像產(chǎn)業(yè)新標(biāo)準(zhǔn)、新規(guī)則制定的參與者,是趨勢(shì)理解、技術(shù)能力、場(chǎng)景洞察等能力的綜合體現(xiàn)。
例如,在本次MLPerf? Storage基準(zhǔn)評(píng)測(cè)中,浪潮信息率先在Cosmoflow場(chǎng)景中發(fā)現(xiàn)問(wèn)題,即哪怕將數(shù)據(jù)集放在內(nèi)存之中,GPU的利用率依然達(dá)不到90%。因此,浪潮信息第一時(shí)間與MLCommons進(jìn)行溝通,反饋測(cè)試套件、平臺(tái)標(biāo)準(zhǔn)的缺陷,并與英偉達(dá)等公司一起討論、論證,最終制定出Cosmoflow場(chǎng)景GPU70%利用率的標(biāo)準(zhǔn)。
另外,像浪潮信息能夠在3D-UNet和CosmoFlow兩個(gè)模型共計(jì)8項(xiàng)測(cè)試中斬獲5項(xiàng)最佳,離不開(kāi)其較早涉足大模型訓(xùn)練、推理等場(chǎng)景的深度實(shí)踐,對(duì)于AI場(chǎng)景中軟硬協(xié)同有著深刻理解,并且從整體架構(gòu)到軟硬件各個(gè)技術(shù)棧進(jìn)行多個(gè)層面的針對(duì)性創(chuàng)新,從而在MLPerf? Storage基準(zhǔn)評(píng)測(cè)中實(shí)現(xiàn)領(lǐng)跑。
例如,在架構(gòu)層面,浪潮信息采用自研分布式軟件棧,通過(guò)全新數(shù)控分離架構(gòu),數(shù)據(jù)面和控制面完全解耦,實(shí)現(xiàn)120 GB/s的單存儲(chǔ)節(jié)點(diǎn)超高性能,單存儲(chǔ)節(jié)點(diǎn)支撐5臺(tái)8卡計(jì)算節(jié)點(diǎn)規(guī)模,同時(shí)計(jì)算集群GPU利用率90%以上;在軟件層面,浪潮信息通過(guò)多路并發(fā)透?jìng)骷夹g(shù),有效減少I(mǎi)/O操作中頻繁的上下文切換,降低單次I/O時(shí)延50%,并確保高并發(fā)下的時(shí)延穩(wěn)定性;在軟硬協(xié)同層面,浪潮信息通過(guò)內(nèi)核親和力調(diào)度,I/O請(qǐng)求動(dòng)態(tài)調(diào)整,增強(qiáng)文件系統(tǒng)與計(jì)算節(jié)點(diǎn)親和性,確保負(fù)載均衡,將數(shù)據(jù)移動(dòng)與多核CPU之間的訪(fǎng)問(wèn)效率提升400%。
![]()
劉希猛介紹,針對(duì)AI場(chǎng)景的實(shí)踐,浪潮信息的存儲(chǔ)產(chǎn)品有兩個(gè)核心策略:其一是以客戶(hù)需求為導(dǎo)向,從實(shí)際AI場(chǎng)景應(yīng)用出發(fā)來(lái)打造定制化的存儲(chǔ)產(chǎn)品;其二,通過(guò)成熟的AI場(chǎng)景解決方案能力來(lái)精準(zhǔn)平衡客戶(hù)需求、資源分配與成本控制,為AI場(chǎng)景構(gòu)建堅(jiān)實(shí)的數(shù)據(jù)支撐平臺(tái)。
MLperf后續(xù):存算協(xié)同將深入人心
毫無(wú)疑問(wèn),AI大模型徹底改變了基礎(chǔ)設(shè)施的規(guī)模與復(fù)雜性。
如今,隨著AI大模型加速走向各大垂直行業(yè),千卡、萬(wàn)卡集群也在不斷涌現(xiàn),并且多元算力也加速成為主流配置。可以說(shuō),在算力側(cè)的巨大變化,無(wú)疑會(huì)進(jìn)一步全面提高對(duì)存儲(chǔ)側(cè)在性能、可靠性、容量、功耗和管理的要求。
因此,存算協(xié)同在未來(lái)必然會(huì)獲得更多用戶(hù)的關(guān)注。MLPerf? Storage基準(zhǔn)性能測(cè)試無(wú)疑開(kāi)了個(gè)好頭,真正從基準(zhǔn)測(cè)試的維度來(lái)衡量存算協(xié)同能力,也值得廠(chǎng)商、用戶(hù)等更多關(guān)注。
在Lance Sun看來(lái),MLPerf? Storage基準(zhǔn)性能測(cè)試剛剛開(kāi)展兩年,但在產(chǎn)業(yè)界已產(chǎn)生了重要影響,值得持續(xù)關(guān)注和參與。首先,未來(lái)一定會(huì)有包括更多中國(guó)廠(chǎng)商參與到MLPerf? Storage基準(zhǔn)性能測(cè)試中來(lái);其次,未來(lái)像向量數(shù)據(jù)庫(kù)、能耗等一些新的規(guī)則有望引入,測(cè)試標(biāo)準(zhǔn)和規(guī)范會(huì)得到持續(xù)迭代、完善,讓基準(zhǔn)性能測(cè)試更加科學(xué)準(zhǔn)確。
綜合觀察,在數(shù)實(shí)融合和發(fā)展新質(zhì)生產(chǎn)力的驅(qū)動(dòng)下,千行百業(yè)加速擁抱人工智能已是大勢(shì)所趨。隨著AI大模型技術(shù)自身的快速發(fā)展,對(duì)于算力、存力等基礎(chǔ)設(shè)施帶來(lái)巨大變革。如何最大化發(fā)揮基礎(chǔ)設(shè)施的價(jià)值,讓存算協(xié)同的重要性迅速提升,也驅(qū)動(dòng)著中國(guó)存儲(chǔ)產(chǎn)業(yè)加速成長(zhǎng)與持續(xù)創(chuàng)新。MLPerf? Storage基準(zhǔn)性能測(cè)試?yán)_(kāi)AI存儲(chǔ)賽道比拼的新序幕,以浪潮信息為代表的中國(guó)存儲(chǔ)廠(chǎng)商有望在這條賽道中跑出中國(guó)速度、引領(lǐng)存儲(chǔ)新變革。
大數(shù)據(jù)在線(xiàn)是聚焦人工智能、大數(shù)據(jù)、云計(jì)算等前沿科技領(lǐng)域深度觀察的深度媒體。目前,大數(shù)據(jù)在線(xiàn)在微信公眾號(hào)、今日頭條號(hào)、新浪財(cái)經(jīng)、36氪、雪球號(hào)、觀察號(hào)等主流自媒體平臺(tái)均有入駐,積累粉絲超過(guò)20W;并榮獲今日頭條十大科技新銳媒體、商業(yè)新知十大人工智能媒體等多項(xiàng)殊榮。商務(wù)聯(lián)系請(qǐng)?zhí)砑游⑿牛篛wen_Inter,添加請(qǐng)備注具體信息。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.