近年來,AI技術(shù)的崛起,加速推動(dòng)數(shù)據(jù)中心等基礎(chǔ)設(shè)施全面走向重塑。
然而,與AI服務(wù)器、AI芯片等炙手可熱相比,BMC(Baseboard Management Controller,即基板管理控制器)固件似乎并非聚光燈下的主角,卻又在基礎(chǔ)設(shè)施演進(jìn)中發(fā)揮著不可替代的作用。尤其是AI應(yīng)用井噴、AI集群規(guī)模愈發(fā)龐大、數(shù)據(jù)中心各類設(shè)備數(shù)量持續(xù)攀升的背景下,服務(wù)器的BMC固件堪稱解鎖大規(guī)模多元算力基礎(chǔ)設(shè)施運(yùn)維管理的“金鑰匙”。
正所謂見微知著、睹始知終,作為大規(guī)模算力基礎(chǔ)設(shè)施的運(yùn)維管理的關(guān)鍵,BMC固件自身在AI時(shí)代也在發(fā)生巨大變化。以O(shè)penBMC為代表的開放固件,全面驅(qū)動(dòng)著BMC固件技術(shù)走向開放與協(xié)作,從產(chǎn)業(yè)生態(tài)、產(chǎn)品技術(shù)和解決方案等方面突破傳統(tǒng)技術(shù)的瓶頸,探索出基礎(chǔ)設(shè)施運(yùn)維管理的共贏之路。
近日,《BMC開放固件產(chǎn)業(yè)報(bào)告》(以下簡稱:《報(bào)告》)出爐,不僅總結(jié)開放固件產(chǎn)業(yè)十年發(fā)展?fàn)顩r,更展望BMC管理技術(shù)未來的演進(jìn)趨勢和方向,標(biāo)志著開放固件產(chǎn)業(yè)以積跬步至千里、積小流成江海的態(tài)勢,全面開啟產(chǎn)業(yè)快速發(fā)展的新篇章。
![]()
傳統(tǒng)技術(shù)路線瓶頸凸顯
在算力基礎(chǔ)設(shè)施向多元化演進(jìn),算力架構(gòu)全面轉(zhuǎn)向以加速器為中心的趨勢下,傳統(tǒng)BMC固件的技術(shù)路線正遇到巨大的瓶頸。
究其原因,人工智能、大數(shù)據(jù)、云計(jì)算等多樣性業(yè)務(wù)應(yīng)用的驅(qū)動(dòng),使得算力基礎(chǔ)設(shè)施發(fā)生根本性變化,基礎(chǔ)設(shè)施的監(jiān)控管理需要在架構(gòu)兼容性、平臺(tái)適應(yīng)性及業(yè)務(wù)場景靈活支持等方面適配全新的需求。AIGC的爆發(fā),給數(shù)據(jù)中心等基礎(chǔ)設(shè)施帶來一系列全新的挑戰(zhàn),也是BMC固件加速變革的重要時(shí)間點(diǎn)。
面對這些變化,傳統(tǒng)BMC固件技術(shù)逐漸“捉襟見肘”。
其一、無法滿足多處理器平臺(tái)架構(gòu)的兼容性需求,傳統(tǒng)BMC固件采用耦合設(shè)計(jì),架構(gòu)封閉且可擴(kuò)展性差,難以適配多元算力芯片、用戶需求的多樣性和業(yè)務(wù)場景的快速變化;
其二、固件開發(fā)迭代與算力快速發(fā)展嚴(yán)重不匹配,傳統(tǒng)IBV Codebase長達(dá)半年乃至一年的固件迭代周期,與AI時(shí)代多元異構(gòu)算力芯片的快速迭代周期脫節(jié),加上傳統(tǒng)固件處理問題效率低下,嚴(yán)重制約了算力基礎(chǔ)設(shè)施的快速演進(jìn)。
其三、封閉生態(tài)與快速變化的創(chuàng)新需求矛盾突出,傳統(tǒng)BMC采取閉源模式與嚴(yán)格的許可協(xié)議,限制用戶對于固件的分發(fā)、修改與定制化開發(fā),難以滿足數(shù)據(jù)中心對基礎(chǔ)設(shè)施運(yùn)維管理的標(biāo)準(zhǔn)化、智能化和精細(xì)化等需求。
傳統(tǒng)IBV還是以封閉架構(gòu)為主,代碼轉(zhuǎn)發(fā)受制于商業(yè)考量,需要付費(fèi)授權(quán)等,從最重要的客戶側(cè)來看,國內(nèi)外一些大型互聯(lián)網(wǎng)、CSP廠商均在加速從傳統(tǒng)方案向開放性方案遷移。
事實(shí)上,與數(shù)據(jù)中心硬件開放的大趨勢一樣,BMC固件在傳統(tǒng)技術(shù)瓶頸凸顯之際,也全面走向開放。以O(shè)penBMC為代表的開源項(xiàng)目,通過十年時(shí)間的耕耘,為開放固件產(chǎn)業(yè)的發(fā)展夯實(shí)了牢固的生態(tài)、技術(shù)基礎(chǔ)。
OpenBMC十年,開放固件產(chǎn)業(yè)成型
開放與協(xié)作是BMC固件領(lǐng)域近年來最大的呼聲。
如今,開放固件已然形成產(chǎn)業(yè)良好發(fā)展的態(tài)勢,哪怕是傳統(tǒng)BMC技術(shù)方案商,也在積極擁抱開源項(xiàng)目和推出開放固件場景。這一切源于2014年OpenBMC開源項(xiàng)目的成立,以及數(shù)據(jù)中心用戶、系統(tǒng)廠商、芯片廠商等產(chǎn)業(yè)上下游伙伴之后的持續(xù)推動(dòng)。
《報(bào)告》就指出,OpenBMC相較傳統(tǒng)BMC固件,在技術(shù)架構(gòu)、開發(fā)模式上具有顯著優(yōu)勢,通過高度可擴(kuò)展的軟件框架、歸一化的接口,實(shí)現(xiàn)多元算力的兼容適配,并提升平臺(tái)的穩(wěn)定性,為產(chǎn)業(yè)聯(lián)合創(chuàng)新提供統(tǒng)一的平臺(tái)。2024年可謂是開放固件產(chǎn)業(yè)化落地的元年。上至用戶側(cè),下至芯片廠商,均在積極擁抱基于OpenBMC的開放固件方案。
OpenBMC之所以能成功引領(lǐng)開放固件產(chǎn)業(yè)的快速發(fā)展,首先離不開過去十年產(chǎn)業(yè)界上下游伙伴的廣泛參與,并形成良性的產(chǎn)業(yè)生態(tài)。從2014年OpenBMC項(xiàng)目正式成立,到后續(xù)國內(nèi)外互聯(lián)網(wǎng)公司、CSP廠商陸續(xù)加入,再到2018年Linux基金會(huì)正式接納,OpenBMC項(xiàng)目用十年時(shí)間建成完善的產(chǎn)業(yè)生態(tài)和活躍的技術(shù)社區(qū)。
目前,OpenBMC社區(qū)用戶涵蓋最終用戶、處理器廠商、系統(tǒng)廠商、IBV等43家企業(yè);2018年至2024年9月,OpenBMC代碼貢獻(xiàn)量每年超過25萬行,社區(qū)持續(xù)保持高度活躍狀態(tài),在CSP客戶的大規(guī)模數(shù)據(jù)中心,部署節(jié)點(diǎn)均已超過上萬臺(tái),像IBM、Intel、AMD、浪潮信息等上下游企業(yè)均積極參與,其中浪潮信息已連續(xù)5年在社區(qū)代碼貢獻(xiàn)榜中穩(wěn)居中國第一。
![]()
其次,OpenBMC在技術(shù)層面經(jīng)過十年的打磨,穩(wěn)步構(gòu)建起層次分明、易于擴(kuò)展、穩(wěn)定性強(qiáng)的開放軟件框架,并且與Linux開源生態(tài)深度整合,廣泛兼容多種處理器平臺(tái)與算力芯片,支持快速、靈活的模塊化開發(fā)與適配,采用C++面向?qū)ο缶幊桃矘O大地豐富了函數(shù)庫資源和提升開發(fā)效率。
更為難得的是,OpenBMC遵循Apache 2.0開源許可,徹底打破過去傳統(tǒng)BMC封閉開發(fā)的模式,鼓勵(lì)代碼自由使用、修改和分發(fā),大幅提升開發(fā)效率和技術(shù)創(chuàng)新活力。
![]()
OpenBMC軟件架構(gòu)
第三,OpenBMC真正成為技術(shù)創(chuàng)新的催化劑,成功將用戶快速變化的場景需求與技術(shù)創(chuàng)新進(jìn)行對接,讓快速響應(yīng)、高效創(chuàng)新切實(shí)可行。
相比于一些傳統(tǒng)IBV廠商的產(chǎn)品,OpenBMC在BMC如何與AI融合、精準(zhǔn)預(yù)測等均走在產(chǎn)業(yè)探索的最前沿,功能創(chuàng)新和性能等方面更具優(yōu)勢。
例如,隨著大模型進(jìn)入到各行各業(yè),萬卡規(guī)模的AI集群也越來越多,但是AI集群隨著規(guī)模的持續(xù)增加,遇到突出的挑戰(zhàn)就是內(nèi)存故障而引發(fā)的大量訓(xùn)練任務(wù)中斷,嚴(yán)重影響到大模型的訓(xùn)練效果和AI應(yīng)用創(chuàng)新。這是當(dāng)前乃至今后很多用戶均會(huì)遇到的挑戰(zhàn),但如果依靠傳統(tǒng)BMC技術(shù)的迭代方式和開發(fā)速度,顯然很難滿足市場中的新需求。
對此,作為OpenBMC項(xiàng)目的深度參與者,浪潮信息快速創(chuàng)新,成功研發(fā)內(nèi)存故障智能預(yù)警修復(fù)技術(shù),基于對上萬臺(tái)服務(wù)器故障數(shù)據(jù)的建模分析和AI模型算法的訓(xùn)練,從內(nèi)存故障提前預(yù)警、內(nèi)存錯(cuò)誤實(shí)時(shí)隔離、內(nèi)存故障智能修復(fù)等技術(shù)層級創(chuàng)新,實(shí)現(xiàn)在架構(gòu)設(shè)計(jì)、錯(cuò)誤類型、防護(hù)等級等方面全面增強(qiáng),讓內(nèi)存故障導(dǎo)致的服務(wù)器宕機(jī)風(fēng)險(xiǎn)降低80%+,保障客戶業(yè)務(wù)高效穩(wěn)定運(yùn)行。
開放固件產(chǎn)業(yè)壯大,OpenBMC任重道遠(yuǎn)
問渠哪得清如許,唯有源頭活水來。
如今,憑借開源共享的理念和前沿的技術(shù)架構(gòu),OpenBMC實(shí)現(xiàn)對服務(wù)器管理市場格局的重塑,打破了傳統(tǒng)BMC市場的高門檻和專有技術(shù)壁壘,大幅提升市場創(chuàng)新活力,贏得產(chǎn)業(yè)鏈上下游的廣泛認(rèn)可和積極參與,成為開放固件產(chǎn)業(yè)的創(chuàng)新源頭和活水,推動(dòng)開放固件產(chǎn)業(yè)的建立和穩(wěn)步發(fā)展。
不過,要想讓開放固件產(chǎn)業(yè)持續(xù)壯大,OpenBMC依然任重道遠(yuǎn),需要在標(biāo)準(zhǔn)化、產(chǎn)業(yè)拓展和生態(tài)協(xié)同發(fā)展等方面持續(xù)下功夫,逐步形成可持續(xù)的發(fā)展模式,真正滿足更加廣泛的市場需求。
首先是如何加速標(biāo)準(zhǔn)化的進(jìn)程,逐步破解兼容性與互操作性難題。越來越多產(chǎn)業(yè)伙伴、用戶加入其中,OpenBMC對于標(biāo)準(zhǔn)化的進(jìn)一步深化,無疑將有助于降低系統(tǒng)整合的復(fù)雜性和提高不同設(shè)備之間的互操作性,提升數(shù)據(jù)中心運(yùn)維效率與穩(wěn)定性。
例如,近年來《服務(wù)器基板管理控制器(BMC)技術(shù)要求》與《服務(wù)器基板管理控制器(BMC)測試方法》等一系列關(guān)鍵標(biāo)準(zhǔn)的頒布,對于BMC固件的規(guī)范化發(fā)展奠定堅(jiān)實(shí)基礎(chǔ)。后續(xù),隨著更多標(biāo)準(zhǔn)化舉措的實(shí)施與完善,BMC開放固件的標(biāo)準(zhǔn)化水平也有望得到持續(xù)提升。
第二,OpenBMC用十年時(shí)間征服了互聯(lián)網(wǎng)公司、CSP廠商,接下來最重要的工作就是如何實(shí)現(xiàn)行業(yè)、應(yīng)用場景的延伸與擴(kuò)展,逐漸延伸到金融、運(yùn)營商等行業(yè)之中。眾所周知,金融、運(yùn)營商等傳統(tǒng)行業(yè)由于自身業(yè)務(wù)的需求不同,對于BMC固件的穩(wěn)定性、可靠性要求更高,對于像OpenBMC等開源方案也會(huì)更加謹(jǐn)慎。但隨著開放固件在技術(shù)上的成熟,加上有互聯(lián)網(wǎng)的標(biāo)桿效應(yīng),像金融等傳統(tǒng)行業(yè)也會(huì)積極擁抱OpenBMC。
第三,OpenBMC社區(qū)的繁榮發(fā)展,參與者越來越多,不可避免地會(huì)出現(xiàn)版本分化的情況出現(xiàn),影響系統(tǒng)的統(tǒng)一性和兼容性,需要OpenBMC項(xiàng)目在保持開放性的同時(shí),也需要確保項(xiàng)目的統(tǒng)一性和方向性。
社區(qū)主線不會(huì)無限吸納各種Feature,且每個(gè)代碼模塊都有資深專家來維護(hù),以確保代碼的通用性。此外,從長期來看,OpenBMC會(huì)類似Llama那樣,形成一個(gè)開放的方案和多個(gè)分支,在開放性、統(tǒng)一性等方面取得一定的平衡。
大數(shù)據(jù)在線是聚焦人工智能、大數(shù)據(jù)、云計(jì)算等前沿科技領(lǐng)域深度觀察的深度媒體。目前,大數(shù)據(jù)在線在微信公眾號、今日頭條號、新浪財(cái)經(jīng)、36氪、雪球號、觀察號等主流自媒體平臺(tái)均有入駐,積累粉絲超過20W;并榮獲今日頭條十大科技新銳媒體、商業(yè)新知十大人工智能媒體等多項(xiàng)殊榮。商務(wù)聯(lián)系請?zhí)砑游⑿牛篛wen_Inter,添加請備注具體信息。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.