![]()
智東西
作者 ZeR0
編輯 漠影
屬實(shí)沒想到,卡著全世界移動芯片脖子的Arm,突然發(fā)布了自研CPU!
智東西3月24日舊金山現(xiàn)場報道,剛剛,3500億顆芯片背后的半導(dǎo)體IP巨頭Arm,推出首款由Arm自主設(shè)計的數(shù)據(jù)中心CPU——Arm AGI CPU。
![]()
▲Arm CEO Rene Haas展示AGI CPU芯片
這是Arm發(fā)展35年來,首次推出對外銷售的自研芯片,也是Arm全新數(shù)據(jù)中心芯片產(chǎn)品線的首款產(chǎn)品,標(biāo)志著Arm正式進(jìn)軍數(shù)據(jù)中心芯片領(lǐng)域,將其高能效架構(gòu)規(guī)模化引入AI基礎(chǔ)設(shè)施。
Arm AGI CPU專為AI智能體基礎(chǔ)設(shè)施打造,采用臺積電3nm制程工藝、雙Chiplet設(shè)計,單顆CPU集成136個Arm Neoverse V3高性能核心,配備2MB L2緩存,支持3.7GHz主頻,提供每核心6GB/s內(nèi)存帶寬,內(nèi)存時延低于100ns,采用96通道PCIe Gen 6接口,支持CXL 3協(xié)議,TDP達(dá)300W。
![]()
Arm將其稱作“全球最高能效的智能體CPU”,圍繞性能、規(guī)模、能效三個原則來設(shè)計。
![]()
英偉達(dá)創(chuàng)始人兼CEO黃仁勛的巨臉出現(xiàn)在大屏幕上,祝賀Arm發(fā)布第一款數(shù)據(jù)中心芯片。
![]()
Arm AGI CPU的單核、系統(tǒng)級芯片、刀片式服務(wù)器及機(jī)架各層級均實(shí)現(xiàn)行業(yè)領(lǐng)先的性能表現(xiàn)。
通過更多可用線程與更高單線程處理能力相互疊加,該芯片可實(shí)現(xiàn)單機(jī)架性能達(dá)到x86平臺的2倍以上,每1GW的AI數(shù)據(jù)中心算力資本支出節(jié)省高達(dá)100億美元。
![]()
它支持高密度1U服務(wù)器機(jī)箱的風(fēng)冷部署方案,單機(jī)架可支持多達(dá)8160個計算核心;也支持液冷系統(tǒng),單機(jī)架可實(shí)現(xiàn)超過45000個核心的部署規(guī)模。
![]()
Arm CEO Rene Haas分享說,按其估算,自人類誕生以來,大約共有1170億人生活在這個星球上。而Arm芯片累計出貨量已超過3500億顆,足足是有史以來人類總數(shù)的3倍,是所有非Arm架構(gòu)CPU累計出貨量總和的7倍,平均每個全球家庭擁有160顆Arm芯片。
現(xiàn)在,Arm的核心業(yè)務(wù)包括三大塊:IP授權(quán)、CSS(計算子系統(tǒng))方案,以及自主設(shè)計的芯片產(chǎn)品。
![]()
Arm AGI CPU現(xiàn)已開放訂購,已交到客戶手中,正在由客戶評估,計劃在年底前實(shí)現(xiàn)量產(chǎn)。
![]()
Arm與永擎電子、聯(lián)想、廣達(dá)電腦、Supermicro等頭部OEM廠商及ODM廠商展開合作,早期系統(tǒng)現(xiàn)已推出,永擎電子、聯(lián)想及Supermicro已開放商用系統(tǒng)訂購,更廣泛的商用部署預(yù)計將于今年下半年落地。
![]()
▲聯(lián)想HR650A V3 2U機(jī)架服務(wù)器,配備兩顆Arm AGI CPU
Arm還披露了后續(xù)產(chǎn)品規(guī)劃,AGI CPU與Arm Neoverse CSS產(chǎn)品路線圖將并行推進(jìn),計劃2027年發(fā)布Arm AGI CPU 2和CSS V4,未來發(fā)布Arm AGI CPU 3和CSS V5,確保所有Arm數(shù)據(jù)中心客戶在平臺架構(gòu)與軟件兼容性方面實(shí)現(xiàn)協(xié)同發(fā)展。
![]()
在會后媒體問答環(huán)節(jié),Rene Haas談道,研發(fā)AGI CPU只是Arm商業(yè)模式的自然延伸,市場需求嚴(yán)重未被滿足,中國可能是非常好的市場。
另據(jù)Arm云AI事業(yè)部執(zhí)行副總裁Mohamed Awad分享,Arm也在認(rèn)真研究NVLink等互連技術(shù),已宣布將在未來版本的CSS中支持NVLink。
一、采用簡化架構(gòu),沒有多線程,擺脫x86 CPU的額外開銷與復(fù)雜性
Rene Haas談道,智能體的爆炸式增長催生更大的CPU需求。智能體本質(zhì)上是一個工作流,大量工作涉及調(diào)度,這正是CPU所擅長的工作,是加速器做不了的。
打個比方,加速器負(fù)責(zé)生成token,就像推一輛翻斗車,需要有人去搬運(yùn)那些土,CPU就是搬運(yùn)土的設(shè)備。
![]()
根據(jù)Arm的估算,數(shù)據(jù)中心對每GW功耗提供的CPU算力需求將增長至當(dāng)前的4倍以上,在相同功耗范圍內(nèi),以前需要3000萬CPU核心,現(xiàn)在需要塞入約4倍的1.2億個CPU核心。
功耗是寶貴的,所需資本也是寶貴的。試圖將如此多的額外CPU塞進(jìn)一個已經(jīng)被加速器和執(zhí)行核心工作的CPU塞得滿滿當(dāng)當(dāng)?shù)臄?shù)據(jù)中心,是一道難題。
![]()
對此,Arm打造了其首款對外銷售的自研芯片——Arm AGI CPU。
為什么要做這件事?Rene Haas談道,隨著智能體AI走向主流,所有支撐其運(yùn)轉(zhuǎn)的工作都依賴CPU,這顆CPU必須天生就具備在電池供電下運(yùn)行的基因。
x86架構(gòu)背負(fù)著執(zhí)行開銷和對遺留功能的支持負(fù)擔(dān),選擇了聚焦于模塊化、支持大量不同市場和小眾用例。而Arm專注于提升能效、降低延遲。
![]()
Arm AGI CPU從零開始設(shè)計,圍繞三個原則:性能、規(guī)模、能效。
![]()
(1)性能
高IPC(每周期指令數(shù))一直是Arm的強(qiáng)項。傳統(tǒng)CPU有時會試圖通過提高主頻、進(jìn)入Boost模式來在這一維度上競爭,但提高主頻,功耗也隨之上升,這些Boost模式無法長期持續(xù),也無法在整顆芯片上持續(xù)。而AGI CPU能提供全時間、可持續(xù)的滿血性能。
(2)規(guī)模
Arm在核心數(shù)量上實(shí)現(xiàn)線性擴(kuò)展,內(nèi)存和IO子系統(tǒng)經(jīng)過專門設(shè)計,與核心高度匹配。
一些傳統(tǒng)架構(gòu)采用多線程。多線程的實(shí)質(zhì)是向同一個核心丟兩個任務(wù),但I(xiàn)O和帶寬并不會因此翻倍,只是把瓶頸轉(zhuǎn)移到了別處,而且CPU還必須承擔(dān)管理這種來回切換的負(fù)擔(dān),導(dǎo)致性能下降,最終導(dǎo)致進(jìn)程饑餓。
Arm反復(fù)觀察到,數(shù)據(jù)中心運(yùn)營商不得不超額配置數(shù)據(jù)中心30%甚至更多,來應(yīng)對這種非線性擴(kuò)展的問題。
Arm以無需這樣做為傲。
![]()
▲AGI CPU與x86 CPU運(yùn)行同一任務(wù)的表現(xiàn)對比
(3)能效
Arm對能效有著近乎偏執(zhí)的專注。AGI CPU是專為目標(biāo)場景打造的,沒有任何遺留架構(gòu)的包袱,不浪費(fèi)任何一個周期,不存在擱淺的算力,不浪費(fèi)任何一瓦的功耗。
在實(shí)測中,AGI CPU可提供持續(xù)性能,沒有因超出功耗預(yù)算而導(dǎo)致的性能降頻,沒有內(nèi)存或IO爭用。
![]()
上圖中,左邊的AGI CPU和中間的x86 CPU柱形均在SMT(同步多線程)禁用的情況下測得,僅對比了單線程核心表現(xiàn)。
一個常見說法是,多線程能改善性能,帶來更好的可擴(kuò)展性。但如果開啟多線程,結(jié)果如圖中第三個柱形所示,性能下降、現(xiàn)實(shí)中每機(jī)架大量線程閑置、能效略有提升但不足以改變整體的算法取舍。
Arm云AI事業(yè)部執(zhí)行副總裁Mohamed Awad解釋說,如果對內(nèi)存帶寬的需求很低,SMT是合理的,因為可以共享帶寬,當(dāng)一個線程在等待時,可將CPU資源讓給另一個線程。
但在智能體AI場景中,有大量線程需要同時支撐,有昂貴的加速器和昂貴的基礎(chǔ)設(shè)施在等待,最不希望發(fā)生的事情就是分割I(lǐng)/O帶寬或內(nèi)存帶寬,而是希望將那些I/O和內(nèi)存帶寬精確地專用給對應(yīng)的進(jìn)程。
“我們認(rèn)為,這個最優(yōu)值約為每秒4~6GB的帶寬分配給每個核心,這正是我們的設(shè)計目標(biāo)。在這類場景下,不實(shí)現(xiàn)SMT是更合適的選擇,因此我們目前沒有采用SMT的計劃。”他談道。
二、詳解AGI CPU規(guī)格:3nm、136核、3.7GHz主頻
從運(yùn)行頻率到內(nèi)存及I/O架構(gòu),Arm AGI CPU每一處設(shè)計都經(jīng)過專門優(yōu)化,在高密度機(jī)架部署場景下,支持大規(guī)模并行、高性能的智能體AI工作負(fù)載。
AGI CPU采用臺積電3nm制程工藝,基于標(biāo)準(zhǔn)Arm Neoverse V3計算子系統(tǒng),單顆CPU集成136個Arm Neoverse V3高性能核心,配備2MB L2緩存,支持高達(dá)3.7GHz的主頻。
![]()
該芯片提供每核心6GB/s內(nèi)存帶寬。領(lǐng)先的內(nèi)存帶寬使每個機(jī)架能支持更多高效執(zhí)行的線程。相比之下,x86 CPU在持續(xù)高負(fù)載下會因核心爭搶資源而導(dǎo)致性能下降。
![]()
Arm將整個系統(tǒng)設(shè)計為低延遲架構(gòu),使內(nèi)存訪問延遲低于100納秒。
為此,AGI CPU采用了雙Chiplet設(shè)計,每個Chiplet將所有內(nèi)存和IO直接集成其上,無需擔(dān)憂復(fù)雜的NUMA域和跨硅片的多次跳轉(zhuǎn)。
在互聯(lián)方面,Arm AGI CPU采用96通道PCIe Gen 6接口,支持CXL 3協(xié)議,可連接任意加速器,同時支持內(nèi)存擴(kuò)展等功能。
![]()
其TDP(熱設(shè)計功耗)為300W,每線程獨(dú)立核心,可在持續(xù)負(fù)載下提供確定性性能,避免降頻與線程閑置。
三、支持風(fēng)冷和液冷,單機(jī)架性能達(dá)x86系統(tǒng)的2倍以上
為加速產(chǎn)品采用,Arm推出Arm AGI CPU1OU雙節(jié)點(diǎn)參考服務(wù)器。該服務(wù)器采用符合OCP(開放計算項目,Open Compute Project)的DC-MHS標(biāo)準(zhǔn)規(guī)格設(shè)計。
![]()
Arm的參考服務(wù)器采用1OU雙節(jié)點(diǎn)設(shè)計,每臺刀片服務(wù)器中集成2顆CPU芯片,并配備獨(dú)立內(nèi)存與I/O,共計272個核心。
![]()
AGI CPU支持高密度1U服務(wù)器機(jī)箱的風(fēng)冷部署方案。下圖是一個標(biāo)準(zhǔn)OCP風(fēng)冷機(jī)架。這些刀片服務(wù)器可在標(biāo)準(zhǔn)風(fēng)冷36kW機(jī)架中滿配部署,30臺雙節(jié)點(diǎn)1OU刀片服務(wù)器可提供總計8160個核心。
![]()
在該配置下,Arm AGI CPU可實(shí)現(xiàn)單機(jī)架性能達(dá)到最新x86系統(tǒng)的2倍以上。
![]()
此外,Arm與Supermicro合作推出200kW液冷設(shè)計方案,可容納336顆Arm AGI CPU,提供超過45000個核心。
Arm計劃向OCP社區(qū)貢獻(xiàn)該參考服務(wù)器設(shè)計方案及配套固件,并進(jìn)一步提供包括系統(tǒng)架構(gòu)規(guī)范、調(diào)試框架及適用于所有Arm架構(gòu)系統(tǒng)的診斷與驗證工具等資源。
這些貢獻(xiàn)將惠及整個生態(tài)系統(tǒng),對所有基于Arm的平臺均有裨益。
更多細(xì)節(jié)將在即將舉辦的OCP EMEA峰會上公布。
四、與Meta聯(lián)合開發(fā),還有多家首發(fā)合作伙伴
Meta、OpenAI高管均來到Arm Everywhere大會現(xiàn)場并登臺分享。
Meta作為Arm AGI CPU的早期合作伙伴與客戶,參與該CPU的聯(lián)合開發(fā),旨在為Meta全系應(yīng)用優(yōu)化GW級規(guī)模基礎(chǔ)設(shè)施,并與Meta自研MTIA推理加速器協(xié)同運(yùn)行,從而在大規(guī)模AI系統(tǒng)中實(shí)現(xiàn)更高效的編排與調(diào)度。
![]()
“這場聯(lián)姻,我個人認(rèn)為是雙贏的,非常令人振奮,看到從單純的IP授權(quán)提供商,走向真正參與構(gòu)建生產(chǎn)級、生產(chǎn)就緒產(chǎn)品的行列,”Meta基礎(chǔ)設(shè)施負(fù)責(zé)人Santosh Janardhan談道,“我認(rèn)為最甜蜜的事情需要一些時間,而我們現(xiàn)在就要到了。”
他說Meta和Arm談合作,核心理由是想在每瓦內(nèi)放入更多的核心,但不想在性能上有任何妥協(xié)。
現(xiàn)在每天有約35億人使用Meta的產(chǎn)品。每一次交互、每一篇帖子、每一個信息流、每一通電話,都建立在Meta后端構(gòu)建的基礎(chǔ)設(shè)施之上,即定制數(shù)據(jù)中心、定制硬件和定制芯片。
大約兩年半前,Meta先做了市場調(diào)研,看看是否有哪款CPU能滿足規(guī)格要求,結(jié)果要么滿足了性能、功耗不滿足,要么滿足了功耗、性能不達(dá)標(biāo)。
而Arm提供的可擴(kuò)展性,讓Meta能夠注入更多算力,做到了優(yōu)化每瓦性能、每千兆瓦性能、優(yōu)化Meta全平臺性能。
雙方承諾將圍繞Arm AGI CPU的多代芯片產(chǎn)品展開長期深度合作。
其他首發(fā)合作伙伴包括Cerebras、Cloudflare、F5、OpenAI、Positron、Rebellions、SAP及SK電訊。
這些客戶將在智能體CPU核心應(yīng)用場景中部署Arm AGI CPU,覆蓋加速器管理、控制平面處理、云與企業(yè)級API、任務(wù)與應(yīng)用托管等領(lǐng)域。
在大會展區(qū),SK電信旗下Rebellions展示了使用Arm AGI CPU作為頭節(jié)點(diǎn),在同一臺服務(wù)器中有一批加速器的實(shí)例。
![]()
Arm展示了強(qiáng)大的“朋友圈”。超大規(guī)模計算服務(wù)商、云計算、芯片、內(nèi)存、網(wǎng)絡(luò)、軟件、系統(tǒng)設(shè)計與制造等領(lǐng)域的50余家行業(yè)龍頭企業(yè),均對Arm計算平臺向芯片領(lǐng)域拓展表示支持。
![]()
英偉達(dá)、谷歌、微軟、亞馬遜云科技、博通、Marvell、美光、微軟、三星、SK海力士、臺積電等企業(yè)的高管一通猛夸,認(rèn)為Arm AGI CPU是整個生態(tài)系統(tǒng)發(fā)展的重要里程碑,將帶來新一代定制化計算能力,進(jìn)一步釋放Arm生態(tài)系統(tǒng)的潛力,讓更多客戶能夠便捷地獲取Arm的計算能力,為所有基于Arm構(gòu)建智能未來的合作伙伴創(chuàng)造新的重大機(jī)遇。
“我們很自豪能與Arm共同構(gòu)建這個開放、可擴(kuò)展、高能效的AI未來。加速計算并沒有讓CPU變得無關(guān)緊要,它讓CPU成為不可或缺的合作伙伴。Arm架構(gòu)已經(jīng)成為我們所有平臺的基礎(chǔ)。”黃仁勛說,“Arm的適應(yīng)性和可定制性,真正使我們能夠?qū)rm整合至所有平臺之中。”
結(jié)語:云端AI業(yè)務(wù)有望成Arm最大支柱,未來劍指1萬億美元市場
“全球沒有任何一家公司的生態(tài)系統(tǒng),能像我們這樣從邊緣端到云端貫通服務(wù)。”Rene Haas說。
他預(yù)測,云端AI業(yè)務(wù)可能在幾年內(nèi)成為Arm最大的業(yè)務(wù)。
如今數(shù)以萬計的公司在云端運(yùn)行其軟件于Arm之上,依托已向全球數(shù)據(jù)中心交付的超過12.5億個Arm Neoverse核心。這一增長仍在加速。
![]()
三十多年來,產(chǎn)業(yè)界基于Arm計算平臺持續(xù)創(chuàng)新,在數(shù)千億臺設(shè)備上實(shí)現(xiàn)了可擴(kuò)展、高能效的計算能力。整個生態(tài)系統(tǒng)正尋求大規(guī)模部署Arm技術(shù)的方案。
![]()
“今天標(biāo)志著Arm計算平臺邁入全新發(fā)展階段,也成為公司發(fā)展的重要里程碑。”Rene Haas談道,AI從根本上重塑了計算的構(gòu)建與部署,智能體計算正加速這一變革,隨著Arm AGI CPU芯片推出,Arm將助力智能體AI基礎(chǔ)設(shè)施實(shí)現(xiàn)全球規(guī)模化部署。
在審視智能體AI發(fā)展、CPU需求增長、高能效CPU為數(shù)據(jù)中心帶來的價值后,Arm預(yù)判這在未來將代表約1000億美元的TAM。
![]()
“將我們在所有市場上積累的成果,從邊緣到云端,從毫瓦到千兆瓦,我們有機(jī)會在一個1萬億美元量級的市場中大展身手。”Rene Haas說。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.