(本文編譯自Electronic Design)
在過去二十年間,用于高性能計算(HPC)與人工智能(AI)系統的處理器,其原始計算能力以驚人的速度提升。圖1展示了這一趨勢:同期XPU浮點性能提升超過90,000倍,而DRAM帶寬與互聯帶寬僅提升約30倍。
![]()
圖1:20年間XPU性能與互聯帶寬的增長情況。
計算能力與數據傳輸能力之間日益擴大的差距——通常被稱為內存墻與I/O墻——已成為制約系統可實現的實際性能的最主要因素之一。
對于系統設計者而言,這種失衡直接導致計算資源利用率不足、功耗上升以及架構復雜度不斷增加。因此,內存帶寬與封裝技術對于人工智能性能的擴展,已變得與晶體管密度或核心數量同等關鍵。
HBM是現代人工智能架構的基礎
為應對這些帶寬挑戰,高性能計算與人工智能系統越來越多地采用基于芯粒(Chiplet)的解耦式架構。盡管LPDDR與DDR內存仍發揮著重要作用,但HBM已成為當前可用的最高帶寬DRAM解決方案,也是現代加速器的關鍵支撐技術。
HBM器件由底部的緩沖(或基礎)裸片以及上方的多個3D堆疊DRAM層構成。緩沖裸片采用超細間距微凸點,使得內存堆疊能夠通過硅中介層或硅橋等先進封裝技術與專用集成電路(ASIC)進行協同封裝。
在JEDEC的HBM工作組嚴格標準化的支持下,HBM已成為量產系統中最成功、應用最廣泛的芯粒集成案例之一。圖2展示了典型的HBM DRAM堆疊通過硅中介層與ASIC連接的側視示意圖。
![]()
圖2:HBM DRAM與ASIC連接的一個實例。
HBM在實際應用中一個被廣泛部署的案例是英偉達的B100 Blackwell加速器(如圖3所示)。該封裝包含兩顆大尺寸、掩模版級別的XPU裸片,裸片之間通過高帶寬鏈路互連,每顆裸片的上下邊緣均布置有HBM器件。每顆XPU裸片集成四個HBM堆疊——每條長邊各兩個——使得每個封裝總計搭載八顆HBM器件。
![]()
圖3:英偉達B100 Blackwell加速器集成了兩顆大尺寸、掩模版級別的XPU裸片,芯片之間通過高帶寬鏈路相互連接。
采用JEDEC標準通過時的典型HBM3規格,每顆HBM3器件可使用8層堆疊的16Gb DRAM層,每個堆疊提供16GB容量。在6.4Gb/s的數據速率和1024個I/O端口下,每顆HBM3器件可提供約0.8TB/s的帶寬。通過八顆器件,該配置可提供128GB的總內存容量和約6.6TB/s的總帶寬。
HBM4的拓展帶寬與容量
為了讓內存性能能夠隨計算能力同步提升,JEDEC近期發布了HBM4標準JESD270-4。相比HBM3,HBM4在架構上做出多項改進,直接滿足人工智能工作負載日益增長的帶寬與容量需求。
HBM4最重大的變化之一是通道數翻倍,I/O數量從1024提升至2048。與此同時,支持的數據速率提升至6~8Gb/s及更高水平。內存密度也同步提升,標準定義了24Gb與32Gb的DRAM層,并支持12層與16層堆疊。包括DRFM在內的可靠性、可用性與可維護性(RAS)功能也得到增強。
綜合來看,這些改進使得HBM4在帶寬、功耗效率和容量上相比HBM3都實現了大幅提升。例如,采用16層32Gb DRAM堆疊的HBM4e器件,單顆容量即可達到64GB(如圖4所示)。
![]()
圖4:該示例使用了8顆HBM4器件。
該器件擁有2048個I/O,數據速率為8Gb/s,單顆帶寬最高可達2TB/s。在搭載8顆HBM4器件的封裝中,總內存容量提升至512GB,是此前HBM3方案的4倍,總帶寬則超過16TB/s,提升2.5倍。
定制化HBM及基礎裸片的作用
隨著HBM4的應用加速,部分系統設計者正針對特定應用,探索開發定制化HBM解決方案。推動這一趨勢的關鍵因素,是HBM基礎裸片的技術演進。
在早期HBM世代中,基礎裸片通常采用面向DRAM優化的工藝制造,這類工藝適合電容結構,但對高速邏輯電路并非最優。而在HBM4中,多數供應商正轉向采用標準先進邏輯工藝來制造基礎裸片。這一轉變與SoC設計者已熟悉的工藝更加契合,也為定制化開發打開了空間。
無論采用標準還是定制HBM4器件,這類方案仍將依賴先進封裝與硅基板技術(如中介層或橋接芯片),以實現內存與ASIC之間大量超細間距的連接。
SPHBM4將HBM級帶寬引入有機封裝
盡管傳統HBM集成在性能上具備優勢,但其需要采用先進封裝技術,這會推高成本并增加復雜度。許多系統設計者,尤其是那些專注于量產與可靠性的設計者,更傾向于使用標準有機基板。為彌補這一缺口,JEDEC宣布即將完成一項全新標準——SPHBM4。
SPHBM4器件采用與HBM4相同的DRAM核心裸片,并可提供相當的總帶寬,但該方案引入了全新的接口基礎裸片,專為適配標準有機基板而設計。圖5展示了一顆SPHBM4 DRAM與一顆ASIC一同直接安裝在有機封裝基板上的側視示意圖。ASIC既可直接置于有機基板上,也可保留在硅橋等先進封裝方案中,以實現多XPU集成。
![]()
圖5:SPHBM4 DRAM與ASIC的側視結構。
為了用更少引腳實現HBM4級別的吞吐能力,SPHBM4采用了更高的接口頻率與串行化技術。HBM4定義了2048路數據信號,而SPHBM4預計采用512路數據信號并搭配4:1串行化,從而滿足有機基板所需的更寬松凸點間距要求。
由于SPHBM4與HBM4使用相同的DRAM堆疊,單堆疊容量保持不變。不過,有機基板的布線支持更長的SoC與內存之間的通道長度,這可以帶來新的系統級折中方案。特別是更長的布線距離與斜角走線,通常能夠在同一顆裸片周圍布置更多內存堆疊。
圖6展示了這一效果。當HBM器件安裝在硅基板上時,必須緊鄰XPU放置,限制為每25毫米裸片邊緣最多兩個堆疊。而在有機基板上使用SPHBM4時,同一條邊緣可連接三顆內存器件,使內存容量與帶寬均提升約50%。
![]()
圖6:采用了12顆SPHBM4器件的示例。
即便在XPU下方仍使用硅基板(例如為了支持高帶寬的XPU間互聯鏈路),將內存器件移至有機封裝后,整體中介層尺寸也能大幅減小。這一縮減可在系統成本、可制造性與測試復雜度方面帶來顯著收益。
展望未來
人工智能工作負載持續挑戰著內存帶寬、容量與封裝技術的極限。JEDEC的HBM4標準是滿足這些需求的重要一步。而新興的SPHBM4標準則通過在標準有機基板上實現HBM級性能,拓展了設計空間。
對于系統架構師而言,這些技術在平衡性能、成本與集成復雜度方面提供了新的靈活性。隨著內存與封裝對系統整體性能的影響日益關鍵,盡早考慮HBM4、定制化HBM以及SPHBM4等方案,對于充分釋放下一代人工智能與高性能計算的性能潛力至關重要。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.