公眾號記得加星標??,第一時間看推送不會錯過。
![]()
進入2020年代中期,高性能計算正逐步走出其“monolithic”時代。在過去大約五十年的時間里,性能的提升始終緊隨光刻工藝的微縮步伐——即在單一、完整的硅基底上刻蝕出尺寸日益縮小的晶體管。盡管向埃級(angstrom-class)制程節點邁進的勢頭仍在延續,但推動系統級擴展的主要驅動力已悄然發生轉變。如今,技術發展路線圖的制定,已不再主要取決于晶體管本身的特性,而是日益側重于工程師如何對功能模塊進行解耦,并通過先進的互連技術將其重新整合。
物理學原理與經濟學因素正共同推動著這場架構層面的變革。光刻掃描儀將最大曝光視場限制在 26 mm × 33 mm(約 858 mm2)的范圍內;受這一掩模版尺寸上限的制約,單個單片式芯片(monolithic die)的實際尺寸也隨之受到了有效限制。與此同時,在現代 AI 工作負載中,用于在存儲層級體系內傳輸數據所耗費的時間與能耗正呈現出日益增長的趨勢。動態隨機存取存儲器(DRAM)的訪問操作所消耗的能量,往往比簡單的算術運算高出數個數量級;因此,數據傳輸環節往往在功耗與性能表現上占據了主導地位。面對這一挑戰,芯片設計人員正采取相應的應對策略:將處理器拆分為多個專司其職的獨立芯片單元(分別負責計算、緩存、I/O 功能,且通常包含堆疊式存儲器),并通過先進的封裝技術與高帶寬互連接口,將這些功能單元集成于同一芯片封裝之中。
本文分析了促成這一轉型的三項關鍵技術:玻璃基板、通用小芯片互連標準(UCIe)以及計算快速互連(CXL)。
1. 玻璃基板正日益成為一種重要的封裝平臺。通過用玻璃替代傳統的有機樹脂芯材,包括英特爾(Intel)和 SKC 旗下 Absolics 在內的多家企業正致力于減少封裝翹曲現象,并支持更大尺寸(約 100 mm × 100 mm)的封裝體,其互連密度遠高于許多基于有機基板的方案。
2. UCIe 是一項標準化的裸片間(die-to-die)互連接口技術,旨在使來自不同工藝節點及不同供應商的小芯片(chiplets)能夠在同一封裝體內實現協同工作。
3. CXL 技術實現了跨組件的內存擴展與內存池化功能。借此,CXL 能夠有效提升內存資源的利用率,并有助于解決人工智能(AI)集群中普遍存在的“孤立內存”(stranded memory)問題。
綜合來看,上述各項技術共同推動了業界所謂的“超越摩爾定律”(More than Moore)4 這一發展趨勢;在這一趨勢下,性能的提升不再主要依賴于晶體管尺寸的微縮,而是更多地源于那些能夠實現更高效數據傳輸的架構設計。
物理基礎:玻璃基板
從有機基板向玻璃基板的過渡,標志著半導體封裝領域的一次重大轉變。英特爾(Intel)曾表示,計劃在本十年后半段引入玻璃基板技術。在2026年的國際消費電子展(CES)上,英特爾發布了Xeon 6+處理器(代號“Clearwater Forest”),這是業界首款采用玻璃核心基板進行大規模量產(HVM)的產品。
然而,英特爾并非孤軍奮戰。SKC的子公司Absolics已在其位于佐治亞州的工廠啟動了原型產品試產工作(這也是首批獲得《芯片法案》資助的先進封裝材料投資項目之一)。Absolics的目標是力爭在2025年內實現量產準備就緒。與此同時,三星電子(Samsung Electronics)正探索將其先進封裝技術與玻璃中介層相結合,并計劃于2028年正式采用該技術;而三星電機(Samsung Electro-Mechanics)也正在積極研發玻璃基板。據規劃,相關原型產品預計將于2025年第二季度問世。
此外,AGC、康寧(Corning)和肖特(SCHOTT)等主要玻璃供應商,也正提供經過優化的基板級玻璃配方,旨在實現理想的熱膨脹系數(CTE)匹配及低介電損耗特性。據行業分析師預測,在樂觀的市場采納情景下,玻璃核心基板市場規模有望在2030年達到4.6億美元。
翹曲與有機材料的局限性
半導體行業之所以開始轉向采用玻璃基板,部分原因在于有機基板正逐漸觸及其機械性能的極限。在過去二十多年里,該行業一直依賴有機基板——這類基板通常以玻璃纖維增強環氧樹脂為核心層,并逐層疊構上味之素堆積膜(ABF)。盡管對于消費電子產品及標準型中央處理器(CPU)而言,此類基板具有極高的成本效益;然而,隨著封裝體尺寸的不斷增大及功耗的持續攀升(正如當今大型人工智能加速器所呈現的那樣),翹曲現象及其他機械性能方面的制約因素正變得愈發難以有效管控。
![]()
一種值得關注的失效機制源于熱膨脹系數(CTE)的不匹配。硅的熱膨脹系數約為 2.6 至 3.0 ppm/°C。而有機基板(通常為聚合物基復合材料)的熱膨脹系數則較高且變動性較大,通常在 12 ppm/°C 至 17 ppm/°C 左右。由于封裝體與 PCB 所用材料的熱膨脹系數各異,當溫度升降時,二者的膨脹與收縮幅度不盡相同,從而在焊點處產生機械應力。因此,便會導致翹曲現象的發生。
當芯片尺寸較小時,由此產生的應力往往處于可控范圍。然而,隨著封裝尺寸不斷增大,以支持大型 AI ASIC 和高帶寬存儲器(HBM)堆棧,這種應力會在基板上逐漸累積,并引發翹曲;一旦規模擴大,這種翹曲將對良率產生實質性的影響。當基板發生彎曲時,用于連接硅裸片與基板的焊料凸點(即“受控塌陷芯片連接”/C4 凸點)可能會發生脫離并形成開路,或者發生橋接并引發短路。
相比剛度更高的替代材料,有機基板在尺寸穩定性方面往往稍遜一籌。在那些高功率數據中心處理器中——其功耗甚至可逼近 1000 瓦——散熱硬件往往會施加巨大的夾緊力。由于有機基板的剛度(以楊氏模量衡量)通常低于玻璃或硅基基板,因此在受力負載下更容易發生彎曲變形,進而增加芯片開裂或互連結構受損的風險。截至 2024 年底,許多技術路線圖及相關技術研討已趨于達成共識:對于下一代系統級封裝(System-on-Package)設計所設定的互連密度及機械性能要求而言,有機基板將難以滿足其規模化擴展的需求。
玻璃芯基板的材料科學
玻璃基板通過其材料特性,有效應對了上述機械和熱學方面的挑戰。通過采用硼硅酸鹽玻璃或熔融石英玻璃作為基板芯材,制造商能夠對基板的熱膨脹系數(CTE)進行精確調控,使其與硅芯片(die)實現更緊密的匹配。更優良的CTE匹配有助于減輕基板翹曲現象,從而為承載更大尺寸的封裝體提供有力支撐——其中包括尺寸超過 100 mm × 100 mm 的大型封裝體。這一點對于所謂的“突破掩模版限制”(reticle-busting)設計尤為關鍵;在這類設計中,多枚尺寸逼近極限的芯片會被拼接整合在一起。
一、尺寸穩定性和平坦度
對于光刻工藝而言,玻璃的剛性同樣至關重要。玻璃具有相對較高的楊氏模量,其剛度更接近于陶瓷而非有機層壓板,與此同時,它仍可被制造成薄型基板。這種高剛度特性有助于改善對總厚度變化(TTV)的控制。
在先進封裝領域,光刻工藝的焦深通常較淺。如果基板表面存在波紋起伏,則精細特征可能無法在整個表面區域內實現均勻的分辨。更為平坦的玻璃表面有助于更穩定、一致地實現精細線條與間隙的圖形化。
這種優異的尺寸穩定性使得玻璃基板能夠支持比有機基板更高密度的基板級布線和垂直互連。有機基板往往難以進一步縮小凸點間距和過孔間距,因為其固有的翹曲問題及熱膨脹系數(CTE)失配可能會導致良率下降1?。以英特爾(Intel)為例,據其估算,若將玻璃通孔(TGV)的間距縮小至約 100 μm(相比之下,有機基板上機械鉆孔的間距約為 325 μm),通孔密度將實現約一個數量級的提升。通常而言,小于 10 μm 的極小間距主要應用于芯片間的混合鍵合技術(例如英特爾的 Foveros Direct),而非封裝基板本身。更高的互連密度意味著更高的 Chiplet(小芯片)帶寬,以及更低的單位比特能耗。其他關于玻璃基板的演示案例也報告了在基板級特征微縮方面呈現出類似的趨勢。
二、玻璃通孔(TGV)
玻璃基板的一項關鍵特性在于其玻璃通孔(TGV)結構。在有機基板中,垂直互連通常是通過對聚合物芯層進行機械鉆孔或激光鉆孔來實現的;然而,這種方式可能會限制通孔之間間距的緊密程度。相比之下,TGV 是利用諸如激光誘導深刻蝕(LIDE)等工藝在玻璃基板中形成的,這些工藝能夠支持更精細的特征尺寸及更緊密的間距。
得益于這些工藝,人們能夠制造出具有高深寬比的通孔——即貫穿玻璃基板、既極其狹窄又深度極深的“隧道”結構。英特爾(Intel)已成功展示了在厚度為1毫米的基板中實現的TGV,其深寬比高達20:1,通孔直徑小至75微米。這種能夠將通孔緊密排布(即實現精細間距)的能力,不僅縮短了信號傳輸所需的路徑長度,同時也降低了電源傳輸網絡的電阻與電感。
三、電氣與光學優勢
除了機械特性之外,玻璃作為一種介質材料,在處理高頻信號方面也展現出更優越的性能。相較于許多有機材料,玻璃通常具有更低的損耗角正切值(Loss Tangent)——這意味著在信號傳輸過程中,轉化為熱能而耗散掉的信號能量更少。隨著封裝級數據傳輸速率的不斷攀升,有機基板所帶來的信號損耗問題日益凸顯,有時甚至迫使設計人員不得不引入額外的均衡電路或類似中繼器的電路,從而導致功耗增加。玻璃材料有助于在更長的封裝內部傳輸距離上保持信號的完整性;這一點尤為重要,因為隨著封裝尺寸的不斷擴大,內部互連線路所覆蓋的區域也隨之增加。
此外,人們目前正積極探索利用玻璃材料來實現與光子技術的更緊密集成。由于玻璃具有光學透明性及優異的尺寸穩定性,它能夠支持在基板內部或表面集成波導等光學元件。這一特性可與“共封裝光學”(CPO)的概念相輔相成:在CPO架構中,光學引擎被緊鄰計算芯片放置,從而使電信號能夠在靠近信號源的位置即刻轉化為光信號,進而實現更長距離的信號傳輸。
![]()
神經系統:UCIE( Universal Chiplet Interconnect Express )
如果說玻璃基板為當前的路線圖提供了結構基礎,那么通用小芯片互連 Express (UCIe) 則提供了一個連接層。對于“解構式硅片”(即大型單片裸片被拆分為更小的“小芯片”的架構)而言,若能利用一種標準化、高帶寬且低延遲的接口將這些小芯片互連起來,將獲益良多。若缺乏通用的標準,小芯片之間的互操作性將受到限制,且相關的生態系統也將主要局限于特定廠商的體系內。UCIe 正是提供了這種標準化、裸片對裸片(die-to-die)的接口,以滿足基于小芯片的設計所需。解構式硅片——即大型單片裸片被拆分為更小的小芯片的架構——正是得益于這種高帶寬、低延遲的接口,才得以將這些小芯片彼此連接。若無通用的標準,小芯片的互操作性將受限,且生態系統也將主要局限于特定廠商的體系內。UCIe 旨在提供一種通用的裸片對裸片接口,從而使小芯片能夠跨越不同的工藝節點進行通信,在某些情況下,甚至能夠實現跨廠商之間的通信。
標準的演進:從 1.0 到 3.0
UCIe 規范的演進歷程,體現了業界對其迅速采納的趨勢。
UCIe 1.0 和 1.1:這些初始版本主要致力于確立基準規范。它們定義了針對標準 2D 和 2.5D 封裝的物理層(PHY)規范,并設定了帶寬密度與能效(通常以“皮焦耳/比特”為單位表示)的目標指標。此外,這些版本還基于 PCIe 和 CXL 等廣泛應用的協議構建,旨在確保協議棧上層的兼容性。
UCIe 3.0:于 2025 年 8 月發布的 UCIe 3.0 版本,支持高達 64 GT/s 的單通道數據速率,相較于早期版本,其帶寬能力大致翻了一番。更高的鏈路帶寬有助于滿足現代 GPU 和加速器設計對數據傳輸日益增長的需求。
此外,UCIe 標準的適用范圍也已擴展至涵蓋 3D 集成領域。早期版本(1.0 和 1.1)主要聚焦于橫向并列式(2D 和 2.5D)的連接方式。而 UCIe 2.0 版本則引入了對 3D 封裝的支持,明確規定了旨在服務于 3D 裸片間(die-to-die)互連的電氣與物理要求——其中包括允許小芯片(chiplets)直接垂直堆疊的“混合鍵合”(hybrid bonding)技術。相較于距離較長且呈橫向分布的連接方式,垂直互連能夠支持遠高于前者的信號密度。從理論上講,這一特性有助于像英特爾 Foveros Direct 3D 這樣的技術方案,在與第三方小芯片及 IP 進行互操作時,實現更為順暢、高效的協同工作。
![]()
UCIe 與模塊化架構
UCIe 的價值在于,它能夠使基于 Chiplet 的設計更具模塊化特性。在單片式設計中,處理器的絕大部分組件都必須基于單一的工藝節點進行制造。如果一家公司希望在 3 納米級節點上集成最尖端的 CPU 內核,往往不得不將 I/O 和模擬電路模塊也一并置于該節點之上;盡管事實上,模擬電路并非總能很好地隨工藝節點進行微縮,且在先進工藝節點下其制造成本往往會變得更為昂貴。
Compute tiles:采用臺積電 N2 或英特爾 18A 等尖端工藝節點制造,旨在實現每瓦性能的最大化。
I/O tiles:采用臺積電 N6 等更為成熟且兼具成本效益的工藝節點制造。此類tiles負責處理 PCIe 通道、USB、Thunderbolt 以及內存控制器功能。
Accelerator tiles:來自第三方供應商的專用 IP(例如 AI 推理單元或光 I/O 模塊),通過 UCIe 互連技術進行連接。
這種解耦拆分有助于提升成本效益并改善良率。相較于超大型芯片,尺寸較小的芯片(Die)往往能實現更高的良率;此外,若將最尖端的制程節點優先留給那些能從中獲益最大的功能模塊,則可有效降低整體成本。UCIe 協議旨在使這些功能模塊——即便它們采用不同的制程節點制造,甚至可能來自不同的供應商——也能以可預測的低延遲和極高的可靠性進行相互通信,從而使其表現更接近設計人員對片上互連(on-die links)所預期的理想水平。
分層架構與協議靈活性
UCIe 采用了一種受 OSI 模型啟發的層次化架構,從而為多樣化的應用場景提供了所需的靈活性。
1. 物理層(PHY):這是電氣接口層。UCIe 定義了兩種類型的物理層:標準封裝(Standard Package,適用于采用標準凸點技術的有機基板)和高級封裝(Advanced Package,適用于硅中介層、EMIB 等橋接技術以及 RDL 扇出技術)。高級封裝物理層利用了這些基板所具備的精細布線能力,從而提供了顯著更高的帶寬密度(即“岸線效率”)。
2. 裸片間適配層(Die-to-die adapter):該層位于物理層之上,負責管理鏈路的可靠性。它處理循環冗余校驗(CRC)以及重傳機制。如果在傳輸過程中發生比特錯誤(盡管罕見,但確有可能發生),適配層將檢測到該錯誤并自動重發數據,從而確保上層協議看到的始終是一條無誤的鏈路。
3. 協議層:這是 UCIe 展現其多功能性的核心所在。該層支持將各類標準協議映射至 UCIe 鏈路上,例如 PCIe(用于連接外設)、CXL(用于實現緩存一致性內存擴展)以及流式協議(用于實現原始、低延遲的數據傳輸)。這意味著對于軟件驅動程序而言,一條 UCIe 鏈路可以呈現為標準的 PCIe 插槽;而對于 CPU 硬件而言,它則可以呈現為一條具備緩存一致性的內存總線。
行業采納情況
UCIe 日益獲得行業認可的一個重要標志,便是其已被 NVIDIA 所采納。從歷史上看,NVIDIA 曾偏好使用其專有的 NVLink 互連技術來進行裸片間(die-to-die)及芯片間(chip-to-chip)的通信。然而,市場對定制化芯片(即 XPU)的需求激增,迫使 NVIDIA 實施了一項戰略轉型。
盡管 NVIDIA 仍繼續使用 NVLink 來實現其 GPU 之間的互連(即機箱級擴展),但它已轉而采用 UCIe 來集成客戶定制的 IP 模塊。例如,像 Google 或 Meta 這樣的超大規模云服務提供商,可能會設計一款定制化的專用加速器。借助 UCIe 技術,這款小芯片(chiplet)可以直接集成到 NVIDIA GPU 的封裝基板上,從而直接調用該 GPU 的高帶寬存儲資源及計算能力。為此,NVIDIA 提供了一款“UCIe 轉 NVLink”的橋接小芯片,使得這款基于開放標準的小芯片能夠與 NVIDIA 專有的 NVLink 互連架構實現對接。這種混合式的技術方案充分體現了這樣一個現實:沒有任何一家公司能夠獨自提供人工智能技術棧中的所有組件。
![]()
CXL(Compute Express Link)
如果說玻璃構筑了房屋的主體,UCIe 負責連接各個房間,那么 CXL(Compute Express Link)則負責管理其中的資源。具體而言,CXL 旨在解決“內存墻”問題——即處理器運行速度與為其提供數據的內存容量及帶寬之間日益擴大的鴻溝。對于 AI 工作負載而言,內存容量往往是限制模型規模的硬性瓶頸。CXL 通過將內存與 CPU 解耦,從而打破了這一制約。
CXL 3.1 與未來的互連架構
CXL 已從點對點鏈路(CXL 1.0/1.1)演進為真正的交換互連架構(CXL 2.0 及更高版本)。
CXL 1.0/1.1:這些早期版本允許 CPU 連接至內存擴展卡(例如 DRAM 驅動器)。雖然這提供了額外的內存容量,但這些內存仍歸屬于該單一 CPU 所有。
CXL 2.0:引入了單級交換和內存池化功能,允許多達 16 個主機同時訪問共享內存池中的不同區域。
CXL 3.0/3.1:實現了多級交換和互連架構(Fabric)能力,支持非樹狀拓撲結構(如網狀、環狀),且節點數量可擴展至 4096 個。CXL 交換機的功能類似于網絡交換機,但其服務對象是內存;通過 CXL 交換機,多個主機(包括 CPU 和 GPU)可連接至同一臺交換機,同時多個內存模塊也可連接至同一臺交換機。
這種架構實現了全局織物連接內存(GFAM)功能。單個 GFAM 設備可供多達 4,095 個節點訪問,且無需建立直接的主機連接。CXL 3.0 的點對點(Peer-to-Peer)能力允許加速器直接訪問存儲在 CXL 內存模組中的數據,而無需通過主機 CPU 進行路由,從而顯著降低了延遲并減輕了 CPU 的開銷。這對 AI 推理工作負載而言尤為寶貴;在此類場景下,KV 緩存的擴展以及受內存帶寬限制的操作都能從 CXL 的解耦式內存池中獲益,盡管大規模分布式 AI 訓練目前仍主要依賴 NVLink 來實現 GPU 之間的通信。
解決“閑置內存”問題
CXL 技術的核心經濟驅動力在于消除“閑置內存”(Stranded Memory)問題。在傳統的服務器架構中,內存是進行靜態配置的。如果一臺服務器為了應對特定的“最壞情況”工作負載而配置了 2TB 的內存,但其平均工作負載僅需使用 500GB,那么剩余的 1.5TB 內存就會處于閑置狀態——它既消耗電力又占用資金,卻無法產生任何實際價值。此外,這部分閑置內存也無法借調給鄰近的、正面臨內存資源枯竭的服務器使用。據微軟公司估算,在 Azure 云平臺中,任何時刻都有高達 25% 的內存處于閑置狀態。
CXL 技術實現了“內存池化”(Memory Pooling)功能。數據中心架構師無需為每臺服務器都配置 2TB 的內存,而是可以僅為服務器配置 500GB 的本地內存,并將一個容量高達 100TB 的共享內存池部署在機架內的專用共享內存設備中。當某臺服務器需要為突發性的 AI 計算任務獲取更多內存資源時,它可以向該內存池發出請求。隨后,CXL 互連架構管理器(CXL Fabric Manager)會動態地為其分配所需的內存。一旦該計算任務完成,所分配的內存便會被歸還至內存池中。據業界估算,這種內存解耦(Disaggregation)模式可將整體內存需求降低 7% 至 10%,進而使服務器的綜合成本降低 4% 至 5%,對于超大規模數據中心運營商(Hyperscalers)而言,這有望每年節省數億美元的巨額開支。
硬件實現
一、CXL 設備
各大內存廠商已發布了先進的硬件產品,以支持這一愿景的實現。
1、三星 CMM-B 與 CMM-D
三星推出了 CMM-D(CXL 內存模組 – DRAM)65,這本質上是一條支持 CXL 協議的 DRAM 內存條。該公司還發布了 CMM-B(Box)66,這是一款機架級內存設備。CMM-B 可容納多個 CMM-D 模組(采用 E3.S 外形規格),在 4U 機架式機箱中最多可容納 24 個,并可同時連接多達三臺主機。它充當著一個集中式的內存資源池。
為了確保該方案的可用性,三星開發了 Samsung Cognos Management Console (SCMC)67;這是一款軟件,能夠獨立于所連接的服務器之外,對內存進行動態分配管理。此外,三星還與 Red Hat68 開展了深度合作,以確保 Red Hat Enterprise Linux (RHEL) 9.3 版本中包含原生的 CXL 驅動程序,從而無需重寫應用程序即可識別并利用這種分層內存。CMM-D 在系統中呈現為一個“zero CPU”的 NUMA 節點,使現有的、具備 NUMA 感知能力的應用程序能夠以透明的方式利用該內存池資源。
2、SK海力士 Niagara 與計算內存
SK海力士憑借 Niagara 2.069 進一步拓展了這一概念。這是一個池化內存平臺,允許多個主機(包括 CPU 和 GPU)高效共享大型內存池,從而最大限度地減少閑置內存(stranded memory)的浪費。此外,該公司還推出了 CMM-Ax(CXL 內存模塊-加速器)70,該產品的前身為 CMS(計算內存解決方案)。這些模塊不僅僅用于存儲數據,還能直接對數據進行處理。
在 AI 和大數據應用場景中,CPU 往往需要耗費大量時間,對存儲在內存中的海量數據集執行機器學習和數據過濾等操作。SK海力士的 CMM-Ax 模塊內置了邏輯單元,可以直接在內存模塊內部執行 KNN(K近鄰)分類、數據過濾及負載均衡等任務;在特定計算場景下,其性能可達到“數十個 CPU 核心協同工作時的數倍”。該公司已成功展示了 CMM-Ax 與 Meta 公司的 Faiss 向量搜索引擎以及 SK 電訊(SK Telecom)的 Petasus AI 云平臺的集成應用。由于僅需將相關的計算結果回傳至 CPU,此舉不僅降低了 CXL 鏈路上的數據流量,還能釋放出寶貴的 CPU 計算周期,使其能夠專注于處理更為復雜的任務。
系統級封裝(SOP)集成
2026年路線圖的核心特征在于這些技術的融合。其中,“系統級封裝”(SoP)正是玻璃基板、UCIe和CXL協同運作所結出的碩果。2026年路線圖的另一大特征,則是這些技術的集成。系統級封裝(SoP)將玻璃基板、UCIe和CXL整合進了一個統一的架構之中。
2026年AI超級芯片的解剖結構
試想一下2026年最尖端AI處理器的架構。它已不再是傳統意義上的“芯片”;其架構與傳統的單片式設計有著本質的區別。
1. 基底:整個組件置于玻璃基板之上。這是一種新興技術,能夠提供所需的尺寸穩定性,從而支持安裝多個小芯片(chiplets),且不會出現有機基板在大尺寸應用中常見的翹曲問題。玻璃基板不僅支持封裝尺寸突破 100mm × 100mm 的限制,還具備支持未來集成光波導技術的潛力。
2.邏輯單元:計算功能被拆分為多個iles。其中部分為“性能tiles”(采用 Intel 18A 工藝節點),專司計算任務;另一些則為“基礎tiles”(采用 Intel 3 工藝節點),主要承載 SRAM 緩存及 I/O 路由功能。這些瓦片通過 Intel 獨有的混合鍵合技術——Foveros Direct 3D——實現垂直堆疊,該技術具備小于 10μm 的極精細間距;而在水平方向上,它們則通過 UCIe 3.0 互連走線實現連接,支持高達 64 GT/s 的數據傳輸速率。
3.存儲方面:HBM4堆棧緊鄰邏輯單元,每堆棧可提供高達 2 TB/s 的帶寬。然而,僅靠封裝內存儲是不夠的。該封裝還集成了 CXL 3.0接口,可通過(潛在的)新興光互連技術連接至機架級內存池,從而使該加速器能夠訪問數 TB 的共享內存,以用于訓練大參數模型。
熱管理與電源管理
這種集成融合帶來了極高的功率密度。在近期,人們普遍探討的先進加速器封裝——通常包含大型邏輯芯片塊(logic tiles)和多層高帶寬內存(HBM)堆棧——其功耗范圍已達到 1,500W 至 2,000W82。一些前瞻性的技術路線圖甚至預測,在 2030 年代后期,功耗將進一步攀升至數千瓦級;針對 2035 年左右的極端應用場景,甚至有關于 15 kW 級超高功耗模塊的探討82。正是在這一背景下,玻璃基板所具備的優異耐高溫特性83顯得尤為關鍵。玻璃材料在高達 250°C 至 400°C 的高溫環境下仍能保持近乎完美的平整度,而有機材料在承受熱應力時則容易發生形變或分層剝離。
得益于這種極高的尺寸穩定性,工程師能夠放心地采用更為激進的散熱方案——例如直接接觸式液冷或浸沒式冷卻——而無需擔憂基板會因此喪失其機械結構的完整性。然而,鑒于玻璃材料本身的導熱系數較低,可能需要引入創新的散熱路徑(例如嵌入式流體通道),方能有效地將熱量從芯片的熱點區域迅速導出。
未來展望:光子集成
該技術路線圖的下一步——即在2026至2028年的時間窗口內已初現端倪的階段——將是光子技術的全面集成。鑒于電信號(即使是通過CXL協議傳輸)在長距離傳輸時會面臨電阻和散熱難題,且銅導線已無法在超過數米的距離上可靠地承載高速信號,因此“同封裝光學”(Co-Packaged Optics,簡稱CPO)技術便顯得至關重要。
首批針對網絡交換機的CPO部署預計將于2025至2026年間落地,主要通過NVIDIA的Quantum-X和Spectrum-X Photonics平臺實現;這些平臺均基于臺積電(TSMC)的COUPE平臺,采用了硅光子技術。展望未來,玻璃基板有望成為推動下一代光子集成技術實現突破的關鍵支撐。康寧公司(Corning)與佐治亞理工學院(Georgia Tech)的聯合研究已證實,光波導可直接嵌入至玻璃基板的核心層中;康寧公司也已在2025年的OFC大會上,對這項玻璃波導技術進行了前瞻性展示。
這意味著前文所探討的CXL互連鏈路,最終可能會從傳統的銅導線傳輸方案向光傳輸方案實現過渡。Ayar Labs公司推出的UCIe光學小芯片(Optical Chiplet)方案,目前已能通過光信號承載CXL、NVLink及其他各類通信協議。此舉有效地打破了帶寬與傳輸距離之間的固有瓶頸:光學I/O接口的傳輸距離可延伸至100米(若需超長距離傳輸,甚至可達數公里),從而使分散部署的GPU集群能夠像集成于單一封裝內部一樣協同運作,進而為構建機架級乃至最終實現跨機架的AI計算架構奠定堅實基礎。
結論
2026年的半導體產業格局呈現出一個根本性的悖論:若要持續提升性能,該行業必須摒棄僅專注于晶體管微縮的單一策略。“無微縮的性能擴展”(Scaling Without Shrinking)時代已然降臨。2026年的半導體格局反映了行業優先重點的轉變:為了持續提升性能,業界已將關注點從單純的晶體管微縮拓展至更廣闊的領域。通過將封裝技術從有機材料的局限中解耦(引入玻璃基板),將功能模塊從單片集成芯片中解耦(通過UCIe標準),并將內存從主板中解耦(通過CXL標準),該行業找到了一條繞開光刻技術瓶頸的全新路徑。這一策略催生了一類新型的“封裝系統”(System-on-Package)計算機——它們具備模塊化、靈活性強的特性,且高度適用于人工智能(AI)工作負載。
未來的技術發展路線圖不再是一條直指“零納米”極限的單一路線;取而代之,它已向玻璃基板、光子技術及開放式標準等領域全面拓展。通過將封裝技術從有機材料的局限中解耦(引入玻璃基板),將功能模塊從單片集成芯片中解耦(通過UCIe標準),并將內存從主板中解耦(通過CXL標準),該行業找到了一條繞開光刻技術瓶頸的全新路徑。這一策略催生了一類新型的“封裝系統”計算機——它們具備模塊化、靈活性強的特性,且高度適用于人工智能(AI)工作負載。
如今,半導體的技術發展路線圖已不再局限于單純的晶體管密度提升,而是進一步延伸至先進封裝、光子技術以及標準化的芯粒(Chiplet)互連技術等更廣泛的領域。
(來源:R&Dword)
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4356內容,歡迎關注。
加星標??第一時間看推送
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.