公眾號記得加星標??,第一時間看推送不會錯過。
![]()
在2026年GTC大會上,英偉達發布了一系列突破性公告。英偉達的創新步伐絲毫沒有放緩的跡象,今年他們推出了三款全新的系統:Groq LPX、Vera ETL256和STX。此外,英偉達還發布了Kyber機架架構系統的更新版本,CPO首次亮相,用于擴展網絡,并發布了Rubin Ultra NVL576和Feynman NVL1152多機架系統。Feynman架構的早期信息也是本次大會的重點。在主題演講中,Jensen對InferenceX的特別提及更是亮點之一。
在本文中,我們將解答英偉達尚未解答的諸多關鍵問題。具體來說,我們將詳細介紹 LPX 機架和 LP30 芯片,并解釋注意力機制和前饋網絡解耦 (AFD) 的工作原理;深入探討 NVL144、NVL576 和 NVL1152 背后的各種機架架構,闡明光模塊的安裝數量以及高密度 Vera ETL256 的設計理念。下一代 Kyber 機架也進行了一些重大更新,并隱藏了一些細節。
Groq
首先要介紹的是Groq LPU。人工智能基礎設施領域近期最引人矚目的事件之一,莫過于英偉達“收購”Groq。嚴格來說,英偉達支付了Groq 200億美元,獲得了其知識產權許可并聘用了大部分團隊成員。這幾乎等同于一次收購,盡管其結構在法律上并不完全符合收購的定義,從而簡化或避免了監管審批的必要性。鑒于英偉達的市場份額,如果這筆交易按照全面收購的方式進行,并接受反壟斷審查,那么它很可能無法完成。另一個好處是,它避免了漫長的交易完成流程。英偉達立即獲得了Groq的知識產權和人才。正因如此,在交易宣布不到四個月后,英偉達就已經擁有了一個正在集成到Vera Rubin推理堆棧中的系統概念。
現在讓我們回顧一下 LPU 架構,看看 Groq 的 LPU 如何與 Nvidia 的 GPU 互補。更多詳情請參閱我們之前發布的 Groq 文章。該文章的基本論點仍然不變:獨立的 Groq LPU 系統雖然無法大規模地提供token服務,但其token處理速度極快,因此可以獲得較高的市場溢價。這正是 LPU 如何融入解耦解碼系統的核心所在。
LPU芯片
Groq 首次公開發布的 LPU 架構詳述于其 ISCA 2020 論文中。與連接多個通用內核的傳統硬件架構不同,Groq 將架構重新組織成多個單用途單元組,這些單元組之間相互連接,并將這些組命名為“切片”。功能單元之間通過流式寄存器和暫存 SRAM 進行數據傳遞。Groq 選擇使用單級暫存 SRAM 而非多級存儲器層次結構,以確保硬件執行的確定性。
具體來說,LPU架構包含用于向量運算的VXM切片、用于加載/存儲數據的MEM切片、用于張量形狀操作的SXM切片以及用于執行矩陣乘法的MXM切片。在空間上,這些切片水平排列,允許數據水平流動。在切片內部,指令在各個單元之間垂直傳遞。從概念上講,LPU類似于一個脈動陣列,它垂直傳遞指令,水平傳遞數據。
![]()
數據流和指令流設計需要細粒度的流水線來實現高性能。由于LPU架構使計算具有確定性,編譯器可以積極地調度和重疊指令來隱藏延遲。LPU采用高帶寬SRAM和積極的流水線技術是其實現低延遲的兩大主要因素。
第一代 LPU 采用 Global Foundries 傳統的 14nm 工藝設計,Marvell 負責芯片的物理設計。與 2020 年流片時的其他芯片相比,14nm 工藝已經成熟得多,當時主流的 AI 芯片平臺大多采用臺積電的 N7 平臺。對于一款專注于驗證 Groq 架構并將其以推理為中心的設計推向市場的早期產品而言,這樣的選擇是合理的。14nm 工藝成熟、相對成熟,適合于一款架構差異化比追求芯片性能更受重視的初始芯片。
其中一個賣點是,與嚴重依賴亞洲半導體供應鏈的競爭對手相比,該芯片可以完全在美國制造和封裝:邏輯和封裝在臺灣,HBM 來自韓國。
此后,由于執行不力,Groq 的產品路線圖停滯不前,LPU 2 至今仍未出貨。這使得 Groq LPU 在與競爭對手的路線圖相比時顯得更加過時。曾經雖有一定意義但仍可克服的制程劣勢(相對于 7nm 時代的同類產品),如今已演變為巨大的差距,所有領先的加速器平臺都將在 2026 年轉向 3nm 級工藝。
Groq LPU 2 的后續產品是專為三星晶圓代工的 SF4X 節點設計的,具體來說,是在三星位于奧斯汀的晶圓廠生產,這使得三星能夠進一步宣傳 Groq 是在美國本土制造的。三星還將為后端設計提供支持。選擇三星的原因在于其提供的優惠條款和投資,當時三星晶圓代工正苦于為其先進節點尋找客戶,并且錯失了一位人工智能邏輯芯片客戶。不出所料,三星是 Groq 在 2024 年 8 月和 2025 年 9 月(即英偉達“收購”之前)D 輪融資的關鍵投資者。
然而,由于設計問題,Groq LPU 2 從未量產。芯片上的 C2C SerDes 無法達到宣傳的 112G 速度,導致設計故障,我們早在加速器模型中就對此進行了詳細描述。英偉達將推出第三代 Groq LPU。
SRAM 和存儲器層次結構
我們之前已經討論過SRAM在內存層次結構中的作用,簡單來說,SRAM速度非常快(低延遲、高帶寬),但代價是內存密度低,因此成本高。
像Groq的LPU這樣的SRAM設備可以實現極快的首token時間和每用戶每秒token數,但會犧牲總吞吐量,因為它們有限的SRAM容量很快就會被權重填滿,幾乎沒有剩余空間用于鍵值緩存(KVcache),而鍵值緩存會隨著批處理用戶數量的增加而增長。正如我們所展示的,GPU在吞吐量和成本方面都更勝一籌。這就是為什么Nvidia決定將這兩種架構結合起來,以兼顧兩者的優勢:在像LPU這樣低延遲、SRAM密集型的芯片上加速解碼過程中對延遲更敏感、內存占用較小的部分,而內存密集型任務則在擁有大量高速(但并非SRAM速度)內存容量的GPU上執行。
![]()
這就引出了Groq 3 LPU或LP30,其中跳過了LPU Gen 2。這款芯片的設計與Nvidia無關。影響v2的SerDes問題似乎已經修復。付費墻后,我們將揭曉SerDes IP供應商,這或許會讓你感到意外。Nvidia還發布了LP35,它是LP30的小幅升級版,將繼續采用SF4架構,需要重新流片。它將采用NVFP4數字格式,但考慮到Nvidia優先考慮的是產品上市時間,我們預計不會有其他重大設計變更。
![]()
LPU 3 的芯片布局接近光罩尺寸,與 LPU 1 非常相似。500MB 的片上 SRAM 占據了相當大的面積,而 MatMul 核心僅占很小一部分,可提供 1.2 PFLOPS 的 FP8 計算能力——與 Nvidia GPU 相比,計算能力微乎其微。相比之下,LPU 1 擁有 230MB 的 SRAM 和 750 TFLOPS 的 INT8 計算能力,性能提升主要得益于制程節點從 GF16 升級到 SF4。由于采用單芯片設計,因此無需先進的封裝技術。
使用SF4的優勢之一在于它不像臺積電的N3那樣受到產能限制。N3限制了加速器的產量,這也是業界計算能力持續受限的關鍵原因之一。此外,SF4也不使用同樣受限的HBM 。這使得英偉達能夠在不占用或消耗其寶貴的臺積電配額或HBM配額的情況下,大幅提升LPU的產量,從而獲得其他廠商無法企及的真正增量收入和產能。
自英偉達接手以來,下一代LP40將采用臺積電N3P工藝制造,并使用CoWoS-R協議。英偉達還將貢獻更多自有IP,例如支持NVLink協議而非Groq的C2C協議。這將是首款與Feynman平臺深度協同設計的LPU。Groq最初計劃的第四代LPU也由臺積電和Alchip作為后端設計合作伙伴。由于英偉達能夠獨立完成后端設計,Alchip的參與已不再必要。計劃中的一項技術創新是混合鍵合DRAM,用于擴展片上內存,與SRAM相比,延遲和帶寬僅略有下降,但性能遠超DRAM。SK海力士被選定為3D堆疊DRAM的供應商。
![]()
GPU 和 LPU 集成:注意力 FFN 分解 (AFD)
![]()
現在我們了解了LPU的優勢所在,就能理解它們如何融入推理架構。NVIDIA引入LPU旨在提升高交互場景下的性能。在這些場景中,LPU可以利用其低延遲特性來縮短解碼階段的延遲。LPU縮短解碼階段延遲的一種方法是應用注意力前饋神經網絡解聚(AFD)技術,該技術已在MegaScale-Infer和Step-3中提出。
正如我們在InferenceX 文章中解釋的那樣,LLM 推理包含兩個階段:預填充和解碼。預填充處理完整的輸入上下文,計算量巨大,因此適合使用 GPU。另一方面,解碼預測新的詞元,內存占用較高。解碼對延遲非常敏感,因為模型需要逐個預測新的詞元,而 LPU 的高 SRAM 帶寬和低延遲能力可以加速這一迭代過程。
![]()
注意力機制和前饋神經網絡(FFN)是模型中操作的子集。在模型的前向傳播過程中,注意力機制的輸出會輸入到token路由器,token路由器會將每個token分配給 k 個專家,每個專家就是一個 FFN。注意力機制和 FFN 的性能特性截然不同。在解碼階段,由于受限于鍵值緩存的加載,注意力機制的 GPU 利用率幾乎不會隨著批處理大小的增加而提高。相比之下,FFN 的 GPU 利用率隨批處理大小的增加而顯著提高。
在過去的 6 個月里,我們一直與一些硬件供應商和內存公司合作,致力于將我們的推理模擬器應用于此。
![]()
隨著最先進的混合專家(MoE)模型變得越來越稀疏,token可以從更大的專家池中選擇專家。因此,每個專家獲得的token數量減少,導致利用率降低。這促使人們尋求注意力機制和前饋神經網絡(FFN)的解耦。如果GPU僅執行注意力操作,其HBM容量可以完全分配給鍵值緩存(KV緩存),從而增加其可處理的token總數,進而增加每個專家平均處理的token數量。
![]()
對比這兩種操作,我們發現注意力機制由于動態鍵值緩存加載模式而具有狀態性,而前饋神經網絡(FFN)由于其計算僅依賴于詞元輸入而具有無狀態性。因此,我們將注意力機制和 FFN 的計算分離。我們將注意力機制的計算映射到 GPU,GPU 能夠很好地處理動態工作負載。對于 FFN,我們將其映射到 LPU,因為 LPU 架構本質上是確定性的,并且更適合靜態計算工作負載。
![]()
使用 AFD 時,從 GPU 到 LPU 的token路由可能會成為瓶頸,尤其是在嚴格的延遲約束下。token路由流程包含兩個操作:分發和合并。在分發步驟中,我們使用 All-to-All 集體操作將每個token路由到其前 k 個專家。專家完成計算后,我們執行合并步驟,使用反向 All-to-All 集體操作將輸出發送回源位置,從而繼續下一層的計算。
![]()
為了隱藏分發和合并過程中的通信延遲,我們采用了乒乓流水線并行機制。除了像標準流水線并行機制那樣將批次拆分成微批次并進行計算流水線化之外,分發到 LPU 的token會被合并回源 GPU,從而在 GPU 和 LPU 之間進行乒乓傳輸。
![]()
![]()
![]()
推測性解碼
LPU 改善解碼階段延遲的另一種方法是加速推測性解碼設置,其中我們將草稿模型或多token預測 (MTP) 層部署到 LPU 上。
對于包含 N 個上下文標記的解碼步驟,在前向傳遞過程中添加 k 個額外的標記(即預填充 k 個新標記)在 k << N 時只會略微增加延遲。利用這一特性,推測性解碼使用小型草稿模型或 MTP 層來預測 k 個新標記,從而節省時間,因為小型模型每次解碼步驟的延遲更低。為了驗證這些草稿標記,主模型只需要一次預填充 k 個新標記,其延遲成本大約相當于一次解碼步驟。推測性解碼通常會使每次解碼步驟的輸出標記數量增加 1.5 到 2 個,具體數值取決于草稿模型/MTP 的準確率。憑借其低延遲能力,LPU 可以進一步提高延遲節省并提升吞吐量。
![]()
對于 LPU 而言,部署草稿模型或 MTP 層與應用 AFD 截然不同。FFN 是無狀態的,而草稿模型和 MTP 層需要動態 KV 緩存加載。每個 FFN 大約占用數百兆字節,而草稿模型和 MTP 層則占用數十 GB。為了支持這種內存使用,LPU 可以通過 LPX 計算托架上的每個 Fabric Expansion Logic FPGA 訪問高達 256 GB 的 DDR5 內存。
LPX機架系統
我們來看看LPX機架系統,它有一些有趣的細節。英偉達展示了一款LPX機架,配備32個1U LPU計算托架和2臺Spectrum-X交換機。英偉達在GTC大會上展示的這款32托架1U版本與Groq被收購前的原始服務器設計非常接近。我們認為,這并非第三季度將要出貨的服務器配置,英偉達會進行一些改動。接下來,我們將詳細介紹我們目前了解到的實際量產版本信息。
![]()
LPX 計算托盤
每個 LPX 計算托架或節點包含 16 個 LPU,配備 2 個 Altera FPGA、1 個 Intel Granite Rapids 主機 CPU 和 1 個 BlueField-4 前端模塊。與其他 Nvidia 系統一樣,超大規模數據中心客戶可以并且將會使用他們自己選擇的前端網卡,而無需為 Nvidia 的 BlueField 付費。
![]()
LPU模塊采用背靠背的方式安裝在PCB上,即PCB上表面安裝8個LP30模塊,下表面安裝另外8個LP30模塊。LPU的所有輸出連接均通過PCB走線實現,由于節點間連接采用密集的全網狀布線,因此需要高規格的PCB來支持布線。背靠背安裝方式旨在減少PCB在X軸和Y軸方向上的走線長度。
![]()
該系統的一個有趣之處在于FPGA扮演的重要角色。Nvidia將FPGA稱為“Fabric Expansion Logic”(架構擴展邏輯),它具有多種用途。首先,它們充當網卡,將LPU的C2C協議轉換為以太網,從而連接到基于Spectrum-X的以太網橫向擴展架構。正是通過這個橫向擴展架構,LPU才能連接到解碼系統中的GPU。
其次,LPU 也需要經過 FPGA 才能到達主機 CPU,FPGA 將 C2C 轉換為 PCIe 傳輸到 CPU。
第三,FPGA 連接到背板,以便與節點中的其他 FPGA 通信。我們認為這有助于管理所有 LPU 的控制流和時序。此外,每個 FPGA 還提供高達 256GB 的額外系統 DRAM。如果用戶希望整個解碼過程都由 LPX 處理,則可以使用這部分內存作為 KVCache。
前面板上有 8 個 OSFP 插槽,用于跨機架 C2C 連接;另外還有 2 個插槽(可能是 QSFP-DD)連接到 Spectrum 交換機,這些交換機用于連接 LPU 和 GPU,構成解耦解碼系統。我們將在介紹網絡時詳細介紹這些插槽。
LPU網絡
LPU 網絡可分為縱向擴展的“C2C”網絡和橫向擴展網絡,后者通過 Spectrum-X 與 Nvidia GPU 交互。首先,我們來討論縱向擴展網絡,它可以分為三個部分:節點內、節點間/機架內和機架間。對于機架內的 C2C 網絡,Nvidia 宣布每個機架的總縱向擴展帶寬為 640TB/s,這是由 256 個 LPU x 90 條通道 x 112Gbps/8 x 2 個方向 = 645TB/s 計算得出的。需要注意的是,Nvidia 使用的是 112Gbps 的總線速,而不是 100Gbps 的有效數據速率。
一、托盤內拓撲結構
![]()
在每個托盤或節點內,所有 16 個 LPU 都以全網狀結構相互連接。每個 LPU 模塊通過 4x100G 的 C2C 帶寬與節點內的其他 15 個 LPU 連接。需要注意的是,這里的“C2C”并非 NVLink,而是 Groq 自有的可擴展互連架構。所有連接均通過 PCB 走線實現,因此需要極高規格的 PCB 來支持如此高的布線密度。這就是采用背靠背布局的原因:它減少了所有 LPU 之間的 X 和 Y 方向距離,并將布線集中在 Z 方向上。
LPU 還通過 1x100G 接口連接到一個 FPGA,每個 FPGA 與 8 個 LPU 連接。這兩個 FPGA 各自通過 8 個 PCIe Gen 5 接口連接到 CPU。由于 LPU 沒有 PCIe PHY 直接與 CPU 連接,因此需要通過 FPGA 才能與 CPU 通信。
二、節點間/機架內
![]()
每個 LPU 都與服務器中其他 15 個節點上的每個 LPU 相連。每個節點間鏈路均為 2x100G,因此每個 LPU 共有 15x2x100G 的節點間鏈路。這些節點間鏈路通過銅纜背板連接。此外,每個 FPGA 也通過 25G 或 50G 的鏈路與其他節點上的 FPGA 相連,共 15x25G/50G。這些鏈路也通過背板連接。這意味著每個節點有 16 x 15 x 2 條用于節點間 C2C 通信的通道,以及 2 x 15 條用于節點間 FPGA 通信的通道,總共 510 條通道或 1020 個差分對(用于接收和發送)。因此,背板共有 16 x 1020/2 = 8160 個差分對——除以 2 是因為每個設備的發送通道對應一個設備的接收通道。
三、機架間
![]()
最后,還有機架間的C2C連接。每個LPU都有4條100G通道連接到OSFP籠,從而連接4個機架上的LPU。這種機架間擴展可以使用多種配置。一種方案是每個LPU的4條100G通道連接到一個OSFP籠,每個OSFP籠從2個LPU分流出800G的C2C數據。然而,為了獲得更大的扇出能力,更優的配置似乎是每個LPU的100G通道連接到4個獨立的OSFP籠,每個OSFP籠從8個LPU分流出800G的C2C數據。機架之間的網絡連接方式似乎是菊花鏈式配置,每個Node0節點連接到另外2個Node0節點。所有這些都可以在100G AEC的覆蓋范圍內實現,如有必要,也可以使用光模塊。
英偉達CPO路線圖
NVIDIA 在 2026 年 GTC 主題演講中公布了其 CPO 路線圖,隨后 Jensen 在第二天舉行的財務分析師問答會議上對此進行了補充說明。盡管許多人曾寄希望于 CPO 能用于 Rubin Ultra Kyber 機架內的擴展,但 NVIDIA 的重點卻在于利用 CPO 構建更大規模的全球計算系統。
![]()
在 Rubin 系列中,Nvidia 將提供采用 Oberon NVL72 外形尺寸的 Rubin GPU,并配備全銅纜縱向擴展網絡。正如我們預期的那樣,Rubin Ultra 僅提供 Oberon 和 Kyber Rack 兩種外形尺寸的銅纜縱向擴展選項。此外,Rubin Ultra 還將推出更大尺寸的系統,該系統由 8 個 Oberon Rack(每個 Rack 包含 72 個 Rubin Ultra GPU)組成,稱為 NVL576。該系統將采用 CPO 縱向擴展技術構建,機架之間通過兩層全對全網絡連接,但機架內部的縱向擴展仍將基于銅纜。
當我們達到費曼世代時,CPO 的應用將通過另一個大型世界級機架——NVL1152 來實現,該機架由 8 個 Kyber 機架組合而成。盡管英偉達技術博客在其機架配置路線圖中指出,“NVIDIA Kyber 將擴展為一個龐大的全 NVL1152 超級計算機,并使用類似的直接光互連實現機架間的擴展”,但黃仁勛在一次金融分析師問答環節中表示,費曼世代的 NVL1152 將“完全采用 CPO”。目前對于機架內部擴展是否仍將使用銅線,還是會用 CPO 取代銅線,仍存在一些爭議。
英偉達的策略是盡可能使用銅纜,在必須使用光纖時才采用光纖。費曼世代的NVL1152架構也將遵循這一原則。顯然,NVL1152將采用CPO(銅纜光纜)連接機架,但目前GPU到NVLink交換機的連接仍采用銅纜POR(光纖上電)。英偉達無法將雙向224Gbit/s的電通道速度再次翻倍至單向448Gbit/s,這意味著帶寬并沒有那么驚人。
雖然 448G 高速 SerDes 與使用芯片到芯片的連接連接到光引擎相比,在海岸線、傳輸距離和功耗方面面臨巨大挑戰,但對于 Feynman 而言,制造方面的挑戰、成本和可靠性要求必須使用銅線連接到交換機。
盡管如此,NVL1152 SKU 的上市還需要數年時間,而且產品路線圖很可能會發生變化。目前,我們的基本方案是每個機架內部使用銅纜,機架之間使用 CPO(銅纜傳輸協議),但這很容易改變。
目前我們對英偉達CPO路線圖的最佳估計如下:
Rubin:
NVL72 – Oberon 全銅增壓
Rubin Ultra:
NVL72 – Oberon 全銅增壓
NVL144 – Kyber機架全銅升級
NVL288 – Kyber機架全銅擴展,兩個機架之間用銅線連接。
NVL576 – 8 個 Oberon 機架,機架內銅纜擴展,機架間交換機采用 CPO,構成兩層全對全拓撲結構。此方案容量較小,僅用于測試目的。
Feynman:
NVL72 – Oberon機架 – 全銅
NVL144 – Kyber Rack – 全銅
NVL1152 – 8xKyber 機架 – 機架內銅纜及機架間交換機上的 CPO。
![]()
Oberon 和 Kyber 更新,引入更大的世界規模,更多網絡更新
英偉達發布了備受期待的 Kyber 機架式服務器的最新進展,這是繼 Oberon 之后,英偉達產品線中的最新成員。Oberon 此前已在 GTC 2025 大會上以原型機的形式亮相。作為原型機,Kyber 機架式服務器架構一直在不斷演進,我們注意到了一些變化。首先,每個計算刀片的密度都得到了提升,每個刀片配備 4 個 Rubin Ultra GPU 和 2 個 Vera CPU。總共有 2 個機架單元,每個單元包含 18 個計算刀片,即 36 個計算刀片,每個機架可容納 144 個 GPU。最初的 Kyber 設計是每個計算刀片配備 2 個 GPU 和 2 個 Vera CPU,總共有 4 個機架單元,每個單元包含 18 個計算刀片。
以下細節基于 Rubin Kyber 原型,但 Rubin Ultra 將重新設計。
![]()
每個交換機刀片的高度是 GTC 2025 原型機的兩倍,每個刀片配備 6 個 NVLink 7 交換機,每個機架配備 12 個刀片,因此每個 Kyber 機架總共包含 72 個 NVLink 7 交換機。GPU 通過 2 個 PCB 中板或每個機箱 1 個中板與所有刀片直接連接。
![]()
對于 Rubin Ultra NVL144 Kyber,我們已多次告知客戶,不會使用 CPO 進行擴展,盡管其他分析師曾傳言 Kyber 將引入擴展 CPO。不過,NVLink 光模塊即將推出,并將逐步部署。擴展 CPO 將首先用于 Rubin Ultra NVL 576 系統,連接 8 個 Oberon 機架,形成一個雙層全連接網絡。機架內部的擴展網絡連接仍將使用銅質背板。目前,這僅用于小批量/測試用途。
回到 Kyber Rack,每個 Rubin Ultra 邏輯 GPU 提供 14.4Tbit/s 的單向雙向擴展帶寬,每個 GPU 使用一個 80DP 連接器(使用 72 個 DP x 200Gbit/s 雙向通道 = 14.4Tbit/s)連接到中板。將所有 144 個 GPU 連接到一個全對全網絡中,需要 72 個 NVLink 7.0 交換芯片,每個芯片的總單向雙向帶寬為 28.8Tbit/s。
![]()
在下圖所示的Kyber Switch Blade中,我們可以看到它由兩塊獨立的PCB板組成,每塊PCB板上各搭載3個開關。這款Switch Blade應該配備6個152DP連接器,每塊中板各3個連接器。圖中所示的是原型刀片,使用了密度較低的連接器,因此連接器數量為12個,而不是量產版預期的6個。
![]()
每個 28.8T NVLink 交換機擁有 144 條 200G 通道(雙向同步傳輸),這意味著每個交換機的每個連接器都有 24 條 200G 通道。由于距離過長,無法使用 PCB 走線,因此使用銅質飛線將每個交換機連接到中板。這也是交換機距離中板較遠的原因,以便為飛線布線留出空間。
![]()
每個 NVLink 交換芯片通過飛線連接到交換刀片邊緣的連接器(使用 144 個 DP 端口 x 200 Gbit/s 雙向通道 = 28.8Tbit/s),這些連接器再插入中板。如果 NPC 無法正常工作,NVIDIA 正在考慮使用共封裝銅來進一步降低損耗。據我們所知,NVIDIA 正在要求供應鏈采用全共封裝銅。
Rubin Ultra NVL288
盡管英偉達在 GTC 2026 大會上并未正式討論 NVL288 方案,但供應鏈內部已對此進行了探討。該方案將采用兩個相鄰的 NVL144 Kyber 機架,并通過機架間銅質背板連接兩個機架。一種可能性是將所有 288 個 GPU 完全互連,但這需要比目前 NVLink 7 交換機更高基數的交換機,因為后者最大僅提供 144 個 200G 端口。
如果部署 Rubin Ultra NVL288,每個 Rubin Ultra GPU 的單向帶寬將達到 14.4Tbit/s,連接 NVLink 7 交換機需要 144 個 DP 線纜。每個 GPU 72 個 DP,共 288 個 GPU,這意味著連接這個更大的網絡空間總共需要 20,736 個額外的 DP。這需要大量的線纜,因此這是線纜容量的上限。
28.8T NVLink交換機的基數限制了每個交換機可連接的GPU數量,同時仍需提供跨機架連接。要么必須使用更高基數的交換機,要么該架構必須存在一定程度的超額分配,并可能采用類似蜻蜓拓撲的網絡結構。此外,這還可以減少DP接口所需的銅纜數量。
![]()
目前供應鏈中的所有證據都表明 NVSwitch 7 的帶寬與 NVSwitch 6 相同,但坦白說,這似乎有點不合邏輯。我們認為 NVSwitch 7 的帶寬和基數實際上是 NVSwitch 6 的兩倍,因此可以實現全網互聯,而且從系統架構的角度來看,這才是最合理的。
Rubin Ultra NVL576
為了將規模擴展到 144 個 GPU 以上并跨越多個機架,我們需要采用光學器件,因為我們已接近銅纜所能承載的最大計算密度。Rubin Ultra NVL576 目前已列入產品路線圖,用于部署 8 個機架的低密度 Oberon 處理器。
![]()
機架間連接需要使用光學器件,但嚴格來說,目前尚不確定是采用可插拔光學器件還是CPO(耦合光模塊),不過CPO的可能性似乎更大。目前Blackwell NVL576原型機“Polyphe”使用的是可插拔光學器件。
我們之前展示過基于GB200的NVL576概念,該概念采用可插拔光模塊互連NVLink交換機的第二層。可插拔模塊的使用導致物料清單成本大幅增加,使得該系統從總擁有成本(TCO)的角度來看,對于全交換網絡而言難以實現。然而,Rubin Ultra NVL576很可能會在Feynman NVL 1152發布之前進行測試,屆時我們將看到實際的量產規模提升。
Feynman
雖然我們對 Feynman 了解不多,但主題演講的預覽足以告訴我們 Feynman 將會令人興奮,它將在一個平臺上推進三項重大技術創新:混合鍵合/SoIC 、A16、CPO和定制 HBM 。
雖然 Feynman 已將采用 CPO 列入計劃,但問題在于采用程度如何?機架內互連將基于銅纜還是光纖?我們將在付費墻后展示可能的配置。Vera ETL256
隨著人工智能工作負載需要處理更多數據、進行預處理和編排,而GPU計算能力已無法滿足這些需求,CPU需求正在不斷增長。強化學習進一步推高了CPU需求,因為CPU需要并行運行模擬、執行代碼和驗證輸出。由于GPU的擴展速度比CPU快,因此需要更大的CPU集群才能使其充分利用,這使得CPU日益成為瓶頸。
Vera獨立機架直接解決了這個問題,它通過將256個CPU集成到單個機架中實現了前所未有的密度——這一壯舉需要液冷散熱。其基本原理與NVL機架的設計理念一脈相承:將計算資源緊密排列,使銅纜互連能夠覆蓋機架內的所有組件,從而無需在主干板上使用光收發器。銅纜帶來的成本節約完全可以抵消額外的散熱開銷。
![]()
每個 Vera ETL 機架包含 32 個計算托架,上下各 16 個,圍繞中間的四個 1U MGX ETL 交換機托架(基于 Spectrum-6)對稱排列。這種對稱布局是經過精心設計的:它最大限度地減少了計算托架和主干線纜之間的長度差異,確保所有連接都在銅纜的有效范圍內。每個交換機托架的后置端口連接到主干銅纜,用于機架內部通信;而 32 個前置 OSFP 插槽則為 POD 的其余部分提供光纖連接。
機架內部采用 Spectrum-X 多平面拓撲結構,將 200 Gb/s 通道分配到四個交換機上,實現完全的全連接,同時保持單一網絡層級。每個計算托架容納 8 個 Vera CPU,因此每個機架共可容納 256 個 CPU,所有 CPU 均通過以太網連接到單一的扁平網絡。
![]()
![]()
CMX 和 STX
我們在上一篇關于 Rubin 的文章和內存模型中詳細探討了英偉達的 CMX(或稱 ICMS)平臺。英偉達還推出了 STX 參考存儲機架架構。
CMX
CMX是 NVIDIA 的上下文內存存儲平臺。CMX 旨在解決現代推理基礎設施中日益嚴重的瓶頸問題:支持長上下文和智能體工作負載所需的鍵值緩存快速擴展。
鍵值緩存 (KV 緩存) 的容量隨輸入序列長度和用戶數量線性增長,是影響預填充性能(首次獲取token所需時間)的主要權衡因素。大規模應用時,設備端 HBM 的容量不足。主機 DRAM 可以通過額外的緩存層擴展 HBM 的容量,但也會受到每個節點總容量、內存帶寬和網絡帶寬的限制。這時就需要使用 NVMe 存儲來分擔 KV 緩存的負載。
NVIDIA 在一月份的 CES 展會上推出了推理內存層級結構中的“全新”中間存儲層級“G3.5”。G3.5 NVMe 位于 G3 DRAM 層級和 G4 共享存儲層級(同樣是 NVMe、SATA/SAS SSD 或 HDD)之間。該層級之前被稱為ICMS(推理上下文內存存儲),現在更名為CMX 平臺,實際上只是通過 Bluefield 網卡連接到計算服務器的存儲服務器的另一種品牌重塑。與 NVMe 架構的唯一區別在于網卡從 Connect-X 網卡替換為 Bluefield 網卡。
![]()
STX
為了擴展 CMX 的應用范圍,NVIDIA 還推出了 STX。STX 是一款參考機架架構,采用 NVIDIA 基于 BF-4 的存儲解決方案,旨在與 VR 計算機架相輔相成。該參考架構明確規定了特定集群所需的硬盤數量、Vera CPU、BF-4 DPU、CX-9 網卡和 Spectrum-X 交換機的數量。
![]()
與VR NVL72中的BF-4(由一顆Grace CPU和一個CX-9網卡組成)不同,STX參考設計中的BF-4包含一顆Vera CPU、兩顆CX-9網卡和兩個SOCAMM模塊。每個STX機箱包含兩個BF-4單元,共計兩顆Vera CPU、四顆CX-9網卡和四個SOCAMM模塊。整個STX機架共包含16個機箱,這意味著總共有32顆Vera CPU、64顆CX-9網卡和64個SOCAMM模塊。
![]()
STX 發布會上,英偉達一如既往地展示了實力,他們列出了所有支持 STX 的主要存儲供應商,包括 AIC、Cloudian、DDN、戴爾科技、Everpure、日立 Vantara、HPE、IBM、MinIO、NetApp、Nutanix、Supermicro、廣達云技術 (QCT)、VAST Data 和 WEKA。
BlueField-4、CMX 和 STX 共同代表了 NVIDIA 在存儲層集群設計標準化方面所做的更廣泛的努力。NVIDIA 已在計算和網絡層占據主導地位,并正積極逐步向存儲、軟件和基礎設施運維層拓展。
https://newsletter.semianalysis.com/p/nvidia-the-inference-kingdom-expands_gl=1*mkql0u*_ga*MjEyMzgzNDg4LjE3NTkyNDg4ODA.*_ga_FKWNM9FBZ3*czE3NzQzODc5MjgkbzU1JGcwJHQxNzc0Mzg3OTI4JGo2MCRsMCRoMTMyODk4ODQzNg..
(來源:編譯自semianalysis)
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4356內容,歡迎關注。
加星標??第一時間看推送
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.