網易首頁 > 網易號 > 正文申請入駐

GTC 2026｜從“五層蛋糕”看GTC 2026的技術版圖更新

2026-03-19 20:30:27　來源: 至頂頭條

北京舉報

分享至

作者：毛爍

過去幾年，外界理解NVIDIA，往往從 GPU、CUDA、訓練集群這些關鍵詞切入。但在今年，這套解釋框架已經發生了變化。

在GTC 2026開始前，老黃發布了一篇“AI五層蛋糕”的署名文章。在“五層蛋糕”的體系中，老黃重新給出了AI的坐標系——最底層是能源層，負責提供穩定、可調度的實時電力；往上是芯片層，將能量高效轉化為計算；再往上是基礎設施層，把成千上萬的處理器組織成一個可調度的整體，也就是“AI工廠”；其上是模型層，承載語言、物理、生物、化學等基礎模型；最上層才是應用層，完成最終的價值變現。

正因為目標發生了遷移，所以對于今年的GTC 2026，我理解NVIDIA在表達其圍繞算力生產與交付方式的系統性邏輯。沿著“五層蛋糕”展開，可以看到NVIDIA的自我定位開始轉向為AI工廠的全棧架構設計者。

01 “五層蛋糕”是理解GTC 2026的入口

如果要為GTC 2026找一個理解的入口，“五層蛋糕”是不容易走偏的一條。

老黃在署名文章里先給了一個前提判斷：計算范式已經發生變化。過去的軟件是預制邏輯，數據被整理為結構化表格，通過精確查詢完成調用；而今天的 AI，處理的是非結構化信息，基于上下文與意圖進行推理，并實時生成結果。既然“智能”不再是預先寫好的代碼，那么支撐它的整套計算體系，也就不可能沿用舊架構。

在這個前提下，他給出了“五層蛋糕”框架。

用這一框架看GTC 2026上NVIDIA的發布，就不難看出，這些分散的產品線，是圍繞同一目標展開的——在功率受限成為常態的前提下，將數據中心轉化為高吞吐、低時延、可持續運行的“token生產系統”。

由此帶來的變化，是評價體系的遷移。行業關注重點從單卡性能、互聯帶寬與集群規模，轉向單位功率下的token產出、時延穩定性與系統利用率。

沿著這一邏輯，電力接入、液冷系統、機房形態、施工與部署節奏、仿真驗證，再到模型訓練與推理調度等原本分散的要素開始被統一納入同一設計框架。這種從基礎設施到上層應用的整體協同，被NVIDIA稱為extreme codesign（深度協同設計)，本質上是對全鏈路進行統一優化。

這一方向在Rubin平臺早期階段已經有所體現。當時強調的是系統內部六大核心芯片的協同設計：Vera CPU、Rubin GPU、NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6以太網交換機，解決的是計算系統內部的組織方式。而在GTC 2026上，這一協同被進一步外延，與DSX、Dynamo、STX、Nemotron等軟件與模型體系結合，整體納入AI工廠的統一框架之中。

因此，“五層蛋糕”的意義，就成為了“建立統一的尺度”。

02 能源層：AI工廠的“第一性約束”，落到了每瓦token的產出

“五層蛋糕”中真正決定下限的一層，其實是能源。

老黃在署名文章里的表述非常清楚：每一個token的生成，本質上都是電子流動、熱量管理以及能量向計算轉化的過程。在這一層之下，并不存在進一步的抽象層。這一判斷的意義在于，把AI重新放回到一個工業系統之中來理解，不再只是模型、參數與評測指標，而是回到供電、散熱與工程實現這些更基礎、也更剛性的維度。

從這個視角看，未來幾年真正拉開差距的，很可能不是誰的模型更大，而是誰能夠更高效地使用“電”。

而這種能力，取決于電網接入、冷卻方式、建設周期，以及設備交付等一整套條件，最終體現為單位時間內可持續輸出的計算能力。

在GTC 2026上，NVIDIA給出的應對思路是向系統層發力。

一個比較直觀的變化，是機架級形態正在圍繞液冷被重新定義。Vera Rubin系統已經實現了100%液冷，并引入高溫水冷設計，一方面壓縮部署周期，另一方面把原本消耗在制冷上的能量盡可能讓渡給計算。

這是在重新分配數據中心內部的能量結構。

但更值得注意的，是另一條更偏“運營側”的路徑。NVIDIA將“AI工廠”當作了持續運行、持續調整的系統來對待。

圍繞這一點，NVIDIA在GTC 2026上推出了NVIDIA Omniverse DSX Blueprint，以及Vera Rubin DSX AI Factory參考設計，把tokens per watt、time to first production（每瓦Token 數 / 單位功耗Token吞吐量），以及系統韌性等指標放在同一套框架下，同時將機架、電氣、熱管理、網絡乃至運行策略，也放進了同一個設計與優化系統中。

生態的構成也印證了這一點。在DSX這套體系中，不同合作伙伴的角色，對應AI工廠從設計到運行的不同環節。Cadence、Dassault Systèmes、PTC、Siemens這類公司，解決的是“設計”的問題，NVIDIA用AI加持他們的建模與仿真能力，把機房結構、供配電路徑、氣流組織等復雜系統，先在數字世界里完整推演一遍，提前看到性能與能效的結果。

而Trane、Vertiv、Schneider Electric則對應“怎么建出來”。冷卻系統如何落地、供電系統如何部署、整套基礎設施如何穩定運行，這一層決定的是AI工廠能否真正投入使用。

再往后一層，Phaidra、Emerald AI這類合作伙伴處理的是，“建成之后如何持續跑得更好”。其通過實時數據去調整功率分配、冷卻策略和負載節奏，讓系統在不同工況下都盡量接近最優狀態。

把這三部分連在一起看，就會發現DSX想做的事情，是把“設計—建設—運行”這三段彼此割裂的流程收攏到同一套體系中。這樣一來，很多原本只能在建成之后再慢慢試錯的問題，可以提前在設計階段被驗證，而運行階段的優化經驗，也可以反過來修正設計本身。。

在這一框架下，NVIDIA發布DSX Sim、DSXMax-Q、DSXFlex等軟件的價值，就是在數字孿生環境中，把功率、冷卻與網絡耦合起來，通過持續調優去實現更高效的運行狀態。

03 芯片層：把算力變成可交付的生產單元

順著“五層蛋糕”去理解，芯片層的意義就是把電力高效轉化為計算能力的任務，其決定AI能擴到多大規模，也決定智能能否進入更廣泛、更低成本的應用場景。

從更新的技術和產品中，也能看出這層意思。

1、Vera Rubin NVL72：機架成為芯片層的基本交付單元

Vera Rubin NVL72集成了72顆Rubin GPU，36顆Vera CPU，ConnectX-9 SuperNIC和BlueField-4 DPU。機架內部通過NVLink 6縱向擴展，機架之間通過Quantum-X800 InfiniBand與Spectrum-X Ethernet橫向擴展，可直接作為AI工廠模塊接入。

參數上，Rubin NVL72提供3600PFLOPS NVFP4推理性能、2520PFLOPS NVFP4訓練性能，配備20.7TB HBM4、1580TB/s HBM帶寬和260TB/s NVLink總帶寬。單顆Rubin GPU則對應50PFLOPS NVFP4推理、288GB HBM4和22TB/s HBM帶寬。

這套定義強調的是機架級吞吐、內存駐留和互連密度。對長上下文模型、MoE模型和大規模推理服務來說，真正影響系統上限的是整機架內部能否形成穩定的高帶寬數據路徑。NVL72把GPU、CPU、網卡和DPU固定進同一系統單元，讓交付形態成為可直接部署的智能生產單元。

2、Rubin GPU：HBM4、NVFP4和Transformer Engine面向推理鏈路

Rubin GPU的升級重點集中在HBM4、NVFP4和Transformer Engine。對應到當前模型演進，核心問題已經落在內存容量、內存帶寬、低比特執行效率和上下文處理能力上。

單顆Rubin GPU配備288GB HBM4，帶寬達到22TB/s。HBM容量關系到模型參數、激活和KV cache的駐留規模，HBM帶寬決定長上下文推理、檢索增強和多輪Agentic交互中的數據訪問效率。

NVFP4已經寫進推理和訓練的顯式規格，說明低精度路徑進入主戰能力范圍。配合Transformer Engine、張量核心和軟件棧，目標是繼續壓低單位token的計算成本，在可接受精度下換取更高吞吐和更低推理成本。

從Hopper的FP8，到Blackwell，再到Rubin的NVFP4，NVIDIA的路線已經很明確——就是要把低比特精度、張量核心和內存路徑整合起來，服務推理、Agentic AI和長上下文推理等負載。

3、Vera CPU：承擔Agentic系統的控制與調度

Vera CPU面向Agentic AI和強化學習設計，采用88個Olympus核心，通過NVLink-C2C提供1.8TB/s一致性互連帶寬，并針對數據移動、Agentic reasoning和確定性性能做優化。

這類設計對應的是AI系統運行方式的變化。今天的Agentic系統除了前向推理，還包含工具調用、文件訪問、狀態維護、任務拆解、瀏覽器操作、環境交互、并發調度和強化學習rollout。CPU要持續處理控制流和系統級調度，地位已經接近控制面處理器。

88個核心面向大規模并發控制，1.8TB/s NVLink-C2C則把CPU與GPU之間的數據交換拉進更高帶寬、更低延遲的一致性結構。這對于Agentic runtime、數據預處理和強化學習循環來說，這種互連方式直接關系到狀態共享和執行效率。

4、ConnectX-9 SuperNIC與BlueField-4 DPU：網絡和數據平面進入主執行鏈路

ConnectX-9 SuperNIC和BlueField-4 DPU直接納入芯片層定義，說明網絡和數據平面已經進入了主執行鏈路。

ConnectX-9 SuperNIC為每顆GPU提供1.6Tb/s帶寬，并支持可編程RDMA和低時延GPU 直連網絡（GPU-direct networking）。對分布式訓練和推理來說，這關系到GPU間通信、遠端存儲訪問、參數交換和跨節點KV cache同步的效率，最終會直接反饋到token時延和系統利用率。

BlueField-4 DPU則負責把存儲、網絡、安全、彈性擴展等數據處理負載從CPU和GPU主路徑中卸載出來，并承接訪問控制、租戶隔離、DMA管理、協議棧處理和數據路徑優化。

5、Groq 3 LPU/LPX：補齊低時延推理區間

Rubin產品體系里另一個值得注意的變化，是新納入了Groq 3 LPU與Groq 3 LPX rack。其定義是為面向低時延、長上下文Agentic systems的推理加速器。

性能上看，單機架256個LPU、128GB SRAM、40PB/s memory bandwidth和640TB/s scale-up bandwidth，并能與Vera Rubin NVL72的協同設計。

這意味著整個體系開始覆蓋兩類推理區間。一類由Rubin NVL72承接，面向高吞吐、大容量、長上下文和大模型主體負載；另一類由Groq 3 LPX承接，面向更強調響應時間的低時延推理鏈路。

兩類處理器對應不同目標。Rubin更重視大規模并行、超大內存容量和機架級互連；Groq 3 LPX更強調高帶寬SRAM、確定性執行路徑和局部數據流控制。

將其放進AI工廠后，底層算力系統就能按高吞吐、低時延、長上下文和控制調度等不同任務分工協同。

04 基礎設施層：把算力拼裝成“AI工廠”

如果說上一層解決的是“AI工廠由哪些芯片構成”，那么基礎設施層要解決的，就是這些芯片怎樣被組織起來，真正變成一套能夠持續運行的工廠級機器。

按照老黃“五層蛋糕”的說法，芯片只是把能源轉成智能的核心部件，但要把這種轉換穩定放大到大規模推理、長上下文處理和Agentic系統運行，光有GPU、CPU和DPU還不夠，必須再往上搭起互連、網絡、存儲和安全組成的基礎設施底盤。

沿著這個思路往下看，基礎設施層的幾項更新其實都指向同一個目標——在更大的系統尺度上形成統一計算體。這一點也體現在具體的產品更新上。

1、NVLink 6把機架內互連變成統一的“主干”

首先被推到最核心位置的，是NVLink 6。、每顆Rubin GPU具備3.6TB/s的all-to-all scale-up帶寬，Vera Rubin NVL72整機架總NVLink帶寬達到260TB/s。放在平臺定義里，這是在為機架內部建立一套統一的高速計算骨架。

這一點和前面的芯片層是連在一起的。既然Vera Rubin NVL72已經把72顆Rubin GPU、36顆Vera CPU、ConnectX-9 SuperNIC和BlueField-4 DPU固定成一個機架級系統，那么接下來真正決定這套系統是否成立的，就是機架內部能否維持一個足夠大、足夠穩定的低時延高帶寬scale-up域。

對長上下文模型、MoE模型和多階段推理來說，系統上限往往首先撞上的就是這層互連能力。因此NVLink 6在Rubin這一代承擔的角色，更接近機架內主干，而不是普通意義上的芯片間連接。至于機架之間的繼續擴展，則由Quantum-X800 InfiniBand和Spectrum-X Ethernet去完成。

2、Spectrum-6 SPX與Spectrum-X Ethernet Photonics：網絡擴展開始拼能效和韌性

再往外一層，基礎設施層要解決的，是這些機架級計算單元怎樣以更低損耗、更高韌性的方式繼續向外擴展，最終拼成更大的AI工廠。

這背后的工業邏輯很直接。AI工廠規模一旦繼續放大，瓶頸很快就會從單顆芯片性能，轉移到機架到機架之間的網絡系統本身，包括交換側功耗、光模塊功耗、布線復雜度、故障率、維護可達性，以及整套網絡的TCO。

在這一層，Spectrum-6 SPX Ethernet rack 承擔的是機架級網絡交付單元的角色，負責 AI 工廠內部大規模 east-west 流量的低時延、高吞吐互連，其可配置為基于Spectrum-X Ethernet、Quantum-X800 InfiniBand交換體系。與此同時，Spectrum-X Ethernet Photonics 進一步把共封裝光學引入交換側，用來提升光互連的能效和網絡韌性。

3、BlueField-4 STX把存儲拉進推理主鏈路

當機架內部互連和機架外部網絡都進入平臺后，基礎設施層接下來的變化就落到了存儲上。

GTC 2026里一個非常重要的更新，就是BlueField-4 STX。這是面向AI-native data platform的模塊化參考架構，用來幫助企業、云廠商和AI服務商部署加速存儲基礎設施，支撐Agentic AI所需要的長上下文推理。

基于這套架構的新一代推理存儲平臺可實現最高5倍token吞吐、最高4倍能效，以及2倍更快的數據攝取；首批采用方包括CoreWeave、Crusoe、IREN、Lambda、Mistral AI、Nebius、OCI和Vultr。

當前模型演進越來越強調長上下文、Agent執行、多工具調用和檢索增強，這意味著系統壓力不只落在HBM和NVLink，也會落到上下文持久化、向量檢索、日志與軌跡存儲、知識庫訪問以及大規模非結構化數據吞吐上。

而芯片層解決的是“算得動”，到了這一層還要繼續解決“喂得上”。

4、Confidential Computing把安全“焊”進基礎設施底盤

在互連、網絡和存儲之外，Rubin基礎設施層最后補上的，是安全邊界。

這個問題在大模型時代尤其敏感。

模型權重、微調結果、私有數據和Agentic執行日志，本身都是高價值資產，云上多租、主權部署、行業隔離部署和本地部署又都在增長。

而沒有硬件級機密計算，很多受監管行業和高安全要求場景都很難真正把AI系統放進生產環境。

所以，Confidential Computing放到基礎設施層里，是在告訴企業可以在有隔離、有邊界要求的環境里運行。

05 模型層：開放生態+ Agentic、Physical與Healthcare三向擴展

到了模型層，值得注意的是NVIDIA正式推出了Nemotron Coalition。這是由開放模型構建者與AI開發者組成的全球協作體系，通過共享研究、專業知識、數據與算力，推進open frontier models。

首批成員包括 Black Forest Labs、Cursor、LangChain、Mistral AI、Perplexity、Reflection AI、Sarvam 和 Thinking Machines Lab。

這件事的意義，更像是在在搭建開放生態，把不同區域、不同模態、不同垂直領域的模型家族繼續往外長，而這些模型繼續增長時，底層錨定在NVIDIA的算力與運行時體系上，其中包括DGX Cloud、CUDA、TensorRT、NIM。

開放模型越強，私有部署、行業定制和主權AI的需求就越強，下層GPU、網絡、存儲與運行時的需求也會被同步放大。Nemotron Coalition本質上承擔的是“把開放模型繁榮，轉化成基礎設施投資”的機制。

另外NVIDIA還擴展了開放模型家族，方向集中在Agentic AI、physical AI 和 healthcare AI。

Agentic一側包括CodeRabbit、CrowdStrike、Cursor、Factory、ServiceNow、Perplexity；;physical AI一側包括 LG Electronics 和 Milestone Systems；healthcare一側則包括Novo Nordisk、Viva Biotech 和 Manifold Bio。

06 應用層：把AI能力兌現為生產力

放在“五層蛋糕”的框架里看，NVIDIA把應用層定義成 AI工業體系里最接近真實生產力的一層。能源、芯片、網絡、基礎設施決定的是上限，真正把這些能力變成行業效率、企業ROI 和可持續采購理由的，還是應用層。

也正因為如此，老黃在GTC上反復強調CUDA-X是NVIDIA的crown jewels。沿著這條線看，GTC 2026的應用層至少釋放了兩個很強的信號。

第一個信號，是結構化與非結構化數據處理，已經被NVIDIA明確納入AI時代的基礎能力。老黃在演講里把SQL、Spark、Pandas、Velox、Snowflake、Databricks、BigQuery、Fabric、EMR放進同一張圖，強調結構化數據正在為AI提供上下文，并特別點出cuDF和cuVS的平臺價值。

這個信息很重要，說明NVIDIA對企業AI的理解進一步推進到了數據處理、向量檢索和RAG數據平面這一層。

這背后的行業判斷是，企業AI一旦從試點走向長期運行，成本結構很快就會發生變化。決定系統能否落地的，是企業內部大量表格、日志、PDF、視頻、語音等數據，能否被快速整理、索引、檢索并轉成模型可消費的上下文。

也就是說沒，誰能把這一層做到高吞吐、低時延、低成本，誰就能在企業AI的生產階段占住關鍵位置。CUDA-X的價值也正在這里體現出來，其可將算力折算成查詢時間、索引效率、檢索速度和整體成本的結果。

第二個信號，是Agentic AI開始擁有獨立的運行能力。Agent正在從模型外的一層“交互封裝”，演進為可部署、可管理、可擴展的系統對象。

在GTC 2026上，這條線最核心的更新來自Dynamo 1.0、OpenClaw、NemoClaw和OpenShell。NVIDIA將Dynamo 1.0定義為面向大規模生成式與Agentic推理的開源操作系統，這一定位的關鍵在于——把推理調度、并發執行、上下文管理、跨硬件協同以及工廠級運行，整合進一層更高階的系統軟件中。

與此同時，NemoClaw與OpenShell補齊了執行側的另一半能力。OpenShell對應運行環境，OpenClaw對應Agent框架，NemoClaw則負責模型接入、隱私與安全控制。

當這幾層被串聯起來之后，Agent就不再只是調用模型API、拼接工具鏈的輕量封裝，而開始具備長生命周期、本地執行環境以及清晰的安全邊界，逐漸成為真正意義上的“系統單元”。

應用層的另一部分變化，體現在圖形技術與本地AI的結合上。DLSS 5、RTX PC、DGX Spark、DGX Station放回NVIDIA的方法論中，本質就是應用層如何向本地環境分布。

以DLSS 5為例，其把“NVIDIA式的可控生成”具象化地展示出來——由確定性的3D結構提供邊界，再由生成模型補充光照、材質和細節。這種“結構約束+生成補全”的范式，并不僅僅屬于圖形渲染，在工業仿真、數字孿生、機器人訓練以及物理AI數據生成中，同樣可以復用，結構負責確定邊界，生成負責填充復雜性。

而RTX PC、DGX Spark、DGX Station的意義，則在于把Agent和開放模型的運行層，從數據中心拉回到個人設備與工作站中。

NVIDIA在這次GTC上明確強調，OpenClaw及相關開放模型已經可以在RTX PC、DGX Spark等系統上本地運行。這意味著，未來的應用層不會只存在于云端API之上，而是會分布在個人終端、企業私有環境以及本地工作流之中。對于涉及隱私、權限控制、低時延以及持續交互的任務來說，本地運行本身就是應用能力的一部分。

再往下延展，Physical AI其實可以被視為應用層的外延。在GTC 2026中，Isaac、Cosmos、GR00T，以及Open Physical AI Data Factory Blueprint的更新，顯示出NVIDIA正在將機器人與自動駕駛相關的軟件棧，重組為一條完整的“生產鏈”。

在這一體系中，覆蓋了世界模型、仿真框架、機器人基礎模型、數據生成與評估的一整套系統能力。機器人場景對應用層的要求更高，因為它必須同時承接模型、數據、仿真、控制以及邊緣部署。

也正因如此，Physical AI成為NVIDIA全棧協同能力最集中的落點之一。

汽車與工業軟件方向同樣遵循這一邏輯。CUDA-X、Omniverse、DRIVE、Hyperion等產品，開始更完整地嵌入設計、仿真、驗證、訓練到部署的全流程。

對于車廠和制造業企業來說，應用層真正需要的，是一條從研發到執行的連續加速鏈，而不是若干彼此割裂的軟件工具。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.