網易首頁 > 網易號 > 正文申請入駐

黃仁勛最新2萬字演講實錄：推理的拐點已經到來，Token將成最值錢的大宗商品

2026-03-17 21:26:00　來源: 盒飯財經

北京舉報

分享至

算力即印鈔機，需求激增100萬倍。

整理|莘歆

來源 | 盒飯財經（ID：daxiongfan）

頭圖及封面來源 | 英偉達GTC 視頻截圖

當地時間2026年3月16日，被譽為“AI界春晚”的英偉達（NVIDIA）GTC大會如期而至。大會上，英偉達創始人兼CEO黃仁勛發表了一場長達兩小時的主題演講。

演講中，黃仁勛指出，人工智能已經跨越了只能陪人聊天、畫圖的“感知與生成”階段，正式進入了以“智能體（Agentic AI）”和“物理AI（Physical AI）”為核心的執行時代。算力也不再僅僅是研發支出，而是直接轉化為新一代大宗商品——Token（詞元）。

此外，黃仁勛再次強調了“AI工廠”概念。他指出，過去的數據中心是用來存放文件和照片的靜止倉庫，而未來的數據中心，將變成日夜不停運轉的轟鳴工廠。它們生產的不再是傳統產品，而是未來數字世界最核心、最值錢的大宗商品：Token。而為了讓這些工廠的產能達到極致，英偉達不僅推出了Vera Rubin硬件系統，還發布了能夠讓AI安全替人類“打工”的操作系統框架。

演講要點如下：

1.轉折點到來。黃仁勛指出，AI 已經能夠從事生產性工作，AI 市場最核心的轉變是從“訓練”全面走向“推理”。

2.計算量激增。在推理時代，所需的 token 量和計算量相比訓練階段增加了約一萬倍，他相信過去兩年計算需求實際增加了100 萬倍。

3.萬億美元機會。基于這一轉變，他預期到 2027 年底，Blackwell 與 Vera Rubin 兩代架構將帶來至少 1 萬億美元的累計收入機會。

4.推理分工化。英偉達打破單芯片處理傳統，將推理拆分為兩步：第一階段“預填充”由 Vera Rubin 負責；第二階段“解碼”交由新整合的 Groq 芯片負責，每瓦特性能提升了幾十倍。

5.路線圖發布。Groq 3 LPU，專注于低延遲計算，預計今年下半年出貨；Vera Rubin，性能比上一代高出 10 倍，預計 2026 年下半年出貨；Kyber 架構，將 144 個 GPU 垂直集成，預計 2027 年應用于 Vera Rubin Ultra；Feynman 芯片，暗示了 Rubin 之后的長遠產品線。

6.進軍太空。宣布與 Axiom Space 合作推出 Vera Rubin Space-1 模塊，開啟“軌道數據中心”計劃。

7.與OpenClaw 合作的項目。黃仁勛形容其重要性堪比 Linux 和 HTML，能讓 AI 智能體自主執行任務、調用工具并重塑軟件架構。NemoClaw 參考設計，用于確保企業級應用的安全可控。

8.多次強調“AI 工廠”平臺。英偉達定義了三個平臺：CUDA X 相關平臺、系統平臺以及新平臺“AI 工廠”。與此相應的核心度量指標也有改變——未來 CEO 將重點關注 AI 工廠的 token 吞吐量和 token 速度（在恒定功耗下），這直接關系到企業的收入。

9.關于年度 token 預算。建議為每位工程師配備“年度 token 預算”，作為推動生產力增長的新標配。

10.關于物理 AI 與機器人。黃仁勛展示了新的機器人訓練平臺 GR00T，并宣布其 N1 版本開源。同時，也聊到了未來的迪士尼，現場描繪了未來機器人角色在樂園中穿梭的景象。

以下為演講實錄，有刪改：

談CUDA二十年的護城河和新變化

在 GTC，我們將談論技術，我們將談論平臺。NVIDIA 有三個平臺。你可能認為我們主要只談論其中之一。它與 CUDA-X 有關。我們的系統是另一個平臺，現在我們有了一個名為 AI Factories 的新平臺。我們將談論所有這些平臺，最重要的是，我們將談論生態系統。

這次會議將涵蓋人工智能五層蛋糕的每一層，從土地、電力和外殼等基礎設施，到芯片，再到平臺、模型，當然，最重要也是最終將推動這個行業騰飛的，是所有的應用程序。

今年是 CUDA 的 20 周年紀念，我們在 CUDA 上深耕了 20 年。20 年來，我們一直致力于這種架構。這項革命性的發明，SIMT（單指令多線程），讓編寫標量代碼可以衍生出多線程應用程序。這比 SIMD 編程要容易得多。我們最近添加了 tiles，用來幫助人們對Tensor Cores 以及當今人工智能基礎的數學結構進行編程。

成千上萬的工具、編譯器、框架和庫，在開源領域，有幾十萬個公共項目。CUDA實際上已經把它們整合到了每一個生態系統中。

這張圖基本上描述了 NVIDIA 100% 的戰略。你們從一開始就看我在講這張幻燈片。最終，最難實現的是最底層的東西，即安裝基數。CUDA 的安裝基數是飛輪加速運轉的原因，安裝基數吸引了開發者，開發者在此基礎上創造了新的算法并取得突破。例如，deeplearning，還有很多其他的例子。

這些突破帶來了全新的市場，并圍繞它們與加入的其他公司建立了新的生態系統，這又創造了更大的安裝基數。

這個飛輪現在正在加速。NVIDIA 庫的下載量正以驚人的速度加速增長。它的規模非常大，而且增長速度比以往任何時候都快。這個飛輪使得這個計算平臺能夠支撐如此多的應用程序和新突破，但最重要的是，它也使得這些基礎設施擁有了超長的使用壽命。

原因很明顯，有很多應用程序可以在 NVIDIA CUDA 上運行。應用程序的覆蓋范圍如此之廣，以至于一旦你安裝了 NVIDIA GPUs，它的使用壽命將極高。這也是為什么我們大約六年前出貨的 Ampere，其在云端的定價還在上漲的原因之一。這是因為安裝基數大，飛輪效應強，開發者觸達范圍廣。同時，我們會不斷更新我們的軟件，計算成本隨之下降。加速計算極大地提升了應用程序的速度。同時，隨著我們不斷培育并在其生命周期內更新軟件，你不僅獲得了首次的性能爆發，還能獲得加速計算隨著時間推移帶來的持續成本降低。

我們愿意培育，愿意支持世界上每一個 GPUs，因為它們在架構上都是兼容的。我們愿意這樣做是因為安裝基數如此龐大，如果我們發布一個新的優化，它將惠及數百萬人。這種動態的結合使得 NVIDIA 架構擴大了它的覆蓋范圍，加速了它的增長，同時降低了計算成本，最終鼓勵了新的增長。而CUDA 處于這一切的中心。

我們走向 CUDA 的旅程實際上始于 25 年前的GeForce。我不知道你們中有多少人是伴隨著 GeForce 長大的？GeForce 是 NVIDIA 最偉大的營銷活動，早在你們自己能買得起之前很久，我們就開始吸引未來的客戶，是你們父母買的單。

你們的父母為你們成為 NVIDIA 的客戶買單，他們年復一年地付錢，直到有一天你成為了一名了不起的計算機科學家，成為了一名真正的客戶，一名真正的開發者。這就是 GeForce 建立的根基。25 年前，我們開始了我們的旅程，這促成了 CUDA 的誕生。

25年前，我們發明了可編程著色器。這是一個完全不顯眼的發明，目的是讓加速器變得可編程。世界上第一個可編程加速器，像素著色器。25年前，它引領我們進一步探索。

20年后，也就是著色器發明的5 年后，CUDA 誕生了。它是我們最大的投資項目之一，在 GeForce 的基礎上把 CUDA推向每一臺計算機，消耗了我們公司絕大部分的利潤。

我們全身心地投入到創建這個平臺中，我們強烈地感受到了它的潛力。最終在20 年的 13 代產品中日復一日地堅持，我們現在讓 CUDA 無處不在。像素著色器引發了 GeForce 的革命。

8年前，針對現代計算機圖形時代，我們對架構進行了徹底的重新設計，推出了RTX。GeForce將CUDA帶給了世界。因此，GeForce讓Alex Krizhevsky和Ilya Sutskever，以及Geoffrey Hinton、Andrew Ng和許多其他人發現，GPU可以成為他們加速deep learning的朋友。它開啟了AI的大爆炸。

10年前，我們決定融合可編程著色技術，并引入兩個新想法：ray tracing和硬件ray tracing，這是一項極難做到的技術，也是當時的一個新想法。想象一下，大約10年前，我們認為AI會徹底改變計算機圖形學。就像 GeForce 把 AI 帶給世界一樣，AI 現在反過來將徹底改變計算機圖形的制作方式。

今天我要向你們展示一些屬于未來的東西。這是我們下一代的圖形技術。我們把它稱為neural rendering——3D圖形與artificial intelligence 的融合，這就是 DLSS 5。不可思議吧？計算機圖形變得栩栩如生了。

那么，我們做了什么？

我們融合了可控的 3D 圖形、虛擬世界的基準事實（ground truth）、生成的虛擬世界的 structured data。我們將 3D 圖形、structured data 與 generative AI 結合在一起。其中一個是完全預測性的，另一個是概率性的，但高度逼真。

我們將這兩個想法結合起來，通過 structured data 進行控制，完美控制的同時又在生成內容。結果就是，內容不僅美麗、驚人，而且是可控的。這種融合結構化信息和 generative AI 的概念將在一個又一個行業中重演。Structured data 是值得信賴的 AI 的基礎。在接下來的時間里，我們將深入探討這張原理圖。

這是我最好的一張幻燈片。每次我問團隊，“我最好的幻燈片是哪張？”他們總說是這張。他們會說，“別放這張，Jensen。別放。”我說，“不行，你們中有些人的座位可是免費的。”所以這就是你們入場的代價。

這就是structured data。你們聽說過它，SQL、Spark、Pandas、Velox，還有一些重要的大型平臺，Snowflake、Databricks、EMR、Amazon EMR、Azure、Fabric、Google Cloud、BigQuery。所有這些平臺都在處理data frames。這些data frames是巨大的電子表格，它們保存著生活的所有信息，這是structured data，商業的基準事實。這是企業計算的基準事實。那么，現在我們將讓AI來使用structured data，而且我們最好能極大地加速它。

過去這樣是可以的，我們會加速structured data，這樣我們就能做更多的事，成本更低，每天處理的頻率更高，并讓公司以更加同步的方式運轉。然而，在未來將會發生的是，這些數據結構將被AI使用，而AI的速度將比我們快得多。未來的agents也將使用structured databases。

當然，還有unstructured database，即生成式數據庫。這個數據庫代表了世界上的絕大部分內容。Vector databases，unstructured data、PDFs、視頻、演講、世界上所有的信息，每年生成的數據中約有 90% 是 unstructured data。直到現在，這些數據對世界來說完全無用。

我們閱讀它，把它放入我們的文件系統中，僅此而已。但是，我們無法查詢它，我們無法搜索它。這很難做到。原因是目前沒有簡單的方法來索引 unstructured data。你必須理解它的含義和目的。

現在我們讓 AI 來做這件事。就像 AI 能夠解決多模態感知和理解一樣，你可以使用相同的技術，多模態感知和理解，去閱讀 PDF，理解其含義，并從這個含義中，將其嵌入到一個我們可以搜索、可以查詢的更大結構中。

NVIDIA創建了2個基礎庫。就像我們為3D圖形創建了RTX一樣，我們為data frames和structured data創建了cuDF；我們為vector stores、語義數據、unstructured data、AI data創建了cuVS。

這兩個平臺將成為未來最重要的兩個平臺。我非常興奮地看到它在這個由世界數據處理系統組成的復雜網絡中被廣泛采用。

談垂直整合

NVIDIA 是垂直整合的，是世界上第一家垂直整合但在水平層面開放的公司。這樣做的必要性非常簡單。加速計算不是一個芯片問題。加速計算不是一個系統問題。加速計算漏掉了一個詞。我們現在只是不再說它了，應用程序加速。如果我能制造出一臺運行所有東西都更快的計算機，那叫做 CPU，那已經失效了。

未來我們要想加速應用程序并繼續帶來巨大的速度提升、巨大的成本削減，唯一的方法是通過應用程序或特定領域的加速。我把那個詞去掉了，因此它就變成了加速計算。這就是 NVIDIA 必須一個庫接一個庫、一個領域接一個領域、一個垂直行業接一個垂直行業去做的原因。

我們是一家垂直整合的計算公司，別無他法，我們必須理解這些應用程序，我們必須理解這個領域。我們必須從根本上理解算法。我們必須弄清楚如何在它希望被部署的任何場景中部署算法，無論是在數據中心、云端、本地、邊緣還是在機器人系統中。

所有這些計算系統都是不同的。最后是系統和芯片。

我們是垂直整合的，使它無比強大，你們能看到所有這些幻燈片，是因為NVIDIA 也是水平開放的。我們將進行合作，把 NVIDIA 的技術整合到你們希望我們整合進去的任何平臺中。我們向你們提供軟件，向你們提供庫。我們與你們的技術整合，以便我們可以將加速計算帶給世界上的每個人。那么，這次 GTC 就是一個很好的證明。

你知道，大多數時候你會看到我談論這些垂直領域，我會舉一些例子。在每一個案例中，無論是汽車行業，順便說一句，還有金融服務業，參加這次 GTC 人數比例最高的是金融服務業的人士。

我知道。我希望來的是開發者，而不是交易員。伙計們。有一件事我想說。臺下的觀眾代表了 NVIDIA 供應鏈上游和供應鏈下游的生態系統。我們工作時，會考慮我們供應鏈的上下游。令人興奮的是，在過去的一年里，我們的整個上游供應鏈，不管你們是 50 年歷史的公司，還是有 70 年歷史的公司，我們還有 150 年歷史的公司，現在都成為了 NVIDIA 供應鏈的一部分，在我們的上游或下游與我們合作。

去年，你們迎來了創紀錄的一年。不是嗎？恭喜你們，我們在這里大有作為。

如果你看看加速計算，我們現在已經建立好了計算平臺。為了讓我們激活這些計算平臺，我們需要擁有特定領域的庫，來解決我們所涉足的每一個垂直領域中非常重要的問題。你可以看到我們正在解決這其中的每一個問題，如Autonomous vehicles（自動駕駛車輛）。

我們的覆蓋范圍、我們的廣度、我們的影響力，令人難以置信。我們在這方面取得了進展。

金融服務。我剛才提過了。Algorithmic trading（算法交易）正在從帶有被稱為quant（量化）的人工特征工程的經典機器學習時代，跨入超級計算機分析海量數據、自己發現洞見和發現模式的時代。它正在經歷它的deep learning和transformer時刻。

醫療保健正在經歷他們的ChatGPT時刻。我們在那里正在做一些令人興奮的工作。我們在這里有一個很棒的主題演講環節。Kimberly Powell正在主持一場關于醫療保健的精彩主題演講。我們在談論用于藥物發現的AI物理學或AI生物學，用于客戶服務和輔助診斷的AI agents，當然，還有physical AI機器人系統。所有這些不同的AI載體都有NVIDIA提供的不同平臺。

工業領域，我們正在徹底重置并開始人類歷史上最大規模的建設。世界上大多數正在建立 AI factories、建立芯片工廠、建立計算機工廠的行業，今天都在這里有代表出席。媒體和娛樂、游戲，當然還有實時 AI 平臺，以便我們可以進行翻譯和廣播支持以及現場比賽和現場視頻，海量的內容將通過 AI 得到增強。

我們有一個名為 Holoscan 的平臺。Quantum 領域，有 35 家不同的公司在這里與我們一起構建下一代 Quantum GPU 混合系統。零售和 CPG 領域，使用 NVIDIA 進行供應鏈管理，創建 agentic 購物系統、用于客戶支持的 AI agents，這里正在進行大量的工作，35 萬億美元的產業。Robotics，50萬億美元的制造業。NVIDIA 已經在這個領域耕耘了十年，構建了 3 臺計算機，這是構建機器人系統所必需的基礎計算機。

我們與大部分我們知道的制造機器人的公司進行了整合與合作。我們在展會上有110 個機器人。然后是電信領域。其規模與全球 IT 產業差不多，約2萬億美元。當然，我們看到基站無處不在。它是世界的基礎設施之一。

它是上一代計算技術的基礎設施。那個基礎設施將被徹底重塑。原因非常簡單。那個只做一件事的基站，也就是基站功能，未來將變成一個 AI 基礎設施平臺。AI 將在邊緣運行。

我們在該領域的平臺叫做 Aerial 或 AI RAN。與 Nokia 有大規模合作，與 T-Mobile 及許多其他公司也有大規模合作。我們業務的核心，也就是我剛才提到的所有內容，計算平臺，但非常重要的一點是，我們的 CUDA-X 庫。我們的 CUDA-X 庫就是算法，NVIDIA 發明的算法。我們是一家算法公司，正是這一點讓我們與眾不同。

正是這一點讓我能夠進入所有這些行業，想象未來，并讓世界上最優秀的計算機科學家描述和解決問題，重構它，重新表達它，并將其變成一個庫。

我想在這次展會上，我們要宣布 100 個庫，70 個庫，也許 40 個模型，而這僅僅是在展會上。我們一直在更新這些內容。我們一直在更新它們。庫是我們公司皇冠上的明珠。它使得這個計算平臺，能夠被激活來解決問題，產生影響。我們創建的最大、最重要的庫之一，cuDNN（CUDA Deep Neural Network）。它徹底改變了artificial intelligence，引發了現代 AI 的大爆炸。

過去兩年發生了一些事情，特別是去年。我們與 AI natives 合作了很長時間，而就在去年，它一飛沖天，我來向你們解釋一下為什么會這樣。這個行業已經一飛沖天了。1500 億美元的投資進入了風險投資，進入了初創企業，這是人類歷史上規模最大的。這也是投資規模首次從數百萬美元、數千萬美元跨越到了數億美元甚至數十億美元。原因在于，所有這些公司都需要算力，而且是海量的算力。他們需要 tokens，而且是海量的 tokens。

他們要么去創造、建立和生成 tokens，要么去整合 Anthropic、OpenAI 和其他公司創造的可用 tokens，并為之增加價值。這個行業在很多方面都與眾不同，但有一點非常清楚，它們正在產生的影響，它們已經交付的令人難以置信的價值，是非常顯而易見的。AI natives，這全是因為我們重塑了計算。就像 PC 革命期間，誕生了一大批新公司。就像互聯網革命期間，誕生了一大批新公司。在移動云時代，也誕生了一大批新公司。它們都有自己的標準等等。我們將談論其中一個剛剛發生的主要標準，它極其重要。

談推理拐點已至，Token與算力爆發

我們重塑了計算，理所當然地，將會涌現出一大批對世界未來具有深遠影響的新一代重要公司。那些因為上一次計算平臺轉變而誕生的 Googles、Amazons、Metas 等深具影響力的公司，我們現在正處于一個新的平臺轉變的起點。

過去幾年發生了什么？嗯，如你們所知，我們一直在觀察，我們一直致力于deep learning，致力于 AI。現代 AI 的大爆炸，我們就身處現場，我們推動這個領域發展已經有很長一段時間了。為什么是過去兩年？過去兩年發生了什么？

第一，ChatGPT 開啟了 generative AI 時代。它不僅能夠理解、感知并理解，還能夠進行轉化和生成。生成獨特的內容。我向你們展示了 generative AI 與計算機圖形學的融合，它讓計算機圖形變得栩栩如生。各位，世界上的每個人都應該使用 ChatGPT。ChatGPT 代表了 generative AI 的時代。

第二點，generative computing（生成式計算）與我們過去進行計算的方式相比，是不同的。Generative AI 是軟件的一種能力，但它深刻改變了計算的方式。過去的計算是基于檢索的，現在則是生成式的。

當我在談論某些事情時，請記住這個想法，你會意識到為什么我們所做的一切將改變計算機的架構設計，改變計算機的供應方式，改變計算機的構建方式，以及計算本身的意義到底是什么。

Generative AI， 2022 年底，2023 年。接下來，推理 AI，o1，隨后的 o3 更是讓它一飛沖天。推理使它能夠反思，使它能夠自我思考，使它能夠計劃，分解問題，并將它不理解的問題分解成它能理解的步驟或部分。它可以將自己扎根于研究之中。o1 使 generative AI 變得值得信賴并建立在事實之上。這使得 ChatGPT 直接起飛，這是一個非常非常重要的時刻。

為了生成內容所需的輸入 tokens 數量，以及為了推理生成的輸出 tokens 數量，模型變得稍微大了一些。當然，你可以擁有更大的模型。o1 模型稍微大了一點，但大不了多少。它用于語境的輸入 token 用量和用于思考的輸出 token 增加了極其龐大的計算量。

第三，是Claude Code，第一個agentic模型。它能夠讀取文件、編寫代碼、編譯它、測試它、評估它，然后返回并對其進行迭代。如大家所知，Claude Code 徹底改變了軟件工程。NVIDIA 100% 的人都在使用 Claude Code、Codex 和 Cursor 的其中之一，或者通常是這三者同時使用，這在 NVIDIA 內部隨處可見。

今天，沒有一個軟件工程師不在一個或多個協助他們編寫代碼的 AI agents 的幫助下工作。Cloud Code 徹底帶來了新的拐點。這是第一次，你不再問 AI 什么、在哪里、什么時候、怎么做。你要求它去創造、去執行、去構建。

你要求它使用工具，獲取你的語境，閱讀文件。它能夠以代理（agentic）的方式分解問題，進行推理，進行反思。它能夠解決問題并實際執行任務。一個能夠感知的 AI 變成了一個能夠生成的 AI。一個能夠生成的 AI 變成了一個能夠推理的 AI。一個能夠推理的 AI 現在變成了一個可以實際工作、非常具有生產力的 AI。過去兩年里的計算量，我們知道，這個房間里的每個人都知道，對NVIDIA GPU 的計算需求已經爆表了。

現貨定價正在飆升。你就算想找也很難找到一顆 GPU，然而與此同時，我們正在不斷出貨 GPUs，數量驚人，而需求還在不斷攀升。這背后是有原因的，那就是這種根本性的轉變。最終，AI 能夠從事生產性工作。

因此，推理的拐點已經到來。AI 的每一個環節，每當它需要思考，需要講道理，需要執行，需要生成tokens 時，它都必須進行推理。現在早已經過了訓練的階段。現在是推理的領域。

推理的拐點已經到來。當時，tokens的數量、所需的計算量增加了大約 10,000 倍。現在，當我把這兩個因素結合起來，即在過去兩年里，工作的計算需求增長了10,000倍，而使用量可能增長了100 倍。大家聽我說過，我相信在過去兩年里，計算需求增長了 100 萬倍。這是我們所有人的感受，這是每一家初創公司的感受。這是 OpenAI 的感受。這是 Anthropic 的感受。

如果他們能獲得更多的算力，他們就能生成更多的 tokens，他們的收入就會上升，就會有更多的人使用它，AI 就會變得更高級、更聰明。我們現在正處于那種正向的飛輪系統中。我們已經到達了那個時刻。

推理的拐點已經到來。去年這個時候，我說站在當時那個時間點上，我們看到了大約 5000 億美元。我們看到了截至2026 年，對 Blackwell 和 Rubin 高達 5000 億美元的高信心需求和采購訂單。那是去年我說的。現在，我不知道你們是否有同感，但 5000 億美元是一筆龐大的收入。沒有人感到驚訝。我知道你們為什么不驚訝，因為你們都迎來了創紀錄的一年。

那么，我在這里告訴你們，就在現在我所站的地方，在 GTCDC 之后的短短幾個月，在去年 GTC 之后的一年，就在我所站的這里，我看到了截至 2027 年至少 1 萬億美元的需求。

那么，這有意義嗎？這就是我接下來要講的內容。事實上，我們甚至會供不應求。我敢肯定計算需求會遠高于這個數字，這背后是有原因的。第一件事是，我們在過去的一年里做了很多工作。當然，如你們所知，2025 年是 NVIDIA 的推理之年。

我們想確保不僅在訓練和后期訓練方面表現出色，而且在 AI 的每個階段都表現得極其出色。這樣，對我們基礎設施的投資就能隨心所欲地擴展使用時長，并且 NVIDIA 基礎設施的有用壽命會很長，從而使得成本極低——你使用它的時間越長，成本就越低。

在我心里毫無疑問，NVIDIA 的系統是你能在世界上獲得成本最低的 AI 基礎設施。

與此同時，作為一個整體，作為一個群體，這代表了全球 1/3 的 AI 計算量，開源模型已經逼近了前沿水平，而且它簡直無處不在。

NVIDIA，如你所知，今天，我們是當今世界上唯一一個跨越每一個 AI 模型運行在每個 AI 領域的平臺，無論是在語言和生物學、計算機圖形學、計算機視覺、語音、蛋白質和化學物質、機器人技術或其他領域，邊緣或云端，任何語言。NVIDIA 的架構對所有這些都是通用的，而且我們在所有這些方面都表現得不可思議。

這讓我們成為成本最低、信心最高的平臺，因為正如我提到的，當你構建這些系統時，1 萬億美元是極其龐大的基礎設施。

你必須擁有絕對的信心，你投入的這 1 萬億美元將被充分利用，將具有高性能，將極具成本效益，并且在你能預見的未來里擁有使用壽命。你在 NVIDIA 上進行的基礎設施投資，你可以帶著十足的信心去進行。

它是世界上唯一的基礎設施，讓你可以走到世界任何地方，充滿信心地進行構建。我們 60% 的業務來自hyperscalers（超大規模云服務商），排名前五的 hyperscalers。

然而，即使在這前 5 大 hyperscalers 內部，也有一些是內部的 AI 消耗。內部 AI 消耗，比如非常重要的 RecSys（推薦系統）正在從圖表、協同過濾和內容過濾的 recommender systems 轉變為 deep learning 和 large language models。搜索，正在轉向 deep learning，large language models。幾乎所有這些不同的hyperscale 工作負載現在都在轉移，正在轉向 NVIDIA GPUs 極其擅長的工作負載。

最重要的是，因為我們與每一個 AI 實驗室合作，我們加速每一個 AI 模型，并且因為我們有一個龐大的 AI natives 生態系統與我們合作，我們可以把他們帶到云端，因此，那筆投資無論有多大，無論有多快，算力都將被消耗掉。這占據了我們 60% 的業務。其余 40% 的業務遍布各地。

區域云、主權云、企業、工業、機器人、邊緣、大型系統、超級計算系統、小型服務器、企業級服務器。系統的數量驚人。AI 的多樣性也是它的韌性。AI 覆蓋范圍的廣度就是它的韌性。毫無疑問，這不是一項單一應用的科技。這現在已經成為了基礎。這絕對是一次新的計算平臺轉變。那么，我們的工作是繼續推進技術，去年我提到的最重要的事情之一是我們的推理之年。我們傾注了一切。

人們過去常對我說，“ Jensen，推理太簡單了。”

推理才是終極的難題。它也是終極重要的部分，因為它驅動著你的收入。這就是結果。這是來自 SemiAnalysis 的數據。

這是有史以來對 AI 推理進行的最大規模、最全面的掃描。你在這里左側看到的，這一邊是每瓦的tokens 數（tokens per watt）。每瓦 tokens 數很重要，因為每個數據中心，每個工廠，根據定義，都是受電力限制的。一個1 吉瓦的工廠永遠不會變成 2 吉瓦。它受到物理規律的限制，原子的規律，物理的規律。

對于那個 1 吉瓦的數據中心，你希望驅動最大數量的 tokens，也就是那個工廠的產出、產品。你希望位于這條曲線的頂端，越高越好。這個，x軸是交互性，推理的速度，每次推理的速度。你的推理速度越快，當然，你的響應就越快。

但非常重要的一點是，你的推理速度越快，模型就越大，你可以處理的語境就越多，你可以思考的 tokens 就越多。

這個軸等同于 AI 的聰明程度。這就是 AI 的吞吐量。這是 AI 的聰明程度。注意，AI 越聰明，你的吞吐量就越低。這說得通。你思考的時間變長了，對吧？

這個軸是速度，我回頭再來講這個。這就是我折磨你們所有人的地方，但它太重要了。你看世界上的每一位 CEO，從現在起，世界上的每一位CEO 都會以我將要描述的方式研究他們的業務，因為這就是你們的 token 工廠。這就是你們的 AI 工廠。這就是你們的收入。這在未來是毫無疑問的，這就是吞吐量，這就是智能。在數據中心的給定功率下，每瓦的性能越好，吞吐量就越高，你能生產的 tokens 就越多。這一側是成本。注意，NVIDIA 擁有世界上最高的性能。沒有人會對此感到驚訝。

他們會驚訝的是，在一代產品中，而 Moore’s Law 如果通過晶體管來實現，通常只能給我們 50% 的提升，也就是翻倍的時間。Moore’s Law 大概能讓我們獲得 1.5 倍的性能。你原本預期從 Hopper H200 那里獲得 1.5 倍的提升。沒有人會預料到是 35 倍的提升。

去年這個時候我說過，NVIDIA 的 Grace Blackwell NVLink 72 的每瓦性能是之前的 35 倍。沒有人相信我。后來 SemiAnalysis 發布了報告，Dylan Patel 說了一句話。他指責我有所保留（sandbagging）。他說，“Jensen 隱藏了實力，實際上是 50 倍。”他沒說錯。我們的單 token 成本是世界上最低的。你無法擊敗它。

我之前說過，如果你的架構是錯誤的，即使它是免費的，它也不夠便宜。原因在于，無論發生什么，你仍然必須建立一個吉瓦的數據中心。你仍然必須建立一個吉瓦的工廠。那個吉瓦的工廠要在 15 年內攤銷，那個吉瓦的工廠大約需要 400 億美元。

即使你在里面什么都不放，也投入了 400 億美元。你最好確保把最好的計算機系統放進去，這樣你才能擁有最佳的 token 成本。NVIDIA 的 token 成本是世界級的，目前基本上是無法企及的。這之所以成真，是因為極致的協同設計（co-design）。我很高興他稱呼我們為 Monkey King，Token King。

我們整合了我們所有的軟件和我們所有的技術，無論我們如何將它們打包并整合到世界上的推理服務提供商那里。這些公司正在飛速發展。他們正在飛速發展。Fireworks，Lin 在這里，他們一起正在以難以置信的速度增長。去年增長了 100 倍。他們是 token 工廠。這些工廠的有效性、性能和 token 成本生產能力對他們來說就是一切。這就是發生的事情。我們更新了他們的軟件，在同一系統上，注意看他們的 token 速度。令人難以置信。

在 NVIDIA 更新一切之前，包含我們引入的所有算法、軟件和所有技術之前，平均每秒約700 tokens，變成了將近 5000，高出了 7 倍。這就是極致協同設計不可思議的力量。

我之前提到了工廠的重要性，這就是工廠的重要性。你的數據中心，過去是用于存放文件的數據中心。現在它是生成 tokens 的工廠。無論如何，你的工廠容量是有限的。每個人都在尋找土地、電力和外殼。一旦你建好它，你就會受到電力限制。在那個受電力限制的基礎設施內，你最好確保你的推理系統，因為你知道推理是你的工作負載，而 tokens 是你新的商品，這些算力是你的收入，所以你想確保架構得到盡可能優化。

在未來，每一個 CSP（云服務提供商），每一家計算機公司，每一家云公司，每一家 AI 公司，坦白說，每一家公司，都將考慮其 token 工廠的效率。這就是你未來的工廠。我之所以知道這一點，是因為這個房間里的每個人都受到智能的驅動。在未來，這種智能將得到 tokens 的增強。

談硬件架構的重大突破與路線圖

讓我向你們展示我們是如何走到這一步的。

2016 年4 月6日，也就是十年前，我們推出了DGX-1，世界上第一臺專為 deep learning 設計的計算機。8 塊 Pascal GPUs ，通過第一代 NVLink 連接。一臺計算機的算力達 170 萬億次浮點運算（teraflops），那是世界上第一臺為 AI 研究人員設計的計算機。

Volta時期，我們引入了 NVLink Switch。16 塊 GPUs 滿配帶寬全互聯（all-to-all），就像一個巨大的 GPU 一樣運行。這是向前邁出的一大步，但模型規模繼續增長。因數據中心需要變成一個單一的計算單元，于是 Mellanox 加入了 NVIDIA。

2020 年，DGX A100 SuperPOD 成為第一臺結合了scale-up（縱向擴展）和scale-out（橫向擴展）架構的 GPU 超級計算機。NVLink 3 用于縱向擴展，ConnectX-6 和 Quantum InfiniBand 用于橫向擴展。

接著是Hopper。第一款搭載了開啟生成式AI時代的 FP8 Transformer 引擎的 GPU。NVLink 4，ConnectX-7，BlueField-3 DPUs，第二代 Quantum InfiniBand。它徹底改變了計算。

Blackwell用NVLink 72 重新定義了AI超級計算系統的架構。72塊GPUs由NVLink 主干（Spine）連接。全互聯帶寬達到130 TB/s。計算托盤集成了 Blackwell GPUs、Grace CPUs、ConnectX-8 和 BlueField-3。通過 Spectrum-4 Ethernet 進行橫向擴展運行。隨著三大定律（預訓練、后期訓練和推理）全速推進，現在又迎來了智能體系統的出現，計算需求繼續呈指數級增長。

現在，Vera Rubin的架構，專門 agentic AI 的每個階段架構設計，推動計算的每一個支柱發展，包括 CPU、存儲、網絡和安全。Vera Rubin NVLink 72，3.6 百億億次（exaflops）的算力，260 TB/s 的全互聯 NVLink 帶寬。為 agentic AI 時代注入超級動力的引擎，Vera CPU base（raft），專為編排和agentic 工作流設計。STX Rack，采用 BlueField-4 構建的 AI 原生存儲，利用 Spectrum-X 共封裝光學器件（co-packaged optics）進行橫向擴展，從而提高能效和恢復力。

現在有一項令人難以置信的新加入，即Groq 3 LPX 機架。它緊密連接到 Vera Rubin，Groq 的 LPU 擁有龐大的片上 SRAM，為本已快得驚人的 Vera Rubin 加裝了一個 token 加速器。加在一起，每兆瓦的吞吐量增加了 35 倍。這就是全新的 Vera Rubin 平臺。7 種芯片，5 臺機架級計算機，1 臺專為 agentic AI 打造的革命性 AI 超級計算機。僅僅 10 年，算力就提升了 4000 萬倍。

過去，當我說起 Hopper 時，我會舉起一塊芯片。那真可愛。而這是 Vera Rubin，當我們想到 Vera Rubin 時，我們想到的是整個系統。通過軟件實現了徹底的垂直整合，端到端延伸，作為一個巨大的系統進行了優化。

它專為智能體系統設計，原因非常明確——對于 agents 而言，毫無疑問，最主要的工作負載就是讓大語言模型進行思考。大語言模型將會變得越來越大，它將以更快的速度生成越來越多的 tokens，從而能夠思考得更快。

但它也必須訪問內存，那會對內存打來極大的壓力，比如KV緩存、結構化數據（cuDF）、非結構化數據（cuVS）。它會對存儲系統造成極其猛烈的沖擊，這就是我們重新發明存儲系統的原因。

它也將使用各種工具。與對慢速計算機有較高容忍度的人類不同，AI 希望這些工具越快越好。這些工具，比如網絡瀏覽器。未來，它們也可能變成云端的虛擬 PC。這些 PC 和計算機必須盡可能快。我們創造了一款全新的 CPU。

這款全新的 CPU 專為極高的單線程性能、令人難以置信的高數據輸出、極佳的數據處理能力以及極致的能源效率而設計。它是世界上唯一采用 LPDDR5 的數據中心 CPU，其無與倫比的單線程性能和每瓦性能表現出色。

我們打造它是為了讓它與這些機架的其余部分配合，進行 agentic 處理。這就是 Vera Rubin 系統。

大家注意，自上次以來，它實現了 100% 液冷，所有的線纜也都不見了。以前需要兩天才能安裝完的設備，現在只需兩小時，制造周期將大幅縮短。這同時也是一臺由 45 攝氏度熱水冷卻的超級計算機，它減輕了數據中心的壓力，省去了用于冷卻數據中心的所有成本和能源，并將其全部供給系統使用。這就是我們的秘密武器。

我們是當今世界上唯一一家打造出第六代縱向擴展交換系統的公司。這不是以太網。也不是 InfiniBand，這是NVLink，這是第六代 NVLink。

坦白講，僅僅是把它做出來就極其困難。我為這個團隊感到超級自豪。NVLink，完全采用液冷技術。這是全新的 Groq 系統，稍后我會向你們展示更多相關內容。這個系統，包含 8 塊 Groq 芯片，這就是 LP30。之前面世的都只是 V1 版本，這是第三代，而且我們現在已經進入量產階段。等一下我會向大家展示更多相關信息。

世界首個 CPO Spectrum-X 交換機，這款產品也已全面投產。Co-packaged optics（共封裝光學），光學器件直接連接到這塊芯片上，與硅片直接接口。電子轉化為光子，直接與這塊芯片相連。我們與 TSMC 共同發明了這項工藝技術。我們是目前唯一將其投入量產的公司。它被稱為CPO。這是徹底革命性的技術。NVIDIA 的 Spectrum-X 已全面投產。

這是 Vera 系統，其每瓦性能是當今世界上任何 CPUs 的兩倍，它也已經投產了。你知道，我們之前從未想過我們會單獨銷售 CPUs。而現在我們正在單獨銷售大量的 CPU。毫無疑問，這已經成為我們一項價值數十億美元的業務。所以我對我們的CPU 架構師感到非常滿意。我們設計出了一款具有革命性的 CPU。這是由 Vera CPU 驅動的 ConnectX-9，BlueField-4 STX，我們全新的存儲平臺。

這些是機架，而且它們是連接在一起的，這正是 NVLink 機架。我以前給你們看過這個。它超級重，而且感覺每年都在變重。因為我認為每年里面的線纜都在增加。這就是 NVLink 機架。由于這項技術效率極高，我們還利用這些布線系統、結構化電纜來創建數據中心。

我們決定將其用在以太網上。這是一個包含 256 個液冷節點的以太網機架，并且它也通過這些令人難以置信的連接器連接在一起。你們想看看Rubin Ultra 嗎？這就是 Rubin Ultra 計算節點。

不同于水平插入的 Rubin，Rubin Ultra 放入的是一個全新的機架中。它叫做 Kyber，使我們能夠在一個 NVLink 域內連接 144 個 GPUs。Kyber 機架，這個我肯定能舉起來，但我不會這么做。它很重。這是一個計算節點，它垂直滑入 Kyber 機架。它就是連接在這里的，這是中板（midplane）。Kyber 機架頂部的那四個NVLink 連接器滑入并與之連接，這就成了其中一個節點。這些機架中的每一個都是不同的計算節點，接下來是令人驚嘆的部分。

這就是中板，而在中板的背面，取代了由于銅纜傳輸距離限制而存在局限的線纜系統，我們現在有了這個系統來連接 144 個 GPUs。這就是新型的 NVLink。它同樣垂直放置，并連接到背面的中板上。前面是計算單元，背面是NVLink 交換機，共同組成了一臺巨型計算機。明白了嗎？這就是 Rubin Ultra。

你知道，只有在 NVIDIA 的主題演講中，你才會看到去年的幻燈片再次被展示。之所以這么做，我只想讓大家知道，去年我告訴過你們一件非常、非常重要的事情，因為它太重要了，所以值得再告訴你們一次。

這可能是未來AI工廠最重要的一張圖表，世界上每一位 CEO 都會追蹤它，并深入研究它。實際情況比這要復雜和多維，但你們將研究各自AI工廠的吞吐量和 token 速度。

也就是誰，在恒定功耗條件下的吞吐量 token 速度，這就是你所擁有的全部電力，你的工廠在未來的吞吐量和 token 速度。這項分析將直接轉化為你的收入。你今年所做的，將準確無誤地體現在明年的收入中，而這張圖表說明了一切。剛才，我說過縱軸是吞吐量，橫軸是 token 生成率。

今天，我要給你們看這個。因為我們現在有能力提高 token 的速度，同時也因為模型規模在不斷增加，取決于不同應用場景不同等級的需要，token的長度、語境的長度，不斷從10 萬個 token 的輸入長度增長到數百萬個。輸入的 token 長度在增長，輸出的 token 長度也在增長。所有這些最終都會影響未來 tokens 的營銷和定價。

Tokens 是新的商品，就像所有的商品一樣，一旦它到達一個拐點，一旦它成熟或正在走向成熟，它就會細分為不同的部分。高吞吐量、低速度的可以作為免費層（free tier）使用。下一層可能是中級層。也許是更大的模型，肯定是更高的速度，更長的輸入語境長度，這會轉化為不同的價格點。你可以從所有這些不同的服務中看到，這個是免費的。它是一個免費層。第一層可能是每百萬 tokens 3 美元。下一層可能是每百萬 tokens 6 美元。

你希望能夠不斷推動這個邊界，因為模型越大越聰明，輸入 token 的語境長度越長，相關性就越強。速度越快，你就能思考和迭代得越多，AI 模型也就越聰明。這關乎于更聰明的 AI 模型。

當你擁有更聰明的 AI 模型時，這里的每一次升級都允許你提高價格。這是 45 美元，也許有一天會有一個高級模型，允許你提供一項高級服務，提供極高的token 生成速度，因為你處于關鍵路徑上，或者你正在進行一項非常長期的研究，那么每百萬 tokens 150 美元根本不算什么事。讓我們算算看。假設你作為一名研究人員每天使用 5000 萬個 tokens，按每百萬 tokens 150 美元計算。

事實證明，作為一個研究團隊，這點錢根本不算什么。我們相信這就是未來。這就是 AI 想要發展的方向。這就是它今天的現狀。它必須從這里開始建立其價值和實用性，并且變得越來越好。在未來，你將看到大多數服務涵蓋所有這些層級。

這是 Hopper。Hopper 從這里開始，然后我移動了圖表。

這是50，這是100。Hopper看起來像這樣，你原本會期望 Hopper 的下一代產品比它高，但沒有人會想到它會高出這么多。這就是 Grace Blackwell。Grace Blackwell 所做的是，在你的免費層，極大地提高了你的吞吐量。然而，在你主要盈利的服務層，它將你的吞吐量提高了 35 倍。

這與世界上任何公司生產的任何產品沒有什么不同。層級越高，質量越高，性能越高，產量越低，產能越低，所以這與世界上任何其他業務沒有什么不同。現在我們能夠把這個層級提升 35 倍，并且我們引入了一個全新的層級。這就是 Grace Blackwell 帶來的好處，相對 Hopper 是一個巨大的飛躍。

那么，這是我們在 Grace Blackwell 上所做的事情。好的，這就是 Grace Blackwell。現在想想剛才發生了什么。在每一個層級，我們都提高了吞吐量。在你平均售價（ASP）最高、最具價值的細分市場，我們將它提高了 10 倍。

那就是最艱難的工作。在這個區域實現這一點是極其困難的。這就是NVLink 72 帶來的好處。這就是極低延遲帶來的好處。這就是極致協同設計帶來的好處，讓我們能夠將整個區域向上推移。

那么，從客戶的角度來看，最終這意味著什么？假設我拿 25% 的電力用于免費層，25% 的電力用于中級層，25% 的電力用于高級層，最后 25% 的電力用于白金級/尊享層。我的數據中心只有一吉瓦，所以我得自己決定如何分配。免費層讓我能吸引更多客戶，而尊享層讓我能服務于最有價值的客戶。

所有這些的結合、這些要素的乘積，從根本上決定了你的收入，你可以產生的收入，在這個簡化的例子中，Blackwell 能夠創造 5 倍的收入，Vera Rubin 能夠創造 5 倍的收入。是的，你應該盡快部署 Vera Rubin，原因在于你生產 tokens 的成本下降了，而你的吞吐量上升了。

正如我告訴你們的，這種吞吐量需要海量的浮點運算（flops）。這種延遲，這種交互性需要極大的帶寬。計算機并不喜歡極高的浮點運算和極大的帶寬同時存在，因為任何系統的芯片表面積都是有限的。

對高吞吐量進行優化和對低延遲進行優化，實際上是一對死敵。當我們與Groq 結合時，情況就變成了這樣，明白嗎？我們收購了研發 Groq 芯片的團隊并獲得了技術授權，現在我們正攜手整合這個系統。它看起來就像這樣。在這個最具價值的層級上，我們現在要把性能提升 35 倍。

現在，這張簡單的圖表向你揭示了，為什么 NVIDIA 迄今為止在絕大部分工作負載中如此強大。原因在于，在上面這個區域，吞吐量極其重要。NVLink 72 是如此具有顛覆性，它正是最正確的架構，即使在你加入 Groq 之后，也很難打敗它。

然而，如果你把這張圖表延伸到很遠的地方，并且你說你想要擁有一項服務，它不僅能每秒提供400個tokens，而是每秒提供1000個tokens，突然之間，NVLink 72就會耗盡所有動力，它就是達不到那個目標。我們就是沒有足夠的帶寬。這正是Groq 的用武之地，當我們把邊界向外推時，這就是所發生的事情。它超出了 NVLink 72能力的極限。

如果你這樣做，把它轉化為相對于 Blackwell 的收入，Vera Rubin 是 5 倍。如果你絕大多數的工作負載是高吞吐量的，我建議你堅持 100% 使用 Vera Rubin。如果你有很多工作負載是需要編寫代碼和生成具有極高價值的工程 token，我就會把 Groq 加進去。

我可能會在數據中心總量的約 25% 中加入 Groq。我數據中心的其余部分 100% 都是 Vera Rubin。這讓你了解了如何將 Groq 加入到 Vera Rubin 中，以進一步擴展其性能和價值。這正是發生的事情。這是一個對比。

Groq 之所以對我如此有吸引力，是因為他們的計算系統，一種確定性的數據流處理器，它是靜態編譯的，由編譯器調度的，意思是編譯器能計算出何時進行計算，數據和計算任務同時到達。所有這些都是提前靜態完成并在軟件中完全調度好的。不存在動態調度。該架構在設計上擁有海量的 SRAM。它專為推理而設計，就針對這一種工作負載。

現在，正如事實證明的，這單一的工作負載，正是 AI factories 的核心工作負載。隨著世界不斷渴望利用超級聰明的 tokens 生成高速的 tokens，這種整合的價值將會變得越來越高。你們可以看到，這是兩款走向極端的處理器。

一顆芯片，500 MB（指Groq）。一顆 Vera Rubin 芯片，一顆 Rubin 芯片，288 GB。你需要數量龐大的 Groq 芯片才能裝下 Rubin 級別的參數規模，以及隨之而來的所有上下文環境，即必須配套的 KV cache。這限制了 Groq 真正走向主流、真正起飛的能力，直到我們有了一個偉大的主意。如果我們將一款名為 Dynamo 的軟件與推理完全解耦會怎樣？

如果我們在流水線中重構推理的進行方式，將最適合在 Vera Rubin 上運行的任務交給它，然后把面臨延遲要求低、受限于帶寬挑戰的 decode生成任務卸載給 Groq 會怎樣？我們將兩款截然不同的處理器合二為一，一款用于高吞吐量，一款用于低延遲。這仍然改變不了一個事實，那就是我們需要大量的內存。關于 Groq，我們只需要加入一大堆Groq 芯片，從而擴展它的內存容量。大家可以想象一下，對于一個萬億參數的模型，我們必須把所有參數都存儲在 Groq 芯片中。

然而，它緊挨著 NVIDIA Vera Rubin，在這里我們可以容納處理所有這些 agentic AI 系統所必需的海量 KV cache。它就是基于這個分解推理的想法。我們進行 prefill（預填充），那是簡單的部分，但我們也緊密整合了 decode（解碼）。

Decode 中的 attention（注意力機制）部分在 NVIDIA 的 Vera Rubin 上完成，這部分需要大量的數學運算，而前饋網絡（feed forward network）部分，即 decode 部分，token 的生成部分則在 Groq 芯片上完成。這兩者在今天的 Ethernet 上緊密耦合地協同工作，采用一種特殊的模式將其延遲降低約一半。這種能力讓我們得以將這兩個系統整合在一起。

我們在其上運行了 Dynamo，這是一款專為 AI factories 打造的不可思議的操作系統，然后你獲得了 35 倍的性能提升。35 倍的提升，更不用說在 token 生成方面為推理性能開辟了世界從未見過的新層級。

就是這個，這是 Groq。Vera Rubin 系統，包括 Groq，我要感謝 Samsung（三星），他們為我們制造了 Groq LP30 芯片，他們正開足馬力拼命生產。我真的非常感謝你們。我們的 Groq 芯片已經投產，正如大家所知，我們將在下半年發貨，大概在第三季度左右。Vera Rubin，大家知道，很難想象還有更多的客戶了。

真正棒的是，Grace Blackwell 的早期樣品測試因為整合了 NVLink 72 變得非常復雜，但 Vera Rubin 的樣品測試進展得非常順利。事實上，我想 Satya 已經發信息告訴我，第一臺 Vera Rubin 機架已經在 Microsoft Azure 上啟動并運行了，所以我為他們感到超級興奮。我們將繼續大量生產這些設備。

我們現在已經建立了一個供應鏈，可以每周生產數以千計的這種系統，本質上相當于在我們的供應鏈內部每月生產數吉瓦的 AI factories。我們將在全力生產 GB300 機架的同時，源源不斷地生產這些 Vera Rubin 機架。我們已經全面投產。Vera CPUs 取得了令人難以置信的成功。

原因在于 AI 在使用工具時需要 CPUs，而 Vera CPU 的設計完美契合了這一黃金位置（sweet spot）。對于下一代數據處理來說，它不可思議的棒。Vera CPU 是理想的選擇。Vera CPU 加上 CX9 連接到 BlueField-4 堆棧。全球 100% 的存儲行業都在與我們一起加入這個系統。原因在于他們看到了完全相同的情況。存儲系統將會受到猛烈沖擊。它會受到猛烈沖擊是因為我們過去是由人類使用存儲系統，我們過去是由人類使用 SQL。現在我們要讓 AIs 來使用這些存儲系統，它將存儲 cuDF 加速存儲內容、cuVS 加速存儲內容，以及非常重要的，KV caching。這就是Vera Rubin 系統。現在，令人驚嘆的是這個。

在短短兩年時間里，在一個 1 吉瓦的工廠中，利用我剛才向你們展示的數學計算，原本 Moore’s Law 可能只會帶給我們幾個小步幅的進步，我們本可以讓晶體管數量翻倍，本可以讓浮點運算數翻倍，本可以讓帶寬容量翻倍。但借助于這種架構，我們將把我們的 token 生成速度、token 生成率從 200 萬提升到 7 億，這是 350 倍的飛躍。這就是極致協同設計的力量。這就是我所說的我們在垂直層面進行整合與優化，然后在水平層面面向所有人開放的含義，讓每個人都能享受到紅利。這是我們的路線圖。

我們始終保持向后兼容，因此如果你不想做任何更改，只想繼續使用新架構，你完全可以做到。標準的機架系統，Oberon，依然可用。Oberon 是基于銅線的 scale-up（縱向擴展），并且通過 Oberon，我們還可以使用光學 scale-up 將連接擴展到 NVLink 576。明白了嗎？關于 NVIDIA 將使用銅線 scale-up 還是光學 scale-up 有很多討論？我們兩者都會做。我們將提供采用 Kyber 機架的 NVLink 144，然后使用 Oberon 機架，我們將提供 NVLink 72 加上光學連接，以達到 NVLink 576。Rubin 的下一代產品配備了 Rubin Ultra，我們即將推出 Rubin Ultra 芯片，目前正在流片階段，并且我們還有一款全新芯片，LP35。

LP35 ，將首次集成 NVIDIA 的 NVFP4 計算結構，為你帶來又一個數倍的 X 因子速度提升。明白了嗎？這就是 Oberon，NVLink 72，光學 scale-up，并且它使用了 Spectrum-6，世界上首個共封裝光學系統（co-packaged optical），所有這些都已投產。由此往后的下一代是Feynman。

Feynman 顯然有一款新的 GPU。它還擁有一款新的 LPU，LP40。這是很大的一步跨越。令人難以置信的新技術。現在融合了 NVIDIA 的規模以及攜手打造的 Groq 團隊，這就是 LP40。它將不可思議。一款名為 Rosa 的全新 CPU，它是 Rosalind 的縮寫。BlueField-5，它將下一代 CPU 與下一代 SuperNIC（超級網卡）CX10 連接起來。我們將提供 Kyber，也就是基于銅線的 scale-up。我們也將提供 Kyber 的 CPO scale-up。我們將破天荒第一次同時采用銅線和共封裝光學技術（co-packaged optics）進行 scale up。

很多人一直在問，“Jensen，銅線還會重要嗎？”答案是肯定的。“Jensen，你會用光學進行 scale up 嗎？”會的。“你會用光學進行 scale out 嗎？”會的。

對于我們生態系統中的每一個人來說，我們需要更多的容量，這才是真正的關鍵。我們需要用于銅線的更多容量。我們需要用于光學的更多容量。我們需要用于 CPO 的更多容量，這就是我們一直與大家合作，為這種程度的增長奠定基礎的原因。Feynman 將擁有這一切。讓我看看我有沒有遺漏什么。就是這些。每一年，都有全新的架構。

談數字孿生與NVIDIA DSX平臺，“榨干”每一瓦電

NVIDIA 正在飛速地英偉達從一家芯片公司變成了一家AI工廠公司，或者說 AI 基礎設施公司、AI 計算公司，打造這些系統，而現在我們正在構建完整的AI工廠。

在這些AI工廠中有太多的能源被浪費了。我們想要確保這些AI工廠以最佳的方式組合和設計在一起。過去，這里的多數組件彼此之間毫無交集。而在座的我們大多是技術供應商，現在我們彼此都認識了，但在過去，直到進了數據中心我們才碰面。這種事絕不能發生。

我們正在構建極其復雜的系統，所以我們必須在其他地方以虛擬的方式會面。所以，我們創造了Omniverse和Omniverse DSX世界——一個讓大家都能聚集在一起，在系統中通過虛擬方式設計這些千兆瓦級的工廠，這些千兆瓦級的工廠AI平臺。

我們擁有在機械、熱力學、電氣和網絡方面的機架模擬系統。這些模擬系統集成到了我們生態系統合作伙伴令人難以置信的工具軟件中。我們在運行時還連接到了電網，這樣我們就可以互相交互，互相發送信息，以便我們能夠相應地調整電網電力和數據中心電力，從而節約能源。

在數據中心內部使用 Max-Q 技術，這樣我們就可以跨電力、冷卻系統以及我們共同研發的所有不同技術，動態地調整系統，從而確保我們不浪費一絲電力，讓我們以最優化的速率運行，從而提供海量的 token 吞吐量。在我的心里毫無疑問，這里面潛藏著兩倍（的提升空間），而在我們所討論的這種規模下，兩倍的意義是極其巨大的。

我們將其稱為 NVIDIA DSX 平臺，并且就像我們所有的平臺一樣，它有硬件層，有庫層，還有生態系統層。運作方式完全一樣。

Omniverse 的初衷是為了承載世界的數字孿生，從地球開始，它將承載各種規模的數字孿生。我們擁有極其出色的合作伙伴生態系統。我想感謝你們所有人。所有這些公司對我們的世界來說都是全新的面孔。僅僅在幾年前，我們還不認識你們當中的許多人，而現在我們緊密合作，共同努力建造世界上前所未有的最龐大的計算機，并且要在行星的尺度上實現這一目標。

NVIDIA DSX 是我們全新的 AI工廠平臺。我這次只會花很少的時間談論這個。然而，我們正在進軍太空。我們已經進入了太空，Thor 已經通過了防輻射認證，并且我們正搭載在衛星上。你將在衛星上進行成像處理。

未來，我們還將在太空中建造數據中心。顯然，這樣做非常復雜。我們正與我們的合作伙伴合作研發一款名為Vera Rubin Space One 的新計算機，它將進入太空并開始在那里建立數據中心。現在，當然，在太空中沒有傳導，沒有對流，只有輻射。我們必須弄清楚如何在太空中冷卻這些系統，但我們已經有許多優秀的工程師在研究這個問題了。

談OpenClaw引發的軟件界大地震

Peter Steinberger （彼得·斯坦伯格）就在現場，他編寫了OpenClaw。我不知道他是否意識到了它將會取得多大的成功，但它的重要性是極其深遠的。OpenClaw 是人類歷史上排名第一、最受歡迎的開源項目，它在短短幾周內就實現了這一壯舉，它超越了 Linux 在 30 年內所取得的成就。

讓我快速給大家演示一下。我想給你們展示兩樣東西。你只要簡單輸入這個。你把它輸入到控制臺，它就會運行，找到 OpenClaw，下載它并為你構建一個 AI agent，然后你可以告訴它任何你需要它做的事情。

不可思議。剛才我以大家都能理解的方式，直觀地演示了什么是OpenClaw，但讓我們想一想究竟發生了什么。

什么是 OpenClaw？

它是連接件，它是一個智能體系統。它調用并連接到大語言模型。首先它擁有它所管理的資源，它可以訪問工具，可以訪問文件系統，還可以訪問大語言模型。它能做調度安排。它能運行定時任務（cron jobs）。它能夠把你給它的 prompt 分解成一步步的操作。它可以衍生并調用其他次級 agents。它擁有 IO 接口。你可以用任何模態與它對話。你可以向它揮手，它就能理解你。你可以用任何你想要的模態與它交談。它會發信息給你，給你發短信，發電子郵件。

它有輸入輸出（I/O）。基于這一點，你可能會說，實際上，它就是一個操作系統。我剛才用來描述它的語句，就和我描述一個操作系統用的語句一模一樣。OpenClaw 本質上就是開源了 agentic computers 的操作系統。這與 Windows 讓我們得以創造出個人電腦沒有什么不同。現在，OpenClaw 讓我們得以創造出個人智能體（personal agents）。其影響是不可思議的。

首先，它的采納速度本身就說明了問題。然而，最重要的事情是這個——現在的每一家公司，每一家軟件公司，每一家技術公司，對于這些公司的 CEOs 來說，他們面臨的問題是，“你的 OpenClaw 戰略是什么？”

就像我們都需要有一個 Linux 戰略一樣，我們過去都需要有一個 HTTP、HTML 戰略，它開啟了互聯網時代。我們都需要有一個 Kubernetes 戰略，它使得移動云成為可能。當今世界上的每一家公司都需要有一個 OpenClaw 戰略，一個智能體系統戰略。

接下來才是激動人心的部分。這就是擁有 OpenClaw 之前的企業 IT，你們知道嗎？我之前提到了企業 IT 的工作方式，之所以把它們稱為數據中心，是因為這些大房間、大樓里保存著數據，保存著人們的文件，保存著商業運作的 structured data。

它會經過包含工具的軟件，你知道，包含記錄系統以及所有這些被編纂進軟件的工作流，然后這些就變成了供人類使用、供數字工作者使用的工具。那就是舊的 IT 產業，軟件公司創建工具，保存文件，當然還有 GSI 的顧問們來幫助公司弄清楚如何使用和集成這些工具。這些工具在管理、安全、隱私和合規性方面極具價值，而所有這些在今天依然是真理。

只不過，在后OpenClaw時代，在后agentic時代，它將會變成這副模樣。這就是非同尋常的部分。每一家IT公司，每一家公司，每一家SaaS公司，每一家SaaS公司都將成為一家AaaS公司。這一點毫無疑問。每一家SaaS公司都將成為一家AaaS公司，一家agentic as a service（代理即服務）公司。

令人驚嘆的是：大家知道，OpenClaw 在最恰當的時機給了整個行業最需要的東西。就像 Linux 在最恰當的時機給了整個行業最需要的東西一樣，就像 Kubernetes 在最恰當的時機出現一樣，就像 HTML 的出現一樣。它使整個行業能夠抓住這個開源軟件棧去做點什么。

只是有一個問題。公司網絡中的智能體系統可能會訪問敏感信息，它可能執行代碼，并且可能向外部通信。仔細想想。訪問敏感信息，執行代碼，向外部通信。當然，你可以訪問員工信息，訪問財務信息、敏感信息，并把它發送出去，向外部通信。顯然，這絕對不能被允許。

我們所做的是與 Peter 合作。我們召集了世界上最頂尖的安全和計算專家，與 Peter 合作，讓 OpenClaw 具備保障企業級安全和企業級隱私的能力。我們將其稱為 NemoClaw——它包含了所有這些 agentic AI 工具包，其中第一部分就是我們稱為 OpenShell 的技術，它現在已經被整合到了 OpenClaw 中。

現在它已經具備了企業級就緒（enterprise-ready）能力。這個包含我們稱為 NemoClaw 的參考設計的技術棧，明白嗎？

有了名為 NemoClaw 的參考棧，你就可以下載它，體驗它，你可以將世界上所有 SaaS 公司的策略引擎連接到它上面，而你們的策略引擎極其重要，極具價值。

NemoClaw或者搭載OpenShell的OpenClaw將能夠執行那個策略引擎。它有網絡護欄，它有隱私路由器，這樣一來，我們就可以保護并阻止爪子（claws，指代agents）在我們的公司內部執行危險操作，并且安全地運行。

我們還在智能體系統中添加了一些功能，你想對你自己定制的爪子做的最重要的一件事，就是讓你可以擁有你的定制模型，這就是NVIDIA的Open Model Initiative。我們現在處于每個AI模型領域的前沿，無論是在Nemotron、Cosmos world foundation model、Groot、通用人工智能機器人、人形機器人模型，用于自動駕駛車輛的Alpamayo，用于數字生物學的BioNeMo，還是用于 AI 物理的 Earth-2。我們在每一個領域都處于前沿。

以下為視頻內容：世界是多樣的。沒有哪個單一的模型能夠服務于所有的行業。Open Models 是世界上最大、最多樣化的AI 生態系統之一。近 300 萬個跨越語言、視覺、生物、物理和自主系統的開放模型，使專業領域的 AI 構建成為可能。NVIDIA 是開源 AI 的最大貢獻者之一，我們構建并發布了六個系列的開放前沿模型，外加訓練數據、配方和框架，以幫助開發者定制和采用。每個系列都有霸榜的新模型發布。處于核心的是 Nemotron，用于語言、視覺理解、RAG、安全和語音的推理模型。

Groot，通用機器人的foundation models。BioNeMo，用于生物學、化學和分子設計的開放模型。Earth-2，根植于 AI 物理學的用于天氣和氣候預測的模型。NVIDIA 的開放模型為研究人員和開發人員提供了為他們自己的專業領域構建和部署 AI的基礎。我們的模型對你們所有人都有價值，因為第一，它位居排行榜榜首，它是世界級的。最重要的是，我們絕不會放棄在這上面繼續努力。我們將日復一日地繼續開發它。

Nemotron-3 之后將會有 Nemotron-4。Cosmos-1 之后是 Cosmos-2。Groot 將進化到第二代。所有這其中的每一個，我們將繼續推進這些模型。垂直整合，橫向開放，以便我們能夠讓每個人都加入這場 AI 革命。

在研究、語音和 world models、人工通用機器人、自動駕駛汽車以及推理等方面位居排行榜榜首，當然，其中最重要的一項是，這是在 OpenClaw 中的 Nemotron-3，看看前 3 名，它們是世界上最好的 3 個模型。我們處于前沿。而且，我們確實想創建基礎模型，這樣你們所有人都可以對其進行 fine-tune（微調）和 post-train（后期訓練），使之成為你們所需要的那種智能。這是 Nemotron-3 Ultra。它將成為世界上曾被創造出的最優秀的 base model（基礎模型）。這使得我們能夠幫助每個國家建立他們的 sovereign AI（主權AI），我們正在與外面的許許多多不同的公司合作。

我們今天正在做的，也是我今天正在宣布的最令人興奮的事情之一，是一個Nemotron 聯盟。我們對此非常專注，已經在 AI 基礎設施上投資了數十億美元。這樣我們就可以開發 AI 所必需的核心引擎，包括用于推理的所有庫等等，而且還創建激活世界上每一個行業所需的 AI 模型。大語言模型確實非常重要。人類智能怎么可能不重要呢？然而，在世界上的不同行業中，在世界上的不同國家里，你需要具備定制自己模型的能力，而這些模型涉及的領域截然不同，從生物學到物理學，到自動駕駛汽車，到通用機器人，當然，再到人類語言。

我們有能力與每一個地區合作，創建屬于他們特定領域的、他們的sovereign AI。

這是一次重塑，這是企業 IT 的一場文藝復興。這個原本規模達 2 萬億美元的產業，將變成一個價值數萬億美元的產業，不僅僅提供給人們使用的工具，而是提供深耕于你們所擅長的特定領域的 agents，我們可以租用這些 agents。我可以完全想象在未來，我們公司的每一位工程師都需要一筆年度 token 預算，他們每年的底薪會是幾十萬美元。

在那基礎之上，我很可能會額外提供一半的價值作為 tokens 給他們，這樣他們的產出就能被放大 10 倍。我們當然會這樣做，它現在已經成為了硅谷招聘的籌碼之一。我的工作附帶多少 tokens？其原因非常明顯，因為每個能使用 tokens 的工程師都將更具生產力。

大家知道，這些 tokens 將由AI工廠生產出來，那是我們與你們所有人合作建立的，明白嗎？當今的每家企業級公司都建立在文件系統和數據中心之上。未來的每家軟件公司都將是 agentic 的，他們將成為 token 制造商。他們將成為其工程師的 token 用戶，并且他們將成為他們所有客戶的 token 制造商。

OpenClaw 這一事件的影響怎么強調都不為過。這絕不亞于 HTML 的重要性。這絕不亞于Linux 的重要性。我們現在擁有了一個世界級的開放 agentic 框架，我們所有人都可以使用它來構建我們的 OpenClaw 戰略。我們創建了一個我們稱之為 NemoClaw 的參考設計，供你們所有人使用，它經過了優化，性能卓越，并且安全可靠。

談物理 AI 與機器人

說到 agents，你們知道，它們會感知、推理和執行。我剛才談到的世界上絕大多數agents 都是 digital agents。它們在數字世界里行動。它們進行推理，它們編寫軟件。一切都是數字化的。但很長一段時間，我們也一直致力于研發具有物理實體的 agents。我們稱之為機器人，而它們需要的 AI 是物理 AI 。

這里有 110 個機器人，我就簡單帶大家過幾個。

我想不出世界上幾乎有哪一家制造機器人的公司沒有在與 NVIDIA 合作。我們有三臺計算機：用于訓練的計算機，用于合成數據生成和模擬的計算機，當然，還有內置于機器人本身的機器人計算機。我們擁有做到這一點所需的所有軟件堆棧。幫助你的 AI 模型。所有這些都被整合到了世界各地的生態系統中，并且我們有來自 Siemens、Cadence 的不可思議的合作伙伴遍布各地。

今天，我們宣布了一大批新的合作伙伴。如你們所知，我們在自動駕駛汽車領域深耕已久，自動駕駛汽車的 ChatGPT 時刻已經到來。我們現在知道我們可以成功地讓汽車自動駕駛，今天我們宣布了 NVIDIA robotaxi-ready 平臺的四位新合作伙伴。

BYD、Hyundai、Nissan、Geely，加在一起每年生產 1800 萬輛汽車。加上我們之前的合作伙伴，Mercedes、Toyota、GM ，未來 robotaxi-ready 汽車的數量將令人驚嘆。我們也宣布了與 Uber 達成的一項重大合作。在多個城市，我們將把這些robotaxi-ready 車輛部署并連接到他們的網絡中。我們有 ABB、Universal Robots、KUKA 以及很多機器人公司在這里，我們正在與他們合作，將我們的 physical AI 模型整合到模擬系統中，以便我們可以將這些機器人部署到世界各地的生產線上。我們有 Caterpillar 在這里。我們甚至有 T-Mobile 在這里，其原因是，在未來，過去被稱為無線電塔的設施，將變成一座 NVIDIA Aerial AI RAN。

它將變成一座機器人無線電塔，這意味著它可以對交通情況進行推理，計算出如何調整其波束成形（beam forming），從而能夠盡可能多地節省能源并盡可能地提高信號保真度。這里有許許多多的人形機器人，但我最喜歡的是迪士尼的機器人。

這是 physical AI 和機器人技術的時代。在世界各地，開發人員正在構建各種各樣的機器人。真實世界是極其龐大且多樣化的、不可預測的，充滿了邊緣情況。現實世界的數據永遠不足以用來針對所有場景進行訓練。我們需要從 AI 和模擬中生成數據。對于機器人來說，計算就是數據。開發者在互聯網規模的視頻和人類演示動作上預訓練 world foundation models，并評估模型的表現，為后期訓練做準備。利用經典和神經模擬，他們大規模生成海量的合成數據并訓練策略（policies）。

為了加速開發人員的進度，NVIDIA 構建了用于機器人訓練、評估和模擬的開源 Isaac Lab，用于可擴展且 GPU 加速的可微物理模擬的 Newton，用于神經模擬的 Cosmos world models，以及用于機器人推理和動作生成的GROOT開放機器人基礎模型。只要有足夠的算力，各地的開發人員正在填補物理AI 數據的空白。

Peritas AI 在 NVIDIA Isaac Lab 中訓練他們的手術室助手機器人，借助 NVIDIA Cosmos world models 將他們的數據成倍增加。Skilled AI 使用 Isaac Lab 和 Cosmos 為他們的 skilled AI 腦生成后期訓練數據。

他們使用強化學習在數千種變化場景中對模型進行強化。Humanoid 使用 Isaac Lab 來訓練全身控制和操作策略。Hexagon Robotics 將 Isaac Lab 用于訓練和數據生成。Foxconn 在 Isaac Lab 中對 Groot 模型進行 fine-tunes，Noble Machines 也是如此。Disney Research 使用他們在 Newton 和 Isaac Lab 中的 Camino 物理模擬器來訓練他們在所有宇宙中的角色機器人的策略。

AI 工廠正在蘇醒，Agents 正在學習如何駕駛。從開放模型一直說到機器人，現在我們為你全部拆解，計算量如爆炸般呈現。從 CNNs 一路進化到 OpenClaw，Agents 在大地上勞作，但它們需要電力來滿足需求。所以我們聰明地解決了問題，我們將算力翻了 4000 萬倍。

曾幾何時，在 AI 的過往歲月里。訓練是主流的范式。毫無疑問，它教會了模型該怎么做。但如今，是推理驅動著整個世界，Vera 向我們展示了誰才是王者。成本下降 35 倍，Blackwell 讓 tokens 歡快地歌唱。NVIDIA，推理之王。AI 工廠過去一建就是好幾年。供應商們拽著機架和齒輪緩慢前行。像拼圖一樣東拼西湊慢慢搭建。根本沒有清晰的辦法來擴展這頭巨獸。DSX 和 Dynamo 懂得該怎么做。

把電力轉化為實實在在的收入。過去，Agents 只能袖手旁觀。現在，它們可以自主行動了。如果它們敢跑偏。安全的claws 就會立刻攔截并說，“沒門”。NemoClaw在那兒為整個旅程保駕護航。是的，我的朋友，它是開源的。會思考的汽車和奔跑的機器人。這可不是在演電影，一切都已經開始了。Alpamayo 掌控全局。屬于機器人的 GPT 時刻已經到來。從虛擬模擬走上真實的街頭，現在看它們一路馳騁。工業時代造就了往昔的一切。

現在我們為 AI 建造更宏偉的藍圖。Vera、Rubin 加上 Groq 掀起了推理的狂潮。把它們組合在一起，現在下起了鈔票雨。我們每年都在打造全新的架構。因為 claws 在不停地呼喊，“把更多的 tokens 丟過來。”這個 AI 技術棧屬于所有人去構建。讓我們共同品嘗這塊五層蛋糕。此刻無比閃耀，前路清晰明了。

因為是開放模型引領我們來到了這里。當數據不足時，我們不再爭論。我們只用算力生成更多數據。機器人完美無瑕地進行學習。為四大擴展定律（scaling laws）注入燃料。未來已來，你們不想來看看嗎？

歡迎在評論區留言~如需開白請加微信：YPYP01234567

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.