網易首頁 > 網易號 > 正文申請入駐

黃仁勛CES2026最新演講：三個關鍵話題，一臺“芯片怪獸” |【經緯低調分享】

2026-01-06 12:21:59　來源: 經緯創投

北京舉報

分享至

今日凌晨，英偉達CEO黃仁勛身著標志性皮衣亮相CES2026主舞臺，帶來一場聚焦AI推理時代的重磅演講。

黃仁勛的演講不是一次單純的技術發布。演講中貫穿的 “AI 工業化” 主線、物理 AI 的場景落地路徑，以及全棧生態的構建邏輯，清晰揭示了行業從 “實驗室技術比拼” 向 “規模化商業變現” 的關鍵跨越 —— 當算力成本通過 Rubin 架構實現 10 倍下降，當自動駕駛、人形機器人明確 2026 年量產節點，當開源生態打破巨頭壟斷，AI 產業的投資邏輯已從 “賭技術突破” 轉向 “抓落地確定性”。

那么，開源生態將打破 “巨頭壟斷”后，是否會催生大量垂直領域初創公司？“物理世界的 AI 改造”，能否定義下一個十年的 AI 產業格局？這篇文章，整理了演講中的干貨。以下，Enjoy：

本文經授權轉自騰訊科技(ID: qqtech)

文丨李海倫蘇揚

編輯丨徐青陽

北京時間1月6日，英偉達CEO黃仁勛身著標志性皮衣再次站在CES2026的主舞臺上。

2025年CES，英偉達展示了量產的Blackwell芯片和完整的物理AI技術棧。在會上，黃仁勛強調，一個“物理AI時代”正在開啟。他描繪了一個充滿想象力的未來：自動駕駛汽車具備推理能力，機器人能夠理解并思考，AI Agent（智能體）可以處理百萬級 token 的長上下文任務。

轉眼一年過去，AI行業經歷了巨大的變革演進。黃仁勛在發布會上回顧這一年的變化時，重點提到了開源模型。

他說，像DeepSeek R1這樣的開源推理模型，讓整個行業意識到：當開放、全球協作真正啟動后，AI的擴散速度會極快。盡管開源模型在整體能力上仍比最前沿模型慢大約半年，但每隔六個月就會追近一次，而且下載量和使用量已經呈爆發式增長。

相比2025年更多展示愿景與可能性，這一次英偉達開始系統性地希望解決“如何實現”的問題：圍繞推理型AI，補齊長期運行所需的算力、網絡與存儲基礎設施，顯著壓低推理成本，并將這些能力直接嵌入自動駕駛和機器人等真實場景。

在本次黃仁勛在CES上的演講，圍繞三條主線展開：

● 在系統與基礎設施層面，英偉達圍繞長期推理需求重構了算力、網絡與存儲架構。以Rubin平臺、NVLink 6、Spectrum-X以太網和推理上下文內存存儲平臺為核心，這些更新直指推理成本高、上下文難以持續和規模化受限等瓶頸，解決AI多想一會、算得起、跑得久的問題。

● 在模型層面，英偉達將推理型 AI（Reasoning / Agentic AI）置于核心位置。通過Alpamayo、Nemotron、Cosmos Reason 等模型與工具，推動 AI 從“生成內容”邁向能夠持續思考、從“一次性響應的模型”轉向“可以長期工作的智能體”。

● 在應用與落地層面，這些能力被直接引入自動駕駛和機器人等物理AI場景。無論是 Alpamayo 驅動的自動駕駛體系，還是GR00T 與 Jetson的機器人生態，都在通過云廠商和企業級平臺合作，推動規模化部署。

01

從路線圖到量產：Rubin首次完整披露性能數據

在本次CES上，英偉達首次完整披露了Rubin架構的技術細節。

演講中，黃仁勛從Test-time Scaling（推理時擴展）開始鋪墊，這個概念可以理解為，想要AI變聰明，不再只是讓它“多努力讀書”，而是靠“遇到問題時多想一會兒”。

過去，AI 能力的提升主要靠訓練階段砸更多算力，把模型越做越大；而現在，新的變化是哪怕模型不再繼續變大，只要在每次使用時給它多一點時間和算力去思考，結果也能明顯變好。

如何讓“AI多思考一會兒”變得經濟可行？Rubin架構的新一代AI計算平臺就是來解決這個問題。

黃仁勛介紹，這是一套完整的下一代AI計算系統，通過Vera CPU、Rubin GPU、NVLink 6、ConnectX-9、BlueField-4、Spectrum-6的協同設計，以此實現推理成本的革命性下降。

英偉達Rubin GPU 是Rubin 架構中負責 AI 計算的核心芯片，目標是顯著降低推理與訓練的單位成本。

說白了，Rubin GPU 核心任務是“讓 AI 用起來更省、更聰明”。

Rubin GPU 的核心能力在于：同一塊 GPU 能干更多活。它一次能處理更多推理任務、記住更長的上下文，和其他 GPU 之間的溝通也更快，這意味著很多原本要靠“多卡硬堆”的場景，現在可以用更少的 GPU 完成。

結果就是，推理不但更快了，而且明顯更便宜。

黃仁勛現場給大家復習了Rubin架構的NVL72硬件參數：包含220萬億晶體管，帶寬260 TB/秒，是業界首個支持機架規模機密計算的平臺。

整體來看，相比Blackwell，Rubin GPU在關鍵指標上實現跨代躍升：NVFP4 推理性能提升至 50 PFLOPS（5 倍）、訓練性能提升至 35 PFLOPS（3.5 倍），HBM4 內存帶寬提升至 22 TB/s（2.8 倍），單 GPU 的 NVLink 互連帶寬翻倍至 3.6 TB/s。

這些提升共同作用，使單個 GPU 能處理更多推理任務與更長上下文，從根本上減少對 GPU 數量的依賴。

Vera CPU是專為數據移動和Agentic處理設計的核心組件，采用88個英偉達自研Olympus核心，配備1.5 TB系統內存（是上代Grace CPU的3倍），通過1.8 TB/s的NVLink-C2C技術實現CPU與GPU之間的一致性內存訪問。

與傳統通用CPU不同，Vera專注于AI推理場景中的數據調度和多步驟推理邏輯處理，本質上是讓“AI多想一會兒”得以高效運行的系統協調者。

NVLink 6通過3.6 TB/s的帶寬和網絡內計算能力，讓Rubin架構中的72個GPU能像一個超級GPU一樣協同工作，這是實現“推理成本降至1/7”的關鍵基礎設施。

這樣一來，AI 在推理時需要的數據和中間結果可以迅速在 GPU 之間流轉，不用反復等待、拷貝或重算。

在Rubin架構中，NVLink-6負責GPU內部協同計算，BlueField-4負責上下文與數據調度，而ConnectX-9則承擔系統對外的高速網絡連接。它確保Rubin系統能夠與其他機架、數據中心和云平臺高效通信，是大規模訓練和推理任務順利運行的前提條件。

相比上一代架構，英偉達也給出具體直觀的數據：相比 NVIDIA Blackwell 平臺，可將推理階段的 token 成本最高降低10倍，并將訓練混合專家模型（MoE）所需的 GPU 數量減少至原來的1/4。

英偉達官方表示，目前微軟已承諾在下一代Fairwater AI超級工廠中部署數十萬Vera Rubin芯片，CoreWeave等云服務商將在2026年下半年提供Rubin實例，這套“讓AI多想一會兒”的基礎設施正在從技術演示走向規模化商用。

02

存儲瓶頸如何解決

讓AI“多想一會兒”還面臨一個關鍵技術挑戰：上下文數據該放在哪里？

當AI處理需要多輪對話、多步推理的復雜任務時，會產生大量上下文數據（KV Cache）。傳統架構要么把它們塞進昂貴且容量有限的GPU內存，要么放到普通存儲里（訪問太慢）。這個“存儲瓶頸”如果不解決，再強的GPU也會被拖累。

針對這個問題，英偉達在本次CES上首次完整披露了由BlueField-4驅動的推理上下文內存存儲平臺（Inference Context Memory Storage Platform），核心目標是在GPU內存和傳統存儲之間創建一個“第三層”。既足夠快，又有充足容量，還能支撐AI長期運行。

從技術實現上看，這個平臺并不是單一組件在發揮作用，而是一套協同設計的結果：

BlueField-4 負責在硬件層面加速上下文數據的管理與訪問，減少數據搬移和系統開銷；
Spectrum-X 以太網提供高性能網絡，支持基于 RDMA 的高速數據共享；
DOCA、NIXL和Dynamo等軟件組件，則負責在系統層面優化調度、降低延遲、提升整體吞吐。

我們可以理解為，這套平臺的做法是，將原本只能放在GPU內存里的上下文數據，擴展到一個獨立、高速、可共享的“記憶層”中。一方面釋放 GPU 的壓力，另一方面又能在多個節點、多個 AI 智能體之間快速共享這些上下文信息。

在實際效果方面，英偉達官方給出的數據是：在特定場景下，這種方式可以讓每秒處理的 token數提升最高達5倍，并實現同等水平的能效優化。

黃仁勛在發布中多次強調，AI正在從“一次性對話的聊天機器人”，演進為真正的智能協作體：它們需要理解現實世界、持續推理、調用工具完成任務，并同時保留短期與長期記憶。這正是 Agentic AI 的核心特征。推理上下文內存存儲平臺，正是為這種長期運行、反復思考的 AI 形態而設計，通過擴大上下文容量、加快跨節點共享，讓多輪對話和多智能體協作更加穩定，不再“越跑越慢”。

03

新一代DGX SuperPOD ：讓576個GPU協同工作

英偉達在本次CES上宣布推出基于Rubin架構的新一代DGX SuperPOD（超節點），將Rubin從單機架擴展到整個數據中心的完整方案。

什么是DGX SuperPOD？

如果說Rubin NVL72是一個裝有72個GPU的“超級機架”，那么DGX SuperPOD就是把多個這樣的機架連接起來，形成一個更大規模的AI計算集群。這次發布的版本由8個Vera Rubin NVL72機架組成，相當于576個GPU協同工作。

當AI任務規模繼續擴大時，單個機架的576個GPU可能還不夠。比如訓練超大規模模型、同時服務數千個Agentic AI智能體、或者處理需要數百萬token上下文的復雜任務。這時就需要多個機架協同工作，而DGX SuperPOD就是為這種場景設計的標準化方案。

對于企業和云服務商來說，DGX SuperPOD提供的是一個“開箱即用”的大規模AI基礎設施方案。不需要自己研究如何把數百個GPU連接起來、如何配置網絡、如何管理存儲等問題。

新一代DGX SuperPOD五大核心組件：

○ 8個Vera Rubin NVL72機架 - 提供計算能力的核心，每個機架72個GPU，總共576個GPU；

○ NVLink 6擴展網絡 - 讓這8個機架內的576個GPU能像一個超大GPU一樣協同工作；

○ Spectrum-X以太網擴展網絡 - 連接不同的SuperPOD，以及連接到存儲和外部網絡；

○ 推理上下文內存存儲平臺 - 為長時間推理任務提供共享的上下文數據存儲；

○ 英偉達Mission Control軟件 - 管理整個系統的調度、監控和優化。

這一次的升級，SuperPOD的基礎以DGX Vera Rubin NVL72機架級系統為核心。每一臺 NVL72本身就是一臺完整的AI超級計算機，內部通過NVLink 6 將72塊Rubin GPU 連接在一起，能夠在一個機架內完成大規模推理和訓練任務。新的DGX SuperPOD，則由多臺NVL72 組成，形成一個可以長期運行的系統級集群。

當計算規模從“單機架”擴展到“多機架”后，新的瓶頸隨之出現：如何在機架之間穩定、高效地傳輸海量數據。圍繞這一問題，英偉達在本次 CES 上同步發布了基于 Spectrum-6 芯片的新一代以太網交換機，并首次引入“共封裝光學”（CPO）技術。

簡單來看，就是將原本可插拔的光模塊直接封裝在交換芯片旁邊，把信號傳輸距離從幾米縮短到幾毫米，從而顯著降低功耗和延遲，也提升了系統整體的穩定性。

04

英偉達開源AI全家桶：從數據到代碼一應俱全

本次CES上，黃仁勛宣布擴展其開源模型生態（Open Model Universe），新增和更新了一系列模型、數據集、代碼庫和工具。這個生態覆蓋六大領域：生物醫學AI（Clara）、AI物理模擬（Earth-2）、Agentic AI（Nemotron）、物理AI（Cosmos）、機器人（GR00T）和自動駕駛（Alpamayo）。

訓練一個AI模型需要的不只是算力，還需要高質量數據集、預訓練模型、訓練代碼、評估工具等一整套基礎設施。對大多數企業和研究機構來說，從零開始搭建這些太耗時間。

具體來說，英偉達開源了六個層次的內容：算力平臺（DGX、HGX等）、各領域的訓練數據集、預訓練的基礎模型、推理和訓練代碼庫、完整的訓練流程腳本，以及端到端的解決方案模板。

Nemotron系列是此次更新的重點，覆蓋了四個應用方向。

在推理方向，包括Nemotron 3 Nano、Nemotron 2 Nano VL等小型化推理模型，以及NeMo RL、NeMo Gym等強化學習訓練工具。在RAG（檢索增強生成）方向，提供了Nemotron Embed VL（向量嵌入模型）、Nemotron Rerank VL（重排序模型）、相關數據集和NeMo Retriever Library（檢索庫）。在安全方向，有Nemotron Content Safety內容安全模型及配套數據集、NeMo Guardrails護欄庫。

在語音方向，則包含Nemotron ASR自動語音識別、Granary Dataset語音數據集和NeMo Library語音處理庫。這意味著企業想做一個帶RAG的AI客服系統，不需要自己訓練嵌入模型和重排序模型，可以直接使用英偉達已經訓練好并開源的代碼。

05

物理AI領域走向商業化落地

物理AI領域同樣有模型更新——用于理解和生成物理世界視頻的Cosmos，機器人通用基礎模型Isaac GR00T、自動駕駛視覺-語言-行動模型Alpamayo。

黃仁勛在CES上聲稱，物理AI的“ChatGPT時刻”快要來了，但面對挑戰也很多：物理世界太復雜多變，采集真實數據又慢又貴，永遠不夠用。

怎么辦呢？合成數據是條路。于是英偉達推出了Cosmos。

這是一個開源的物理AI世界基礎模型，目前已經用海量視頻、真實駕駛與機器人數據，以及3D模擬做過預訓練。它能理解世界是怎么運行的，可以把語言、圖像、3D和動作聯系起來。

黃仁勛表示，Cosmos能實現不少物理AI技能，比如生成內容、做推理、預測軌跡（哪怕只給它一張圖）。它可以依據3D場景生成逼真的視頻，根據駕駛數據生成符合物理規律的運動，還能從模擬器、多攝像頭畫面或文字描述生成全景視頻。就連罕見場景，也能還原出來。

黃仁勛還正式發布了Alpamayo。Alpamayo是一個面向自動駕駛領域的開源工具鏈，也是首個開源的視覺-語言-行動（VLA）推理模型。與之前僅開源代碼不同，英偉達這次開源了從數據到部署的完整開發資源。

Alpamayo最大的突破在于它是“推理型”自動駕駛模型。傳統自動駕駛系統是“感知-規劃-控制”的流水線架構，看到紅燈就剎車，看到行人就減速，遵循預設規則。而Alpamayo引入了“推理”能力，理解復雜場景中的因果關系，預測其他車輛和行人的意圖，甚至能處理需要多步思考的決策。

比如在十字路口，它不只是識別出“前方有車”，而是能推理”那輛車可能要左轉，所以我應該等它先過”。這種能力讓自動駕駛從“按規則行駛”升級到“像人一樣思考”。

黃仁勛宣布英偉達DRIVE系統正式進入量產階段，首個應用是全新的梅賽德斯-奔馳CLA，計劃2026年在美國上路。這款車將搭載L2++級自動駕駛系統，采用“端到端AI模型+傳統流水線”的混合架構。

機器人領域同樣有實質性進展。

黃仁勛表示包括Boston Dynamics、Franka Robotics、LEM Surgical、LG Electronics、Neura Robotics和XRlabs在內的全球機器人領軍企業，正在基于英偉達Isaac平臺和GR00T基礎模型開發產品，覆蓋了從工業機器人、手術機器人到人形機器人、消費級機器人的多個領域。

在發布會現場，黃仁勛背后站滿了不同形態、不同用途的機器人，它們被集中展示在分層舞臺上：從人形機器人、雙足與輪式服務機器人，到工業機械臂、工程機械、無人機與手術輔助設備，展現出一版“機器人生態圖景”。

從物理AI應用到RubinAI計算平臺,再到推理上下文內存存儲平臺和開源AI“全家桶”。

英偉達在CES上展示的這些動作，構成了英偉達對于推理時代AI基礎設施的敘事。正如黃仁勛反復強調的那樣，當物理 AI 需要持續思考、長期運行，并真正進入現實世界，問題已經不再只是算力夠不夠，而是誰能把整套系統真正搭起來。

CES 2026 上，英偉達已經給出了一份答卷。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.