如果打開 Nvidia NVL72 機(jī)柜的后蓋,你最先注意到的,可能不是那 72 顆 GPU,而是那超過 5,000 根同軸銅纜編織成的密網(wǎng)。這些銅纜總長(zhǎng)超過 3.2 公里,是整臺(tái)機(jī)柜 1.36 噸自重的主要來源。
而在機(jī)柜正中央是 9 塊 NVSwitch 托盤,被上下各 9 塊計(jì)算托盤夾在中間。之所以這樣排列,是因?yàn)殂~纜信號(hào)在 1.8 TB/s 的帶寬下跑不了幾英尺就開始衰減,NVSwitch 必須離每顆 GPU 盡可能近,居中是距離最短的布局。
![]()
(來源:ServeTheHome)
這臺(tái)機(jī)柜濃縮了英偉達(dá)過去兩年面對(duì)的核心問題:銅纜確實(shí)好用,但它給系統(tǒng)規(guī)模畫了一條硬上限。2026 年 3 月的 GTC 上,黃仁勛宣布要用光互連把 GPU 系統(tǒng)從 72 顆擴(kuò)展到 576 顆乃至 1,152 顆,并在一個(gè)月內(nèi)向三家光學(xué)公司投了 60 億美元。
而在兩年前,他還說光互連太耗電。
銅纜的黃金時(shí)代,和它的極限
2024 年 GTC,Nvidia 第一次展示 NVL72 機(jī)柜(代號(hào) Oberon)時(shí),銅纜是理所當(dāng)然的選擇。Nvidia 網(wǎng)絡(luò)高級(jí)副總裁 Gilad Shainer 向媒體表示:“銅是最好的連接方式,如果你能用的話。它非常便宜,功耗為零,沒有任何有源組件。”
![]()
圖丨NVL72(來源:Nvidia)
銅纜省下的功耗確實(shí)可觀。黃仁勛在同年 GTC 主題演講中算過一筆賬:如果 NVL72 用 pluggable optics(可插拔光模塊)替代銅纜,每顆 Blackwell GPU 需要配 18 個(gè) 800 Gbps 光模塊,加速器端 9 個(gè),交換機(jī)端 9 個(gè),整套系統(tǒng)要多消耗約 20,000 瓦。對(duì)一臺(tái)已經(jīng)吃掉 120 千瓦的機(jī)柜來說,再加 20 千瓦不太切實(shí)。
銅纜還有一個(gè)不常被提及的優(yōu)勢(shì):可靠性。在接近百萬條鏈路的大規(guī)模 AI 集群里,可插拔的光模塊每天可能出現(xiàn)數(shù)十次鏈路中斷。銅纜是無源器件,沒有激光器會(huì)老化,也沒有信號(hào)處理芯片會(huì)發(fā)熱,故障率低得多。
所以英偉達(dá)選銅是經(jīng)過權(quán)衡的。72 顆 GPU 通過銅背板全互連,整臺(tái)機(jī)柜就是一個(gè)巨大的加速器,萬億參數(shù)模型的推理速度比上一代 H100 快 30 倍。2024 年,這已經(jīng)是行業(yè)能造出的最大一臺(tái)機(jī)器。
但 AI 模型對(duì) GPU 數(shù)量的需求沒有停在 72 顆。
訓(xùn)練 ChatGPT 級(jí)別的模型需要數(shù)千顆 GPU 協(xié)同工作。NVL72 內(nèi)部有 NVLink 高速互連,但多臺(tái) NVL72 之間仍然只能靠 InfiniBand 或以太網(wǎng)連接,帶寬和延遲都差了一個(gè)量級(jí)。如果能把 500 顆甚至 1,000 顆 GPU 放進(jìn)同一個(gè) NVLink 域,讓它們像一顆芯片一樣通信,訓(xùn)練效率會(huì)大幅提升。
而銅纜擋住了這條路。信號(hào)在銅中的衰減隨頻率和距離急劇上升,1.8 TB/s 帶寬下有效傳輸距離不到一米。單個(gè)機(jī)柜塞不下更多 GPU,跨機(jī)柜用銅纜又夠不著。NVL72 已經(jīng)把銅纜的工程做到了物理極限,再往前一步,需要換介質(zhì)。最明顯的替代方案就是光,但兩年前黃仁勛親手否掉了這個(gè)選項(xiàng)。
光從“太貴”變成“可以用”
光互連本身不是新技術(shù),數(shù)據(jù)中心的機(jī)柜之間早就在用光纖通信。但把光互連用在 GPU 之間的 scale-up 網(wǎng)絡(luò)上,也就是讓一組 GPU 構(gòu)成單一計(jì)算單元的內(nèi)部互連,工程難度完全不同。
Scale-up 網(wǎng)絡(luò)對(duì)帶寬、延遲和功耗的要求遠(yuǎn)比 scale-out(機(jī)柜之間的外部網(wǎng)絡(luò))苛刻。2024 年英偉達(dá)評(píng)估過在 NVL72 上使用可插拔光模塊的方案:?jiǎn)蝹€(gè)模塊功耗 10-15 瓦,看起來不多,但 72 顆 GPU 需要幾百個(gè)模塊,總功耗多出 20 千瓦。體積也是問題,每個(gè)模塊約一包口香糖大小,幾百個(gè)要占掉可觀的機(jī)柜空間和散熱余量。
改變這個(gè)局面的是 co-packaged optics(共封裝光學(xué),CPO)。CPO 把光引擎直接集成到交換芯片的封裝里,省掉了可插拔模塊的外殼、連接器和大部分信號(hào)處理電路,功耗和體積都大幅縮減。
2025 年,Nvidia 在自家的 Spectrum 以太網(wǎng)交換機(jī)和 Quantum InfiniBand 交換機(jī)上率先量產(chǎn)了 CPO,這是英偉達(dá)第一次在自己的產(chǎn)品線上規(guī)模驗(yàn)證光學(xué)互連。這次在 scale-out 網(wǎng)絡(luò)上的部署,也為下一步把 CPO 引入 NVLink scale-up 網(wǎng)絡(luò)積累了經(jīng)驗(yàn)。
不過 CPO 目前仍處于早期階段。TrendForce 的數(shù)據(jù)顯示,2026 年 CPO 在 AI 數(shù)據(jù)中心光模塊中的占比僅約 0.5%,但到 2030 年可能達(dá)到 35%。而英偉達(dá)選在滲透曲線剛起步的時(shí)候大舉押注,所錨定的就是能定義規(guī)則的先發(fā)位置。
從 72 到 1152:銅光混合的路線圖
2026 年 GTC 上,黃仁勛發(fā)布了兩款新系統(tǒng):Vera Rubin NVL576 和 Rosa Feynman NVL1152。前者把 8 個(gè) NVL72 機(jī)柜用光互連組成一個(gè) 576 GPU 的計(jì)算域,后者進(jìn)一步擴(kuò)展到 1,152 顆。
![]()
圖丨Vera Rubin NVL576(來源:DataCenterDynamics)
“有很多討論說英偉達(dá)到底要走銅纜 scale-up 還是光學(xué) scale-up,答案是兩個(gè)都做。”黃仁勛在主題演講中說。
具體方案分兩層。據(jù)英偉達(dá)超大規(guī)模與高性能計(jì)算副總裁 Ian Buck 介紹,NVL576 的第一層網(wǎng)絡(luò)(機(jī)柜內(nèi)部 GPU 到交換機(jī)的連接)將繼續(xù)使用銅纜,GPU 本身不需要改動(dòng);第二層 spine 網(wǎng)絡(luò)(機(jī)柜與機(jī)柜之間)會(huì)換成光模塊。銅纜在短距離上的低成本和高可靠繼續(xù)發(fā)揮作用,光只負(fù)責(zé)銅纜物理上夠不著的那段距離。
到 Feynman 一代(預(yù)計(jì) 2028 年中后期出貨),Nvidia 打算走得更遠(yuǎn)。這代系統(tǒng)將提供 CPO 版本的 NVLink 互連,目前有兩條可能的路徑:一種是只在 NVSwitch 交換芯片上集成 CPO,機(jī)柜內(nèi)仍用銅,代價(jià)是需要兩層交換網(wǎng)絡(luò);另一種是在 GPU 封裝上也集成 CPO,整個(gè) NVLink 域只需一層交換網(wǎng)絡(luò),延遲更低。
Shainer 在 GTC 期間接受采訪時(shí)拒絕透露英偉達(dá)會(huì)走哪條路,但暗示了自己的偏好:“Scale-up 網(wǎng)絡(luò)如果不是必須,你不會(huì)想建多層的,因?yàn)槟阋M量降低計(jì)算引擎之間的延遲。”單層網(wǎng)絡(luò)意味著需要一顆端口數(shù)極高的交換芯片來直連上千顆 GPU,這在當(dāng)前工藝下還做不到,但距離 Feynman 出貨還有兩年多時(shí)間。
另一個(gè)有意思的取舍是:Nvidia 在 Vera Rubin 這一代只對(duì) NVL72 Oberon 機(jī)柜做光學(xué)擴(kuò)展,但沒有動(dòng) NVL144 Kyber 機(jī)柜。一個(gè)合理的推測(cè)是,既然光互連可以跨機(jī)柜擴(kuò)展,就不需要在單機(jī)柜里硬塞 144 顆 GPU 了。把 8 個(gè) 72-GPU 機(jī)柜用光連起來,散熱和供電壓力都分散了。換句話說,光互連打開的不只是帶寬上限,還有機(jī)柜設(shè)計(jì)上的空間。
60 億美元鎖供應(yīng)鏈
技術(shù)路線定了,接下來的問題是誰來供貨。CPO 省掉了傳統(tǒng)光模塊的大部分組件,但有一樣?xùn)|西省不掉:激光器。出于可靠性和可維護(hù)性的考慮,激光器通常和交換芯片分開放置,作為外部光源單獨(dú)供應(yīng)。誰能控制激光器的產(chǎn)能,誰就卡住了 CPO 大規(guī)模部署的咽喉。
2026 年 3 月,Nvidia 向 Coherent 和 Lumentum 各投資 20 億美元,同時(shí)簽下多年采購(gòu)協(xié)議,鎖定了優(yōu)先供應(yīng)權(quán)。Coherent 隨后宣布將在 2026 年把磷化銦(InP)晶圓產(chǎn)能翻倍,擴(kuò)產(chǎn)資金的主要來源正是英偉達(dá)的這筆投資。Lumentum 在高功率連續(xù)波激光芯片領(lǐng)域處于領(lǐng)先地位,是 CPO 外部光源的關(guān)鍵供應(yīng)商。兩筆投資瞄準(zhǔn)的都是光學(xué)供應(yīng)鏈上最稀缺的環(huán)節(jié)。
到了月底,Nvidia 又向 Marvell 投了 20 億美元。這筆交易掛在 NVLink Fusion(允許第三方芯片接入 NVLink 生態(tài)的平臺(tái))名下,但聯(lián)合聲明里明確提到雙方將合作開發(fā)硅光子技術(shù)。
Marvell 在 2026 年初剛以 32.5 億美元收購(gòu)了 Celestial AI,后者擁有一種叫做 Photonic Fabric 的光子互連技術(shù),可以用來構(gòu)建跨機(jī)柜的一致性內(nèi)存網(wǎng)絡(luò)。Nvidia 把 Marvell 拉進(jìn) NVLink Fusion 生態(tài),Celestial AI 的光子技術(shù)大概率將在英偉達(dá)體系內(nèi)落地,而不會(huì)流向競(jìng)爭(zhēng)對(duì)手。
![]()
圖丨傳統(tǒng) CPO 與 Photonic Fabric 的對(duì)比(來源:Celestial AI)
三筆投資合計(jì) 60 億美元,一個(gè)月內(nèi)密集完成。節(jié)奏一如英偉達(dá)過去在 HBM(高帶寬內(nèi)存)和 CoWoS(臺(tái)積電先進(jìn)封裝)上的做法,趁技術(shù)拐點(diǎn)到來之前提前鎖定稀缺產(chǎn)能,讓競(jìng)爭(zhēng)對(duì)手在供應(yīng)端慢一拍。Futurum 的分析師把光學(xué)稱為 AI 基礎(chǔ)設(shè)施擴(kuò)展的下一個(gè)瓶頸環(huán)節(jié),而英偉達(dá)正趕在瓶頸形成之前卡住上游。
對(duì) UALink 陣營(yíng)來說,這個(gè)時(shí)間差相當(dāng)不利。UALink 是 AMD、Intel、Broadcom 等公司聯(lián)手推動(dòng)的開放互連標(biāo)準(zhǔn),目標(biāo)是打破 NVLink 的封閉生態(tài)。但 UALink 硬件最早也要到 2026 年底才能出貨,規(guī)模部署可能得等到 2027 年甚至更晚。而英偉達(dá)這邊,光學(xué)供應(yīng)鏈已經(jīng)在簽約、擴(kuò)產(chǎn)、集成。等到開放標(biāo)準(zhǔn)的硬件終于量產(chǎn),關(guān)鍵光學(xué)元件的產(chǎn)能可能已經(jīng)被英偉達(dá)的長(zhǎng)期協(xié)議占去了相當(dāng)一部分。
不過 Shainer 至今仍然說銅是最好的連接方式。當(dāng)然,前提是“如果你能用的話”。在機(jī)柜內(nèi)部 GPU 到交換機(jī)的短距離連接上,銅纜依然是最經(jīng)濟(jì)、最可靠的方案,Vera Rubin 和 Feynman 都會(huì)繼續(xù)使用銅背板。銅沒有被淘汰,只是它能覆蓋的范圍不再夠用了。
兩年前黃仁勛拒絕光互連的時(shí)候,72 顆 GPU 還裝得下英偉達(dá)最大的野心,但現(xiàn)在已經(jīng)裝不下了。
參考資料:
https://developer.nvidia.com/blog/nvidia-contributes-nvidia-gb200-nvl72-designs-to-open-compute-project/
https://www.theregister.com/2026/04/05/nvidia_optical_scale_up/
https://www.trendforce.com/presscenter/news/20260311-12962.html
https://newsletter.semianalysis.com/p/co-packaged-optics-cpo-book-scaling
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.