網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI算力擴(kuò)容的新瓶頸竟是銅纜，英偉達(dá)押注光互連

2026-04-06 20:59:51　來源: DeepTech深科技

北京舉報(bào)

分享至

如果打開 Nvidia NVL72 機(jī)柜的后蓋，你最先注意到的，可能不是那 72 顆 GPU，而是那超過 5,000 根同軸銅纜編織成的密網(wǎng)。這些銅纜總長(zhǎng)超過 3.2 公里，是整臺(tái)機(jī)柜 1.36 噸自重的主要來源。

而在機(jī)柜正中央是 9 塊 NVSwitch 托盤，被上下各 9 塊計(jì)算托盤夾在中間。之所以這樣排列，是因?yàn)殂~纜信號(hào)在 1.8 TB/s 的帶寬下跑不了幾英尺就開始衰減，NVSwitch 必須離每顆 GPU 盡可能近，居中是距離最短的布局。

（來源：ServeTheHome）

這臺(tái)機(jī)柜濃縮了英偉達(dá)過去兩年面對(duì)的核心問題：銅纜確實(shí)好用，但它給系統(tǒng)規(guī)模畫了一條硬上限。2026 年 3 月的 GTC 上，黃仁勛宣布要用光互連把 GPU 系統(tǒng)從 72 顆擴(kuò)展到 576 顆乃至 1,152 顆，并在一個(gè)月內(nèi)向三家光學(xué)公司投了 60 億美元。

而在兩年前，他還說光互連太耗電。

銅纜的黃金時(shí)代，和它的極限

2024 年 GTC，Nvidia 第一次展示 NVL72 機(jī)柜（代號(hào) Oberon）時(shí)，銅纜是理所當(dāng)然的選擇。Nvidia 網(wǎng)絡(luò)高級(jí)副總裁 Gilad Shainer 向媒體表示：“銅是最好的連接方式，如果你能用的話。它非常便宜，功耗為零，沒有任何有源組件。”

圖丨NVL72（來源：Nvidia）

銅纜省下的功耗確實(shí)可觀。黃仁勛在同年 GTC 主題演講中算過一筆賬：如果 NVL72 用 pluggable optics（可插拔光模塊）替代銅纜，每顆 Blackwell GPU 需要配 18 個(gè) 800 Gbps 光模塊，加速器端 9 個(gè)，交換機(jī)端 9 個(gè)，整套系統(tǒng)要多消耗約 20,000 瓦。對(duì)一臺(tái)已經(jīng)吃掉 120 千瓦的機(jī)柜來說，再加 20 千瓦不太切實(shí)。

銅纜還有一個(gè)不常被提及的優(yōu)勢(shì)：可靠性。在接近百萬條鏈路的大規(guī)模 AI 集群里，可插拔的光模塊每天可能出現(xiàn)數(shù)十次鏈路中斷。銅纜是無源器件，沒有激光器會(huì)老化，也沒有信號(hào)處理芯片會(huì)發(fā)熱，故障率低得多。

所以英偉達(dá)選銅是經(jīng)過權(quán)衡的。72 顆 GPU 通過銅背板全互連，整臺(tái)機(jī)柜就是一個(gè)巨大的加速器，萬億參數(shù)模型的推理速度比上一代 H100 快 30 倍。2024 年，這已經(jīng)是行業(yè)能造出的最大一臺(tái)機(jī)器。

但 AI 模型對(duì) GPU 數(shù)量的需求沒有停在 72 顆。

訓(xùn)練 ChatGPT 級(jí)別的模型需要數(shù)千顆 GPU 協(xié)同工作。NVL72 內(nèi)部有 NVLink 高速互連，但多臺(tái) NVL72 之間仍然只能靠 InfiniBand 或以太網(wǎng)連接，帶寬和延遲都差了一個(gè)量級(jí)。如果能把 500 顆甚至 1,000 顆 GPU 放進(jìn)同一個(gè) NVLink 域，讓它們像一顆芯片一樣通信，訓(xùn)練效率會(huì)大幅提升。

而銅纜擋住了這條路。信號(hào)在銅中的衰減隨頻率和距離急劇上升，1.8 TB/s 帶寬下有效傳輸距離不到一米。單個(gè)機(jī)柜塞不下更多 GPU，跨機(jī)柜用銅纜又夠不著。NVL72 已經(jīng)把銅纜的工程做到了物理極限，再往前一步，需要換介質(zhì)。最明顯的替代方案就是光，但兩年前黃仁勛親手否掉了這個(gè)選項(xiàng)。

光從“太貴”變成“可以用”

光互連本身不是新技術(shù)，數(shù)據(jù)中心的機(jī)柜之間早就在用光纖通信。但把光互連用在 GPU 之間的 scale-up 網(wǎng)絡(luò)上，也就是讓一組 GPU 構(gòu)成單一計(jì)算單元的內(nèi)部互連，工程難度完全不同。

Scale-up 網(wǎng)絡(luò)對(duì)帶寬、延遲和功耗的要求遠(yuǎn)比 scale-out（機(jī)柜之間的外部網(wǎng)絡(luò)）苛刻。2024 年英偉達(dá)評(píng)估過在 NVL72 上使用可插拔光模塊的方案：?jiǎn)蝹€(gè)模塊功耗 10-15 瓦，看起來不多，但 72 顆 GPU 需要幾百個(gè)模塊，總功耗多出 20 千瓦。體積也是問題，每個(gè)模塊約一包口香糖大小，幾百個(gè)要占掉可觀的機(jī)柜空間和散熱余量。

改變這個(gè)局面的是 co-packaged optics（共封裝光學(xué)，CPO）。CPO 把光引擎直接集成到交換芯片的封裝里，省掉了可插拔模塊的外殼、連接器和大部分信號(hào)處理電路，功耗和體積都大幅縮減。

2025 年，Nvidia 在自家的 Spectrum 以太網(wǎng)交換機(jī)和 Quantum InfiniBand 交換機(jī)上率先量產(chǎn)了 CPO，這是英偉達(dá)第一次在自己的產(chǎn)品線上規(guī)模驗(yàn)證光學(xué)互連。這次在 scale-out 網(wǎng)絡(luò)上的部署，也為下一步把 CPO 引入 NVLink scale-up 網(wǎng)絡(luò)積累了經(jīng)驗(yàn)。

不過 CPO 目前仍處于早期階段。TrendForce 的數(shù)據(jù)顯示，2026 年 CPO 在 AI 數(shù)據(jù)中心光模塊中的占比僅約 0.5%，但到 2030 年可能達(dá)到 35%。而英偉達(dá)選在滲透曲線剛起步的時(shí)候大舉押注，所錨定的就是能定義規(guī)則的先發(fā)位置。

從 72 到 1152：銅光混合的路線圖

2026 年 GTC 上，黃仁勛發(fā)布了兩款新系統(tǒng)：Vera Rubin NVL576 和 Rosa Feynman NVL1152。前者把 8 個(gè) NVL72 機(jī)柜用光互連組成一個(gè) 576 GPU 的計(jì)算域，后者進(jìn)一步擴(kuò)展到 1,152 顆。

圖丨Vera Rubin NVL576（來源：DataCenterDynamics）

“有很多討論說英偉達(dá)到底要走銅纜 scale-up 還是光學(xué) scale-up，答案是兩個(gè)都做。”黃仁勛在主題演講中說。

具體方案分兩層。據(jù)英偉達(dá)超大規(guī)模與高性能計(jì)算副總裁 Ian Buck 介紹，NVL576 的第一層網(wǎng)絡(luò)（機(jī)柜內(nèi)部 GPU 到交換機(jī)的連接）將繼續(xù)使用銅纜，GPU 本身不需要改動(dòng)；第二層 spine 網(wǎng)絡(luò)（機(jī)柜與機(jī)柜之間）會(huì)換成光模塊。銅纜在短距離上的低成本和高可靠繼續(xù)發(fā)揮作用，光只負(fù)責(zé)銅纜物理上夠不著的那段距離。

到 Feynman 一代（預(yù)計(jì) 2028 年中后期出貨），Nvidia 打算走得更遠(yuǎn)。這代系統(tǒng)將提供 CPO 版本的 NVLink 互連，目前有兩條可能的路徑：一種是只在 NVSwitch 交換芯片上集成 CPO，機(jī)柜內(nèi)仍用銅，代價(jià)是需要兩層交換網(wǎng)絡(luò)；另一種是在 GPU 封裝上也集成 CPO，整個(gè) NVLink 域只需一層交換網(wǎng)絡(luò)，延遲更低。

Shainer 在 GTC 期間接受采訪時(shí)拒絕透露英偉達(dá)會(huì)走哪條路，但暗示了自己的偏好：“Scale-up 網(wǎng)絡(luò)如果不是必須，你不會(huì)想建多層的，因?yàn)槟阋M量降低計(jì)算引擎之間的延遲。”單層網(wǎng)絡(luò)意味著需要一顆端口數(shù)極高的交換芯片來直連上千顆 GPU，這在當(dāng)前工藝下還做不到，但距離 Feynman 出貨還有兩年多時(shí)間。

另一個(gè)有意思的取舍是：Nvidia 在 Vera Rubin 這一代只對(duì) NVL72 Oberon 機(jī)柜做光學(xué)擴(kuò)展，但沒有動(dòng) NVL144 Kyber 機(jī)柜。一個(gè)合理的推測(cè)是，既然光互連可以跨機(jī)柜擴(kuò)展，就不需要在單機(jī)柜里硬塞 144 顆 GPU 了。把 8 個(gè) 72-GPU 機(jī)柜用光連起來，散熱和供電壓力都分散了。換句話說，光互連打開的不只是帶寬上限，還有機(jī)柜設(shè)計(jì)上的空間。

60 億美元鎖供應(yīng)鏈

技術(shù)路線定了，接下來的問題是誰來供貨。CPO 省掉了傳統(tǒng)光模塊的大部分組件，但有一樣?xùn)|西省不掉：激光器。出于可靠性和可維護(hù)性的考慮，激光器通常和交換芯片分開放置，作為外部光源單獨(dú)供應(yīng)。誰能控制激光器的產(chǎn)能，誰就卡住了 CPO 大規(guī)模部署的咽喉。

2026 年 3 月，Nvidia 向 Coherent 和 Lumentum 各投資 20 億美元，同時(shí)簽下多年采購(gòu)協(xié)議，鎖定了優(yōu)先供應(yīng)權(quán)。Coherent 隨后宣布將在 2026 年把磷化銦（InP）晶圓產(chǎn)能翻倍，擴(kuò)產(chǎn)資金的主要來源正是英偉達(dá)的這筆投資。Lumentum 在高功率連續(xù)波激光芯片領(lǐng)域處于領(lǐng)先地位，是 CPO 外部光源的關(guān)鍵供應(yīng)商。兩筆投資瞄準(zhǔn)的都是光學(xué)供應(yīng)鏈上最稀缺的環(huán)節(jié)。

到了月底，Nvidia 又向 Marvell 投了 20 億美元。這筆交易掛在 NVLink Fusion（允許第三方芯片接入 NVLink 生態(tài)的平臺(tái)）名下，但聯(lián)合聲明里明確提到雙方將合作開發(fā)硅光子技術(shù)。

Marvell 在 2026 年初剛以 32.5 億美元收購(gòu)了 Celestial AI，后者擁有一種叫做 Photonic Fabric 的光子互連技術(shù)，可以用來構(gòu)建跨機(jī)柜的一致性內(nèi)存網(wǎng)絡(luò)。Nvidia 把 Marvell 拉進(jìn) NVLink Fusion 生態(tài)，Celestial AI 的光子技術(shù)大概率將在英偉達(dá)體系內(nèi)落地，而不會(huì)流向競(jìng)爭(zhēng)對(duì)手。

圖丨傳統(tǒng) CPO 與 Photonic Fabric 的對(duì)比（來源：Celestial AI）

三筆投資合計(jì) 60 億美元，一個(gè)月內(nèi)密集完成。節(jié)奏一如英偉達(dá)過去在 HBM（高帶寬內(nèi)存）和 CoWoS（臺(tái)積電先進(jìn)封裝）上的做法，趁技術(shù)拐點(diǎn)到來之前提前鎖定稀缺產(chǎn)能，讓競(jìng)爭(zhēng)對(duì)手在供應(yīng)端慢一拍。Futurum 的分析師把光學(xué)稱為 AI 基礎(chǔ)設(shè)施擴(kuò)展的下一個(gè)瓶頸環(huán)節(jié)，而英偉達(dá)正趕在瓶頸形成之前卡住上游。

對(duì) UALink 陣營(yíng)來說，這個(gè)時(shí)間差相當(dāng)不利。UALink 是 AMD、Intel、Broadcom 等公司聯(lián)手推動(dòng)的開放互連標(biāo)準(zhǔn)，目標(biāo)是打破 NVLink 的封閉生態(tài)。但 UALink 硬件最早也要到 2026 年底才能出貨，規(guī)模部署可能得等到 2027 年甚至更晚。而英偉達(dá)這邊，光學(xué)供應(yīng)鏈已經(jīng)在簽約、擴(kuò)產(chǎn)、集成。等到開放標(biāo)準(zhǔn)的硬件終于量產(chǎn)，關(guān)鍵光學(xué)元件的產(chǎn)能可能已經(jīng)被英偉達(dá)的長(zhǎng)期協(xié)議占去了相當(dāng)一部分。

不過 Shainer 至今仍然說銅是最好的連接方式。當(dāng)然，前提是“如果你能用的話”。在機(jī)柜內(nèi)部 GPU 到交換機(jī)的短距離連接上，銅纜依然是最經(jīng)濟(jì)、最可靠的方案，Vera Rubin 和 Feynman 都會(huì)繼續(xù)使用銅背板。銅沒有被淘汰，只是它能覆蓋的范圍不再夠用了。

兩年前黃仁勛拒絕光互連的時(shí)候，72 顆 GPU 還裝得下英偉達(dá)最大的野心，但現(xiàn)在已經(jīng)裝不下了。

參考資料：

https://developer.nvidia.com/blog/nvidia-contributes-nvidia-gb200-nvl72-designs-to-open-compute-project/

https://www.theregister.com/2026/04/05/nvidia_optical_scale_up/

https://www.trendforce.com/presscenter/news/20260311-12962.html

https://newsletter.semianalysis.com/p/co-packaged-optics-cpo-book-scaling

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.