光子技術(Photonics)在數據中心加速 AI 方面發揮著越來越重要的作用。
數據顯示,全球光學元件市場去年規模達到 170 億美元。從市場歷史來看,電信行業(如海底電纜和光纖到戶)主導著市場的核心需求。然而,隨著AI驅動的數據中心快速發展,數據通信領域正在后來居上,市場份額甚至占據了60%以上。
這種市場需求的轉變也驅動著光學技術快速發展。為了跟上AI集群不斷提升的集群規模和性能,光傳輸速率正在迅速提高,并且深刻影響著數據中心未來網絡發展。
![]()
圖一:光學元件市場歷史和預測。
摩根大通市場數據顯示,當前光學元件市場最大的供應商是 Coherent 和 Innolight(各占 20% 的市場份額),Broadcom緊隨其后,市場份額約為10%,還有很多份額較小的供應商參與市場競爭,眾多供應商也造就了光學生態系統當下的繁榮。
大模型驅動數據中心網絡高速增長
大型語言模型 (LLM) 正在推動 AI 工作負載呈指數級增長。
隨著大模型能力的進步,以及越來越多人開始使用生成式AI,大模型的持續訓練、智能體帶來的海量推理需求,都要高性能的AI集群做支撐,并且數據處理需求也日益增長,還需要大量的內存和存儲資源。
因此,保持高效的數據傳輸和資源分配是滿足AI應用的關鍵,這也需要眾多GPU之間協同工作,GPU之間的互聯網絡比傳統網絡提出了更高的要求。如今,互聯需求的增長速度超過了 XPU 本身的數量,迫切需要高帶寬、低延遲的網絡解決方案。
Broadcom公司就認為,數據中心的網絡成本正在攀升,從目前資本支出的 5% 到 10%,預計到 2030 年將達到 15% 到 20%。
![]()
圖二:AI集群規模呈現爆炸性增長趨勢
當下,無論是云服務商,還是AI巨頭,其AI集群規模均在持續膨脹,網絡壓力在持續增加。例如,Oracle 云基礎設施 (OCI) 正在部署具有 131000 個 Nvidia Blackwell GPU 的集群,這些 GPU 通過 NVLink72 互連。
![]()
圖三:OCI AI超級集群
橫向擴展與縱向擴展網絡
如今,依靠傳統的互聯方案,已經無法滿足AI集群所需要的高性能需求,甚至會導致延遲和帶寬瓶頸,嚴重阻礙AI集群的表現。
傳統電氣互聯方案存在致命弱點,那就是距離問題。在較長距離上,信號會出現衰減。并且,在100G甚至即將到來的200G連接中,還會受到單個機箱的限制。隨著連接需求超越機箱,擴展到跨機架甚至多機架規模,就需要采用可插拔光學連接。
如今,光學互聯網絡在AI集群的性能表現上扮演著至關重要的角色。它們直接影響到模型的速度、效率、可擴展性,以及適應不斷變化的需求和滿足用戶需求的能力。
在 AI 數據中心中,基于光學的網絡互聯主要有兩種類型:
橫向擴展 :光鏈路跨機架和行連接交換機。
縱向擴展 :電氣鏈路連接少量機架內部和之間的 GPU。
![]()
圖四: 數據中心光學元件
雖然橫向擴展網絡已經是光學的,但用于縱向擴展網絡的光學技術正處于過渡階段,尚未徹底完成。
橫向擴展網絡的光學進展
光子學是橫向擴展架構的核心。如今,可插拔光收發器支持在 NIC 和交換機之間跨越數十米的數據傳輸。隨著數據速率的升級,這些解決方案面臨著越來越大的功耗和性能限制。
Oracle 的 131K-GPU 結構在其橫向擴展網絡的所有三個級別都使用光鏈路。然而,傳統的可插拔光學器件會消耗大量功率。
![]()
圖五:Oracle 光學集群網絡結構
![]()
圖六:功耗和 TCO 仍是核心關注點
隨著橫向擴展網絡中的數據速率增加以跟上 LLM 的增長和吞吐量需求,網絡功率正在超過加速器機架的功率。據 Nvidia 稱,從可插拔光學器件轉向 CPO(共封裝光學器件,Co-Package Optical)可以將光學器件的功率從 30W 大幅降低到 9W,以實現 1.6Tbps 鏈路。
在 GTC25 上,Nvidia 推出了其首款帶 CPO 的橫向擴展交換機。節能功能可實現更高的 GPU 密度 — 在相同的數據中心功率范圍內,GPU 數量最多可增加 3 倍。
![]()
圖七:使用 Spectrum-X 光學節省 3.5 倍功耗
可靠性是從銅纜轉向光學器件再到 CPO 的關鍵考慮因素。AI 數據中心的數據量巨大且增長速度很快,就像 iPhone 一樣。從統計數據來看,產量和可靠性必須非常高。Google 的平臺光學總監表示,每天 0.004% 的鏈接故障率聽起來不錯,但對于 1M 鏈接,則每天有 40 個鏈接故障。光學解決方案需要設計成非常低的故障率,在非常苛刻的水平上進行測試,并且樣品量非常大,以確保生產成功。
在縱向擴展網絡中實現 CPO 的途徑
縱向擴展互連目前仍基于銅纜。Nvidia 的 Blackwell 架構采用全銅解決方案 NVLink72,在電路板、交換機和機架背板上可以看到廣泛的布線。信號頻率現在非常高,以至于銅束直接連接到 GPU,繞過了傳統的 PCB 走線。
![]()
![]()
圖八:Nvidia 的路線圖擴展到 NVLink576,它仍然使用銅纜,但不斷升級的數據速率和信號完整性問題最終將需要光學解決方案
然而,銅的局限性正變得越來越明顯。Nvidia 的路線圖擴展到 NVLink576,它仍然使用銅纜,但不斷升級的數據速率和信號完整性問題最終將需要光學解決方案。
微軟也介紹了他們對未來 AI 加速器的 CPO 要求。他們希望使用具有可配置接口的單個物理層來替換現有接口。
![]()
圖九:新的互連場景需要具有更嚴格的延遲和可靠性要求的統一接口
新的統一接口需要具有“兩全其美”——組合規范是他們正在取代的傳統接口中的佼佼者。這使得 CPO 更具挑戰性,但增加了市場。
![]()
圖十: 新統一接口需要比它所取代的傳統接口更好。
Nvidia 還提出了其對 CPO 與 AI 加速器集成的要求:
![]()
圖十一: Nvidia 的 CPO 要求
這些是具有挑戰性但可行的要求。 Needham & Company 建議,在 Scale-Up 網絡中,首次轉向 CPO 將發生在單個 GPU 域內的機架之間,而機架內連接暫時保持銅質。
當前,數據中心AI芯片大部分由臺積電生產制造。套基礎也深入參與了所有AI相關技術的路線圖。在今年4月份,臺積電也展示了包括共封裝光學器件在內的技術路線圖,正在為市場的爆發做好準備。
市場前景分析
光子技術的快速發展,正在為大規模的AI集群帶來更加靈活、高性能的網絡,以克服互聯帶寬瓶頸,超越傳統互聯網絡的限制。,滿足生成式AI的需求,對于推動AI未來創新的作用不可低估。
Scale-Up 網絡向 CPO 的過渡預計將在未來幾年內開始,并在 2030 年代廣泛取代可插拔光學器件。到 2030 年,CPO 市場將從目前的零增長到 50 億美元。Broadcom、Marvell、Ayar Labs、Celestial AI 和 Lightmatter 等早期進入者以及 Coherent 等激光器供應商都將受益。
![]()
圖十二:
CPO 光學器件將
2027-2030 年快速增長
光子學不再僅僅支持 AI。它正在成為其大規模增長不可或缺的一部分。到 2030 年代中期,所有互聯都將是光學的,并且都將是 CPO。
大數據在線是聚焦人工智能、大數據、云計算等前沿科技領域深度觀察的深度媒體。目前,大數據在線在微信公眾號、今日頭條號、新浪財經、36氪、雪球號、觀察號等主流自媒體平臺均有入駐,積累粉絲超過20W;并榮獲今日頭條十大科技新銳媒體、商業新知十大人工智能媒體等多項殊榮。商務聯系請添加微信:Owen_Inter,添加請備注具體信息。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.