公眾號記得加星標??,第一時間看推送不會錯過。
![]()
思科近期發布了Silicon One G300,這是一款102.4Tbps的網絡芯片,代表了當前AI數據中心基礎設施中最先進的交換解決方案之一。在Cisco Live EMEA期間,我們有機會與思科通用硬件事業部執行副總裁Martin Lund進一步探討這一新進展及其對行業的意義。我們不僅討論了思科是如何打造這一龐大的硅芯片,還花了相當多的時間討論未來的發展方向,包括硅光子技術。
G300是Silicon One產品組合中的最新成員。這是一款由臺積電代工、基于3納米工藝的芯片,為連接大規模GPU集群提供了極高的網絡容量。根據Lund的說法,憑借G300,思科躋身全球僅有的三家能夠生產該性能級別網絡芯片的公司之列,另外兩家是英偉達和博通。
通用硬件事業部整合了思科所有產品線中的硅芯片開發、硬件工程以及硅光子研究。這種統一方式的優勢在于,使思科能夠構建覆蓋從園區Wi-Fi接入點和視頻攝像頭,到Catalyst交換機、核心路由器以及超大規模AI基礎設施交換機的完整垂直解決方案。
Silicon One G300芯片
G300芯片支持64個1.6Tb以太網端口,總交換容量達到102.4Tbps。與幾年前推出的前代產品G200相比,這一容量實現了翻倍。從更直觀的角度來看,該芯片提供的帶寬是近25年前推出的10Gb標準的1萬倍。
基于臺積電3納米工藝構建,G300正在逼近當前半導體制造的物理極限。根據Lund的說法,由于制造限制,目前無法制造出明顯比該芯片更大的芯片。極致性能也帶來了顯著的散熱挑戰。該芯片產生的熱量之大,使得其部署必須依賴液冷。這一點本身也具有意義,因為這意味著交換設備也將進入液冷領域。
用于AI工作負載優化的可編程架構
Lund表示,使Silicon One區別于競爭解決方案的,是其可編程架構。這意味著芯片可以被編程以執行其應執行的任務。更重要的是,G300可以在部署之后進行重新配置,以適應不斷變化的網絡需求。他認為,這一能力對于AI基礎設施尤為重要,因為工作負載模式和協議正在快速演進。
這種可編程性使網絡運營商能夠在不更換硬件的情況下,修改芯片行為、實現新協議以及調整負載均衡架構。這延長了設備生命周期,并使得隨著AI技術的發展能夠持續優化。對于可能部署10萬顆此類芯片的大型AI工廠,或部署數百顆的小型系統,這種靈活性代表了顯著的運營與財務優勢。
以太網贏得AI網絡標準之爭
在AI基礎設施連接技術方面,網絡行業長期存在以太網與InfiniBand之間的爭論。根據Lund的說法,這一問題已經被明確地解決,結果是以太網勝出,尤其是在Ultra Ethernet聯盟成立以及英偉達公開支持以太網技術之后——盡管英偉達通過收購Mellanox擁有InfiniBand。
InfiniBand在需要低延遲和高性能的特定場景中表現良好。然而,該技術在擴展性方面存在明顯限制。最顯著的是,InfiniBand的地址空間僅支持65,000個節點。Lund表示,這看似很多,但對于擴展至數十萬甚至上百萬計算節點的AI集群來說是不足的。以太網提供了這些大規模部署所需的地址能力、互操作性以及生態支持。
向以太網作為通用標準的轉變,使得AI計算架構走向解耦。在這種架構中,不同類型的處理器和加速器通過統一的網絡結構連接。Lund認為,隨著AI硬件格局從當前以GPU為中心逐漸多樣化,這種靈活性將變得愈發重要。
部署目標與客戶采用情況
G300的初始部署重點,是用于連接超大規模GPU集群的AI數據中心。這既包括大型AI工廠,也包括較小規模的企業AI部署。Lund還指出,六大超大規模云廠商中已有五家采用了思科的Silicon One技術,目前也在推進第六家的合作。
新型云服務提供商(neocloud)以及主權云項目的興起,使得可服務市場不再局限于傳統超大規模云廠商。企業也開始部署專用AI工廠,這些部署需要G300所提供的交換能力。盡管這些部署的GPU規模是數千級,而非數十萬級,但Lund認為G300同樣能夠發揮作用。
G300位于思科五大Silicon One芯片家族的頂端。該家族(除G系列外,還包括P、K、A和E系列)覆蓋從園區交換到運營商基礎設施的不同場景。Lund表示,在最高性能芯片中開發的技術,也會逐步下沉至整個產品線。例如,G300設備中的1.6Tb以太網端口,未來將隨著市場成熟逐步進入運營商和企業設備。
硅光子與光網絡的未來
到目前為止,我們討論的都是當前或即將可用的技術。然而,當前關于光子技術的討論也非常熱烈。因此我們詢問了Lund對這一領域的看法。
硅光子技術應該成為下一次重要的技術轉變。第一階段是共封裝光學(CPO),即將光學引擎安裝在非常靠近網絡芯片的位置,使光信號可以直接從基板發出。與當前電-光轉換方法相比,這種方式可以將功耗降低高達70%。
接下來的問題是,光學技術能在多大程度上深入到芯片內部。目前的光交換依賴小型反射鏡來重構網絡路徑,但這種方式無法滿足逐包交換的速度需求。Lund預計,真正意義上的光域分組交換仍需數年時間。他甚至認為,在完全光交換變得實用之前,量子計算可能會先實現突破。
光子系統的可靠性挑戰
與基于銅的電系統相比,光子系統在可靠性方面存在固有挑戰。激光器具有有限壽命,并引入額外的故障點。Lund提到的一種解決方案是使用外部可插拔激光器,這樣在更換時無需移除整個交換機。這在一定程度上類似于模塊化設備中的熱插拔電源。
行業正在持續解決這些可靠性問題,同時平衡光子技術帶來的能效優勢。隨著網絡速率不斷提升,銅纜傳輸距離顯著縮短。過去在10米距離下可行的方案,在帶寬翻倍后可能只能支持3米,而進一步翻倍后可能僅為1.5米甚至1米。這一物理限制正在推動向光連接的轉變。然而,在銅與光子之間的最佳平衡點,仍會隨著每一代技術演進而不斷變化。
Silicon One 是垂直方法的基石
思科的方法鏡像了蘋果的垂直整合模式。該公司設計自己的芯片,構建自己的硬件,開發自己的軟件和平臺,創建自己的管理工具,并實施自己的安全堆棧。雖然像谷歌、微軟和亞馬遜 AWS 這樣的公司構建定制的數據中心芯片,但他們保留這些技術僅供內部使用。思科向全球數百萬客戶銷售其基于芯片的解決方案。這要求在可編程性、生命周期管理和廣泛的生態系統兼容性方面有不同的設計考量。Silicon One 架構的功能就像一個指令集,可以在不同的優化點和用例之間擴展,從園區網絡到超大規模 AI 基礎設施。
https://www.techzine.eu/blogs/infrastructure/139613/cisco-dominates-ai-network-design-when-will-silicon-photonics-mature/
(來源:techzine)
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4352內容,歡迎關注。
加星標??第一時間看推送
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.