![]()
2026年3月,威斯康星大學(xué)麥迪遜分校、MIT和Invictus Innovation聯(lián)合發(fā)布了一篇技術(shù)論文,標(biāo)題直接挑明——「3D光電子與共封裝光學(xué):當(dāng)解決錯誤問題阻礙部署時」。研究團(tuán)隊的核心判斷是:業(yè)界把CPO(共封裝光學(xué),Co-Packaged Optics)當(dāng)成「更快的光模塊」來優(yōu)化,本質(zhì)上是在用修自行車的思路造高鐵。
論文第一作者Yasha Yi團(tuán)隊追蹤了2023-2025年間的早期部署案例,發(fā)現(xiàn)超過60%的CPO項目卡在封裝良率或熱循環(huán)失效上,而非光學(xué)性能本身。
「架構(gòu)承諾」到底是什么意思
論文把CPO比作從燃油引擎換到電動平臺——不是換個大馬力發(fā)動機(jī),而是整車架構(gòu)推倒重來。傳統(tǒng)可插拔光模塊像USB外設(shè),壞了拔下來換新的;CPO把光學(xué)引擎焊死在計算芯片旁邊,距離從10厘米壓縮到2毫米,帶寬密度提升10倍,但維修窗口徹底消失。
研究團(tuán)隊用了一個精確的數(shù)據(jù)對比:英偉達(dá)2024年發(fā)布的CPO原型中,光引擎與GPU的物理距離縮短帶來47%的能耗下降,但封裝熱阻增加了3倍。這意味著散熱設(shè)計必須從「芯片級」前移到「晶圓級」,整個散熱預(yù)算的分配邏輯被改寫。
Yasha Yi在論文中寫道:「我們把太多精力花在調(diào)制器效率上,卻假設(shè)封裝和散熱會自然跟上。這類似于1970年代半導(dǎo)體行業(yè)過度關(guān)注晶體管速度,直到Dennard縮放定律崩潰才被迫轉(zhuǎn)向多核架構(gòu)。」
![]()
3D集成的隱藏賬單
論文重點分析了三種異構(gòu)集成路線:2.5D硅中介層、3D垂直堆疊、以及新興的芯片級光學(xué)(Chiplet Optics)。MIT團(tuán)隊的模擬數(shù)據(jù)顯示,3D堆疊在帶寬密度上比2.5D方案高出8倍,但熱管理復(fù)雜度呈指數(shù)級上升——當(dāng)光學(xué)層與電學(xué)層間距小于50微米時,傳統(tǒng)熱界面材料(TIM)失效,必須改用嵌入式微流道冷卻。
Invictus Innovation貢獻(xiàn)了電動汽車電池?zé)峁芾淼念惐龋骸窩PO的熱循環(huán)失效模式與早期電動車電池包高度相似——不是穩(wěn)態(tài)溫度問題,而是快充快放時的熱應(yīng)力累積。我們建議在CPO設(shè)計中引入類似電池管理系統(tǒng)的健康度監(jiān)測(SOH),實時追蹤焊點疲勞和波導(dǎo)劣化。」
研究團(tuán)隊統(tǒng)計了2024年公開披露的CPO項目,發(fā)現(xiàn)采用3D集成的方案平均開發(fā)周期為34個月,比2.5D方案長14個月;但一旦量產(chǎn),單位帶寬成本下降速度是2.5D的2.3倍。這是一個典型的「先慢后快」曲線,對現(xiàn)金流緊張的初創(chuàng)公司極不友好。
標(biāo)準(zhǔn)化困局:誰為「不可維修」買單
論文最尖銳的批評指向行業(yè)生態(tài)。CPO的不可維修特性與數(shù)據(jù)中心運(yùn)維體系存在根本沖突——Meta和Google的運(yùn)維團(tuán)隊習(xí)慣了光模塊年更換率15%的彈性,而CPO要求把故障率壓到1%以下,否則整機(jī)更換成本將吞噬所有能效收益。
![]()
研究團(tuán)隊訪談了7家超大規(guī)模云廠商的硬件架構(gòu)師,其中5家表示「CPO的TCO模型無法閉合」,除非出現(xiàn)兩項突破:一是晶圓級光學(xué)測試把出廠不良率壓到50ppm以下,二是出現(xiàn)類似SSD wear-leveling的動態(tài)路由算法,在光學(xué)引擎老化時自動繞過失效通道。
論文提出的解決方案是「熱感知協(xié)同設(shè)計」(Thermal-Aware Co-Design)——不是先設(shè)計芯片再塞散熱,而是從物理布局階段就把光學(xué)層、電學(xué)層、熱學(xué)層的三維耦合納入優(yōu)化目標(biāo)。Yasha Yi團(tuán)隊開發(fā)了一套開源工具鏈,輸入是工作負(fù)載的時空熱分布,輸出是晶圓級的材料選擇和微流道拓?fù)洹?/p>
這套工具在模擬中把CPO的10年失效概率從12%降到3%,但代價是設(shè)計周期增加40%。
2026年的關(guān)鍵變量
論文最后列出三項決定CPO能否從「早期部署」進(jìn)入「大規(guī)模采用」的指標(biāo):封裝良率的爬坡速度、熱循環(huán)測試的行業(yè)標(biāo)準(zhǔn)制定進(jìn)度、以及「可預(yù)測性維護(hù)」算法的成熟度。研究團(tuán)隊認(rèn)為,2026-2027年是窗口期——如果屆時主流AI訓(xùn)練集群的CPO滲透率未突破20%,行業(yè)可能退回可插拔方案的漸進(jìn)改良路線。
一個值得玩味的細(xì)節(jié):論文致謝部分提到,部分研究資金來自某家「未披露身份的超大規(guī)模云廠商」。考慮到Invictus Innovation的背景,以及論文對運(yùn)維痛點的精準(zhǔn)把握,這家廠商的身份并不難猜。
當(dāng)CPO的支持者談?wù)摗?0倍能效提升」時,這篇論文提醒他們:這個數(shù)字的前提是接受一個200億美元量級的架構(gòu)押注,且前五年大概率看不到正現(xiàn)金流。對于習(xí)慣了18個月產(chǎn)品周期的AI硬件團(tuán)隊,這種時間尺度本身就是最大的風(fēng)險。
如果2026年底的NeurIPS上出現(xiàn)第一篇「CPO集群熱失效導(dǎo)致訓(xùn)練中斷72小時」的故障分析論文,行業(yè)敘事會向哪個方向偏移?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.