![]()
當(dāng)下的全球 AI 行業(yè),正面臨一個殘酷現(xiàn)實(shí):"真正的 AI 瓶頸不是 GPU,而是電力(Power)"。
近日,微軟首席執(zhí)行官Satya Nadella在采訪時坦言,微軟現(xiàn)在有大批英偉達(dá)的AI芯片因?yàn)槿彪姺旁趥}庫里積灰。同樣的情況出現(xiàn)在谷歌歐洲數(shù)據(jù)中心,因電網(wǎng)限制被迫延期。
在此背景下,谷歌在本月正式啟動一項(xiàng)名為"太陽捕手計(jì)劃"(Project Suncatcher)的項(xiàng)目,宣布將自研 TPU AI 芯片送入太空,并且與衛(wèi)星公司 Planet Labs 合作,在距地 650 公里的低地球軌道上構(gòu)建 AI 計(jì)算集群。
看起來像是在技術(shù)炫技,實(shí)際上只是為了應(yīng)對能源危機(jī)的抉擇。?
![]()
開頭提到,來自地面電力體系的壓力,是谷歌轉(zhuǎn)向太空的直接動因。AI 算力的爆發(fā)式增長讓數(shù)據(jù)中心能耗呈指數(shù)級飆升:2010 年全球數(shù)據(jù)中心耗電約 200 太瓦時,2024 年已逼近 500 太瓦時,預(yù)計(jì) 2030 年將占全球總發(fā)電量的 8%。OpenAI 訓(xùn)練 GPT-4 單次電耗超 1200 萬千瓦時,相當(dāng)于歐洲小城市月用電量;一個萬卡 AI 集群運(yùn)行功率就超過 7 兆瓦,絕非普通電網(wǎng)能承載。
谷歌自身的困境就更加明顯:其歐洲新數(shù)據(jù)中心因電網(wǎng)接入問題多次延遲,而愛爾蘭等數(shù)據(jù)中心密集地區(qū)已直接暫停新審批。
即便谷歌已將 Gemini 模型查詢能耗一年內(nèi)降低 33 倍,但 AI 應(yīng)用的增長速度遠(yuǎn)超能效優(yōu)化幅度,地面電力已嚴(yán)重阻礙了自家AI應(yīng)用的發(fā)展。?
相比之下,太陽每秒輸出的能量是人類全球電力生產(chǎn)總量的 100 萬億倍以上。
按照谷歌的計(jì)劃,在選定的晨昏太陽同步低地球軌道上,太陽能板不僅能獲得地面 8 倍的能量密度,更能實(shí)現(xiàn)全年 99% 的持續(xù)供電,徹底擺脫晝夜與天氣干擾。有意思的是,太空真空環(huán)境還能完美解決了地面數(shù)據(jù)中心的冷卻難題,地面機(jī)房 35%-45% 的運(yùn)營成本消耗在散熱上,而太空中的輻射散熱機(jī)制能讓 TPU 芯片在無需復(fù)雜冷卻系統(tǒng)的情況下維持穩(wěn)定運(yùn)行。
這樣一來,太空的數(shù)據(jù)中心可以不將電能傳回地面,而是直接在太空完成計(jì)算僅回傳結(jié)果,大幅提升了方案可行性。?
報(bào)道稱,目前的TPU 芯片已經(jīng)實(shí)現(xiàn)了太空適配性突破,谷歌專為該計(jì)劃定制的 Trillium(TPU v6e)芯片,已通過 67 兆電子伏質(zhì)子束的嚴(yán)苛測試:在承受 15krad 的輻射劑量時未出現(xiàn)硬件故障,即便最敏感的高帶寬內(nèi)存(HBM)子系統(tǒng),也能在 2krad 的劑量下保持穩(wěn)定。
最后,為了構(gòu)建規(guī)模化算力,谷歌設(shè)計(jì)了由 81 顆衛(wèi)星組成的密集星座:在 650 公里軌道上以 100-200 米間距編隊(duì)飛行,通過自由空間光學(xué)鏈路實(shí)現(xiàn)數(shù)據(jù)互聯(lián)。地面測試已實(shí)現(xiàn) 1.6Tbps 的雙向傳輸速率,采用密集波分復(fù)用技術(shù)后,單鏈路理論帶寬可達(dá) 10Tbps,滿足 AI 集群的低延遲通信需求。
當(dāng)然,瘋狂的計(jì)劃背后也要算一筆經(jīng)濟(jì)賬。谷歌的財(cái)務(wù)模型顯示,當(dāng)火箭發(fā)射成本降至每公斤 200 美元以下時,太空數(shù)據(jù)中心的綜合成本將與地面持平。這里可以參照SpaceX 的星艦計(jì)劃,花旗等機(jī)構(gòu)預(yù)測 2035 年左右即可實(shí)現(xiàn)價格拐點(diǎn)。當(dāng)前發(fā)射成本雖仍高達(dá)每公斤 1500-2900 美元,按 SpaceX 的曲線,累計(jì)發(fā)射質(zhì)量每翻倍,成本就能下降 20%。??
如果一切順利,谷歌將在2027 年初與 Planet 公司合作發(fā)射的兩顆原型衛(wèi)星,用來驗(yàn)證 TPU 在軌運(yùn)行穩(wěn)定性、光學(xué)鏈路通信效率及分布式機(jī)器學(xué)習(xí)能力。
盡管散熱材料優(yōu)化、訓(xùn)練任務(wù)抗輻射等難題仍待攻克,但這一探索已為 AI 突破能源枷鎖指明方向。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.