網易首頁 > 網易號 > 正文申請入駐

電費只占5%，誰在真正吃掉算力成本？

2026-03-29 12:06:06　來源: 半導體產業縱橫

北京舉報

分享至

近期，沐曦在行業分享中披露的一組數據中心成本分析圖表，引發了業內人士的廣泛關注。

這張圖拆了一座1GW數據中心的賬——總擁有成本550億美元，按四年折舊攤下來，GPU芯片占了250億，供電散熱110億，網絡50億，存儲40億。電費呢？27.5億。占比5%。

就這么一張圖，把一個在圈里流傳了小兩年的“美好敘事”推翻了。之前總有人說，中國電價比歐美便宜，AI時代這就是我們的本錢。大模型那么耗電，電價低就是持續優勢。可沐曦這張圖告訴你的卻是另一回事：在超大規模算力中心的成本結構里，電費在整體TCO 中占比很低，對總成本影響有限。真正的大頭，是你根本繞不開的那塊GPU。

一座550億美元的數據中心，錢都花哪兒了

我們先把這個賬算細一點。

圖里的550億美元，是基于一座1GW的數據中心做的全周期測算，周期是四年。為什么是四年？因為GPU的折舊周期就這么長，甚至很多互聯網大廠實際折舊周期更短——三年甚至兩年半。這不是會計上的保守處理，而是技術迭代的現實：新一代GPU出來，老一代的單位算力成本和能效比就立刻失去競爭力。

在這550億里，GPU采購250億，占比45%。這還只是買芯片的錢。供電和散熱系統110億，占比20%。這部分聽著像是“基礎設施”，但實際上一大半成本是被GPU的功耗逼出來的——一顆H100功耗700瓦，B系列下一代直奔1000瓦以上，幾萬張卡堆在一起，供電和散熱系統的復雜程度遠超傳統數據中心。

網絡50億，存儲40億。這兩塊加起來90億，占比16%。超大規模集群里的網絡，不是咱們家里用的路由器，而是幾百公里光纖、幾十層交換機構成的“毛細血管網”，成本和復雜度隨著GPU數量呈指數級增長。

四大硬件板塊加起來450億，占了總成本的82%。電費呢？27.5億，占比5%。其他運維成本7.5億，占比不到1.5%。

所以你看，電費便宜這件事，在這個賬本里幾乎可以忽略不計。你電價打五折，省下來的錢也就十幾億美元，在550億的總盤子里連個水花都翻不起來。真正決定你成本高低的，是你用什么GPU、用多少GPU、怎么把這些GPU連成集群、怎么給它們供電散熱——而這些，沒有一樣是靠“便宜”能解決的。

在AI算力的成本方程里，資源稟賦的權重遠沒有想象中那么高，真正起決定作用的，是技術和供應鏈。

GPU價格為什么“降不動”

那問題來了：GPU能不能降下來？如果能，是不是成本問題就解決了一大半？

答案是：能降，但短期內很難降太多，而且降價的空間不在中國手里。

一顆AI芯片的成本構成，遠比一般人想象的要復雜。先說最直觀的制程。目前旗艦級AI芯片清一色用4nm或5nm，臺積電的N4P和N5工藝。流一次片的費用是多少？三到五億美元起步。這不是設計費，是實實在在給代工廠的錢。而且這個成本是沉沒成本——你流片失敗了，錢就沒了；流片成功了，良率爬坡還需要幾個季度。

然后是HBM（高帶寬內存）。一顆H100配80GB HBM3，光內存的成本就占到芯片總成本的40%以上。HBM這個市場有多集中？海力士一家占了大半，三星緊隨其后，美光在后面追。HBM的產能擴張速度遠遠跟不上AI芯片的需求，所以這兩年HBM一直在漲價。你GPU設計得再好，HBM拿不到貨或者拿貨貴，整顆芯片的成本就降不下來。

還有先進封裝。現在AI芯片幾乎都用CoWoS，這個技術被臺積電牢牢握在手里。CoWoS產能的緊張程度，過去兩年是整個AI芯片供應鏈的最大瓶頸。臺積電擴產能的速度，直接決定了英偉達、AMD、以及所有自研AI芯片廠商的出貨節奏。

這三個環節——先進制程、HBM、先進封裝——加起來，占據了AI芯片BOM成本的大頭，而且每一個環節都被極少數供應商壟斷。本土的GPU設計公司，即使設計能力追上了，也要面對同樣的供應鏈現實。流片要找臺積電或三星（或者國內尚在追趕的先進制程產線），HBM目前基本依賴韓國廠商，先進封裝也是臺積電的天下。這意味著，國產GPU的物料成本，在一段時間內很難比英偉達低，甚至可能因為采購量小、議價能力弱而更高。

更關鍵的是，英偉達的GPU不僅僅是一顆芯片，而是一個完整的系統。從NVLink互聯到InfiniBand網絡，從CUDA軟件棧到整個開發者生態，英偉達用了十幾年時間構建了一套“軟硬一體”的壁壘。你買英偉達的GPU，花的錢里很大一部分買的是“確定性”——確定能用、確定性能達標、確定能快速部署。這個“確定性”的溢價，在初期是很難避免的。

窗口期來了，但挑戰更大

那國產GPU怎么辦？是不是就沒機會了？

恰恰相反。2025年到2026年這個時間窗口，可能是國產GPU這幾年來最重要的機遇期。原因很簡單：美國對華出口管制在不斷加碼。

這種壓力，客觀上給國產GPU打開了一個“被迫導入”的窗口。過去，國內的AI公司選擇英偉達是出于性能和生態的最優解；現在，這個最優解正在被人為切斷，國產GPU從“備選”變成了“必選”。

我們看到的是，2025年下半年以來，國內幾家頭部互聯網公司和運營商都在加速部署國產算力集群。華為昇騰的910B和后續型號在一些場景下已經開始規模化落地；沐曦、壁仞、天數智芯等公司也在積極推動產品進入實際生產環境；百度昆侖、阿里平頭哥的自研芯片也在內部大規模應用。

但挑戰同樣清晰。

第一是性能差距。國產GPU在單卡算力上正在快速追趕，但在集群效率、互聯帶寬、軟件棧成熟度方面，與英偉達仍有差距。一個3000卡的國產集群，實際有效算力可能只有同樣規模英偉達集群的60%-70%。這意味著，完成同樣的訓練任務，需要更多的卡、更長的周期、更復雜的并行優化——這些最終都會轉化為成本。

第二是軟件生態的“隱形門檻”。CUDA經過十幾年積累，已經形成了一個龐大的開發者生態。算法工程師從學校里學的就是CUDA，開源社區的模型代碼默認跑在CUDA上，各種算子庫、調優工具、分布式框架都以CUDA為基準。國產GPU廠商現在都要做自己的軟件棧——華為有CANN，沐曦有MXMACA，壁仞有BIRENSUPA——但生態建設需要時間和投入，而且需要用戶愿意“多走一步”。

第三是供應鏈的“天花板”。國產GPU的制造目前主要依賴國內先進制程產線，而國內產線在產能、良率、成熟度方面與臺積電還有差距。HBM方面，國內目前還沒有能夠量產HBM2E以上產品的廠商，這一塊短期內仍然依賴韓國供應商。這意味著，即使國產GPU設計上去了，供應鏈的自主可控程度仍然是有限的。

回到沐曦那張成本拆解圖，其實還有一個隱藏的信息：成本優化的空間，不僅僅在GPU本身。供電散熱占110億，占比20%。如果能把這部分壓縮30%，那就是33億美元的節省——比電費總額還多。怎么做？液冷是目前最確定的路徑。

傳統風冷數據中心PUE在1.4-1.5之間，液冷可以做到1.1以下。這意味著不僅電費降低，更重要的是供配電系統和散熱系統的初始投資可以大幅縮減。隨著GPU功耗突破1000瓦，風冷已經接近物理極限，液冷正在從“可選”變成“必選”。2025年下半年以來，國內幾大運營商和云廠商新建的智算中心，液冷方案的滲透率明顯提升。這個趨勢的直接結果就是，供電散熱在TCO中的占比有望從20%降至15%甚至更低。

網絡占50億，占比9%。超大規模集群中，網絡成本隨著GPU數量增加而超線性增長。為什么？因為GPU之間需要高速互聯，而傳統的以太網在解決“大象流”和“多打一”問題上的效率不高。英偉達的NVLink和InfiniBand之所以能形成壁壘，很大程度上就是因為它們在集群互聯上的優勢。但2025年，一個值得關注的趨勢是，基于以太網的超大規模互聯方案正在成熟，Ultra Ethernet Consortium（UEC）的推進讓業界看到了降低網絡成本的希望。如果這一路徑走通，網絡成本在TCO中的占比有望進一步壓縮。

還有存儲占40億，占比7%。AI訓練對存儲的要求是海量小文件讀寫和高帶寬吞吐，傳統的分布式文件系統在這種場景下效率不高。2025年以來，國內幾家存儲廠商在AI原生存儲上的探索值得關注——通過軟硬協同優化，可以在同等性能下降低存儲節點的配置需求，從而壓縮成本。

但這些系統級的優化，有一個共同的底層邏輯：它們都需要對GPU集群有深入的理解和掌控能力。不是簡單地買一堆GPU堆在一起，而是從芯片到系統、從硬件到軟件的垂直整合。

這正是為什么我們看到，無論是英偉達還是谷歌、亞馬遜，都在往“云-芯-端”一體化的方向走。谷歌的TPU從一開始就是為自家的深度學習框架TensorFlow設計的；亞馬遜的Trainium和Inferentia深度綁定AWS的服務；微軟雖然大量采購英偉達的GPU，但同時也在自研芯片，并與英偉達在系統層面深度合作。

中國的情況也類似。華為昇騰的優勢之一，就是它同時擁有芯片設計能力和通信技術積累，能夠在芯片互聯和集群組網層面做深度優化。阿里平頭哥、百度昆侖與各自的云業務深度協同，也是同樣的邏輯。

沒有捷徑可走

回看那張圖，它的價值其實不只是拆解了成本結構，更是拆解了一種思維慣性。

“靠電價優勢就能在 AI 算力賽道實現突破”——這個說法之所以有市場，是因為它符合一種“資源換優勢”的舊邏輯。在過去的一些產業里，確實靠資源稟賦實現了追趕。但AI算力這個賽道，本質上是一個技術密集型、資本密集型、系統密集型的產業，資源稟賦的權重被大幅稀釋了。

真正的競爭優勢來自哪里？來自對GPU核心技術的突破能力，來自對先進封裝和HBM等關鍵環節的供應鏈掌控力，來自軟件生態的長期積累，來自系統級架構的創新能力，也來自商業模式和運營效率的持續進化。

這些，沒有一樣是容易的，也沒有一樣是靠“便宜”能換來的。

過去兩三年，國內智算中心建設發展迅速，不少項目在投資思路上延續了傳統IDC的模式——以園區建設、硬件部署、算力租賃為核心。但AI算力與傳統IDC的商業邏輯存在明顯差異：GPU硬件迭代快、折舊周期短，項目收益高度依賴算力利用率。如果僅將GPU作為標準化租賃資源，缺乏底層算法優化、集群調度與運營能力，高昂的硬件投入可能難以有效轉化為持續穩定的收益，也會帶來較大的資產壓力。

好在，產業界正在回歸理性。2025年下半年以來，我們看到的是，無論是互聯網大廠還是運營商，在算力投資上都更加務實——不再是單純的“堆卡”，而是更關注實際可用的有效算力，更關注單位算力的成本，更關注軟硬協同的優化空間。

沒有捷徑可走。這句話聽起來老套，但在AI算力這個賽道上，它依然是殘酷而真實的底層邏輯。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.