(本文編譯自Electronic Design)
人工智能工作負載的算力需求正呈爆炸式增長,本能的應對思路似乎是新建更多數據中心,但這一策略的落地難度正不斷加大。除了超大型數據中心建設面臨的實際難題,電網的承載能力本就有限,就連電網接入環節也遭遇諸多阻礙。再加上新建設施的資金與環境成本,顯然,單純依靠規模擴張并非解決問題的良方。
另一種更有效的策略雖非簡單易行,卻是通過針對性的基礎設施升級,從現有場地中挖掘更多性能潛力。這類升級能夠拓展設施容量、提升運行效率并加快部署速度。
但這一過程面臨著核心挑戰:新一代圖形處理器(GPU)及其他人工智能加速器的功耗與散熱量持續攀升。這樣的跨越式增長讓傳統設計徹底過時,也迫使基礎設施建設策略發生根本性轉變。以英偉達GB200為例,其單個模塊整合了兩顆Blackwell GPU與一顆Grace CPU,功耗最高可達約2700瓦,這一數據直觀體現出下一代人工智能系統的熱負荷正以何等迅猛的速度增長。
但只要在冷卻、供電與機柜級集成方面采取科學合理的方案,數據中心運營方也可無需新建設施,就能顯著提升計算密度與整體性能。
數據中心計算密度的制約因素
傳統數據中心的設計大多無法滿足大語言模型及其他高密度人工智能工作負載的需求,在現有環境中進行算力擴容,會面臨四大關鍵挑戰:
空間限制:現有機柜布局的物理承載能力不足,無法適配當下的高密度配置方案。
供電約束:傳統配電單元與開關設備的設計初衷,并非為功率密度達60至120千瓦乃至更高的機柜供電。
冷卻低效:即便以最大風量運行,傳統風冷系統也無法散除現代人工智能處理器產生的熱負荷。
可持續發展壓力:隨著數據中心在全球電力消耗中的占比持續攀升,運營方面臨著監管機構、投資者和客戶日益嚴苛的能效提升要求。
上述每一項制約因素,都會影響數據中心的可靠性、運行時長與投資回報率。工程師和系統集成商正探尋在不中斷業務的前提下實現性能提升的方法,而在每一度電、每一平方英尺空間都至關重要的情況下,這絕非易事。
直芯片液冷技術為人工智能釋放更強算力
冷卻系統是高性能計算最直接、最突出的制約因素,風冷系統已觸及實際應用的極限。即便配備架空地板、冷熱通道隔離和優化的氣流設計,傳統風冷架構也無法匹配人工智能級芯片的散熱需求。
直芯片液冷技術應運而生,成為潛在的解決方案。該技術將冷卻液直接輸送至芯片表面,精準針對發熱點散熱,大幅提升熱傳遞效率,穩定CPU和GPU的工作溫度,同時最大限度減小會影響性能的溫度梯度。
盡管具備技術優勢,液冷技術卻常被誤解為需要對基礎設施進行大規模改造,但實際并非總是如此。
一體式閉環液冷系統能提供一種務實、漸進的實施路徑。這類系統可直接集成至標準服務器配置中,在1U機型中支持最高1200瓦功耗,2U機型中可達1500瓦及以上,且無需額外的外部管路和分配單元。運營方無需改變現有機柜布局和電力預算,僅通過大幅降低氣流需求,平均就能實現15%的能耗節省。
對于新建數據中心或大型設施升級項目,園區級液冷系統值得重點考量。該類系統單插槽可支持超3000瓦功耗,機柜算力密度最高可接近1兆瓦。
雖然管路式液冷系統需要配套更多基礎設施,單機柜占用的物理空間也可能更大,但能讓企業在現有數據中心的整體占地面積內,大幅提升計算密度。這意味著該方案無需擴建設施,就能實現人工智能工作負載的算力擴容。盡管前期投入成本更高,但其長期投資回報率頗具吸引力,算力密度更高、能耗更低,系統可靠性也能得到提升。
對于希望不新建數據中心卻實現性能最大化的企業而言,圍繞先進冷卻技術進行設計,既能大幅提升能效,也能為規模化人工智能應用打造具備未來適應性的基礎設施。
液冷技術的部署并不是非全即無的選擇。運營方可從小規模起步,部署能與現有環境無縫集成的一體式系統。通過提升芯片層面的熱傳遞效率,這類方案能釋放新的性能余量,讓現有場地內的算力密度更高、性能更優、能效更好。本質而言,液冷技術實現了在不擴大空間、不增加電力預算的前提下,提升計算密度的目標。
為兆瓦級機柜重新設計配電與供電體系
僅憑冷卻技術創新,無法解決下一代計算架構的諸多挑戰。隨著機柜密度突破120千瓦,且超大規模數據中心已將1兆瓦級機柜架構納入發展規劃,整個行業亟需從根本上重新思考供電與配電的實現方式。許多傳統數據中心仍在使用為5至15千瓦負載設計的配電單元和開關設備,與人工智能優化型基礎設施的需求愈發脫節。
這種供需錯配已成為電力供應層面的重大隱患。升級電力架構不再是可選項,而是實現算力擴容、能效提升與系統韌性的必要前提。高效配電單元、直流母線、模塊化電源架以及解耦式電源機柜平臺,正為人工智能工作負載提供更安全、更高效的供電支持。
超大規模數據中心企業正引領基礎設施解耦的變革趨勢,將電力、冷卻與IT系統拆分為模塊化、可獨立擴容的組件。以谷歌的Mt. Diablo項目為例,該項目推出了可輸出±400伏直流電的交直轉換附置電源機柜,單機柜供電能力可達1兆瓦,同時釋放出IT機柜內部的寶貴空間,用于部署計算設備。這一方案讓運營方無需擴大物理占地面積,即可提升算力密度。
如今,這一創新理念正吸引更多解決方案提供商加入生態體系。像偉創力等企業不僅是被動響應市場需求,更在主動構建未來的基礎設施架構。
智能電源管理:人工智能體系中被忽視的關鍵環節
電源的管理方式同樣至關重要。閑置容量,即因配電不均造成的能源浪費,正悄然侵蝕著運營效率。軟件定義的模塊化電源系統支持電力動態分配,確保電力精準輸送至所需之處。這一方式不僅能提升電力利用率與系統可靠性,還能降低過度配置的風險,減少不必要的資本開支。
隨著數據中心逐步采用直流配電模式,固態變壓器等技術正著力簡化電力轉換環節。這類技術有助于提高能源效率,并大幅縮減配電室的占地面。據偉創力預測,到2030年,配電室面積最多可減少90%。這能帶來兩大顯著優勢:一是在更小空間內實現同等供電容量,降低建設成本;二是在現有空間內增設更多機柜,提升計算密度。
對于系統集成商而言,核心挑戰是在不中斷業務的前提下完成部署。停機檢修不是最優解。正因如此,行業正逐步轉向熱插拔、正面維護的設計方案,讓運行中的機房能更便捷地開展設備安裝與維護工作。
機柜級集成:冷卻、供電與計算的融合核心
唯有當冷卻、供電與計算系統打破孤島式運行模式,在機柜層面協同工作,才能真正實現計算密度的提升。具有前瞻性的行業先行者不再獨立對待各子系統,而是采用一體化架構,將這些功能整合為統一的生態體系。
基于這一思路,依托開放標準打造的集成機柜能實現跨代硬件的互操作性,簡化運維工作;同時液冷設計可保障最佳的散熱性能。即便芯片的熱設計功耗持續攀升,該架構也能支撐算力的長期擴容需求。
其中最有效的實施方案之一,是部署一站式垂直集成液冷機柜解決方案,即將供電、熱管理與信息技術硬件整合為一套預先設計調試完成的一體化系統。這類方案無需進行復雜的多廠商設備集成,部署速度更快、運維流程更簡化,且責任歸屬清晰統一。
合作同樣至關重要。與能提供全套機柜級集成系統的解決方案提供商攜手,搭配匹配的冷卻、供電和計算組件,數據中心運營方可獲得單一對接窗口與標準化的保修服務。這一模式能拆解復雜的集成環節、降低實施風險、加快部署進度,讓數據中心擺脫傳統集成工作的困擾,實現更快的算力擴容。
對于系統集成商而言,這類架構創造了全新的價值增長點,可通過互操作性測試、性能驗證,以及為優化人工智能工作負載部署預集成機柜解決方案,為客戶提供專業服務。將先進的液冷技術與高效供電方案相結合,即便計算輸出持續提升,運營方也能降低整個設施的能耗;相較風冷系統,機柜級的功耗可降低數千瓦。
這些能效提升能直接轉化為單位面積更高的計算密度。當冷卻與供電系統的運行效率提升后,機柜可承載更高的功率與熱負荷,且不超出設施的承載上限。這意味著單位建筑面積能部署更多計算設備,最大化挖掘現有場地的價值,在不擴大數據中心占地面積的前提下實現性能的大幅提升。
高壓直流母線與鈦級電源進一步提高了電力轉換效率,減少廢熱產生,同時降低了后續的冷卻需求。
有限空間內的新型基礎設施布局
未來的數據中心無需擴大規模,即可滿足人工智能的算力需求,只需進行更具策略性的設計。通過針對性升級基礎設施,運營方可在現有場地內,釋放出支撐人工智能工作負載所需的計算密度與性能。
冷卻與供電是重中之重的切入點。工程師與系統集成商攜手應對這些挑戰,采用集成化、模塊化、適配液冷的設計方案,便能讓數據中心的升級與新一代計算硬件的迭代同步推進,從而為功耗日益攀升的人工智能解決方案提供可靠支撐。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.