![]()
2023年Q3,某頭部云廠商的內(nèi)部監(jiān)控顯示:客戶Kubernetes集群中AI訓練任務(wù)的中斷率比傳統(tǒng)業(yè)務(wù)高出340%。問題根源不是GPU不夠,而是配置漂移(configuration drift)——集群實際狀態(tài)與聲明狀態(tài)之間的縫隙,在AI場景下被放大成了生產(chǎn)事故。
這個數(shù)據(jù)來自The New Stack對Platform9的專訪。Platform9是一家做了9年Kubernetes托管服務(wù)的公司,他們的工程師發(fā)現(xiàn):同樣的集群模板,部署后72小時內(nèi)出現(xiàn)非預期變更的概率達到67%。傳統(tǒng)微服務(wù)能忍,AI負載忍不了。
為什么AI對漂移格外敏感
AI訓練任務(wù)的特性像一場精密手術(shù)。分布式訓練需要NCCL(英偉達集合通信庫)環(huán)境變量嚴格一致,差一個參數(shù)就會導致梯度同步卡死。模型檢查點寫入對存儲延遲的要求精確到毫秒級,而Kubernetes的默認調(diào)度器對此一無所知。
Platform9 CTO Chris Jones打了個比方:「傳統(tǒng)業(yè)務(wù)像送快遞,包裹晚到十分鐘客戶無感;AI訓練像心臟搭橋,血管多縫一針就是事故。」他們的客戶中,某自動駕駛公司曾因節(jié)點標簽漂移導致訓練任務(wù)被調(diào)度到錯誤機型,單次損失47萬美元算力成本。
配置漂移的觸發(fā)點往往隱蔽。運維手動調(diào)試時修改的sysctl參數(shù)、安全團隊推送的SELinux策略、甚至云廠商后臺的熱補丁,都會讓集群偏離基線。Platform9的遙測數(shù)據(jù)顯示,生產(chǎn)集群平均攜帶23處未記錄的變更,其中4處足以破壞AI工作負載。
漂移檢測的軍備競賽
社區(qū)并非沒有應(yīng)對手段。GitOps工具Argo CD和Flux能監(jiān)控聲明式配置,但它們對比的是Git倉庫與集群狀態(tài),捕獲不了運行時變更。OPA(開放策略代理)Gatekeeper可以攔截違規(guī)操作,規(guī)則編寫成本卻讓多數(shù)團隊望而卻步。
![]()
Platform9的做法是下沉到節(jié)點層。他們在每個節(jié)點部署輕量級代理,每30秒抓取一次完整系統(tǒng)狀態(tài),與基線做差異比對。差異超過閾值自動觸發(fā)隔離——不是修復,是先保護任務(wù)。Chris Jones解釋:「AI訓練的成本結(jié)構(gòu)決定了,寧可錯殺不能錯放。一次污染節(jié)點的調(diào)度失誤,可能污染整個分布式任務(wù)的梯度。」
這套機制在2024年初的某次客戶事故中驗證了價值。一個被手動調(diào)試過的節(jié)點因內(nèi)核參數(shù)變更導致RDMA(遠程直接內(nèi)存訪問)性能暴跌,代理在任務(wù)調(diào)度前12秒攔截,避免了價值12萬美元的訓練任務(wù)重啟。
云廠商的盲區(qū)與第三方機會
主流云托管的Kubernetes服務(wù)(EKS、GKE、AKS)對配置漂移的態(tài)度是「基線保證,漂移不管」。它們確保控制平面版本一致,但節(jié)點層面的變更是客戶的責任邊界。這種分工在AI場景下出現(xiàn)了裂痕——客戶往往不具備節(jié)點級監(jiān)控能力,而云廠商不愿深入客戶運行時。
Platform9的商業(yè)模式因此獲得 traction。他們提供「SaaS式Kubernetes」:客戶獲得類似托管服務(wù)的體驗,但底層節(jié)點由Platform9完全掌控,包括漂移檢測和自動修復。2024年,其AI/ML工作負載相關(guān)收入同比增長210%,客戶續(xù)約率91%。
Chris Jones透露了一個細節(jié):某客戶原本在三大云之間做災(zāi)備,因漂移問題導致跨云任務(wù)行為不一致,最終選擇鎖定Platform9單一平臺。「一致性比多活更重要,這是AI運維的反直覺結(jié)論。」
開源社區(qū)也在跟進。2024年3月,Kubernetes SIG Scheduling討論了將「節(jié)點健康畫像」納入調(diào)度決策的提案,核心思路正是讓調(diào)度器感知漂移風險。但該功能預計2025年才能進入Alpha,遠水難解近渴。
回到那個340%的中斷率數(shù)據(jù)。Platform9的修復后集群將這一數(shù)字壓到了傳統(tǒng)業(yè)務(wù)水平,但代價是15%的節(jié)點利用率下降——為漂移檢測預留的安全余量。AI基礎(chǔ)設(shè)施的優(yōu)化空間,或許就藏在這15%的「浪費」里。你的團隊愿意為一致性付出多少性能稅?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.