![]()
每年省下5萬美元許可費,卻燒掉3個SRE各15%的工作時間——這筆賬沒人幫你算。
LinkedIn上每隔幾個月就會有人拋出那個經典問題:"X要花錢,Y開源免費,你選哪個?"
Prometheus免費。Grafana免費。Vault免費。ArgoCD免費。一切免費。
但老派開源圈有句話,新一代工程師似乎從沒聽過:"Free as in speech, not free as in beer." 理查德·斯托曼幾十年前造了這個區分,解釋"自由軟件"關乎自由:運行、研究、修改、分發代碼的自由,與價格無關。軟件是"言論自由"的免費,不是酒吧里有人請你喝免費啤酒。
但行業在某個時刻集體遺忘了這一點。我們開始把開源工具當成免費啤酒來用。下載,部署,搞定。沒賬單,沒問題。
問題在于:即便是原初的比喻,放到生產環境也不夠用了。開源基礎設施工具不是"免費啤酒",也不只是"言論自由"。它是免費的小狗。有人把這只神奇的東西零成本塞給你,它確實很棒,但你得喂它、遛它、帶它看獸醫、收拾它的爛攤子、把整個生活都圍著它轉。要是疏忽了,它會在凌晨3點撕碎你的沙發。
那個凌晨3點?是Prometheus因為基數爆炸(cardinality explosion)內存耗盡的PagerDuty告警。是你的團隊花兩個迭代搞懂Vault自動解封(auto-unseal)的集群遷移。是資深SRE把30%時間耗在伺候Grafana儀表盤上,而不是搭建開發團隊急盼的內部平臺。
我在Azure、Kubernetes和混合環境里跑開源基礎設施工具多年。我熱愛開源,我貢獻代碼,我 wholeheartedly 相信自由的那部分。但我厭倦了行業假裝"自由"意味著"成本為零"。
許可費只是賬單的第一行
當有人說"Prometheus免費",他們的意思是:"沒有許可費。"
就這些。這就是那句話的全部真相。其余一切——計算、存儲、網絡、人工小時、上下文切換、值班負擔、升級、安全補丁——都絕對不免費。
有個思維模型很有用:許可是任何生產軟件中最便宜的部分。向來如此。無論你跑商業產品還是開源產品,運營成本都碾壓標價。
開源的區別在于根本沒有標價,這讓人們 wildly 低估總成本。公司每年為托管服務付5萬美元時,那個數字活在某張電子表格里。財務看得見。領導會質疑。每年得有人為它辯護。
但當三個SRE每人每周花15%時間維護"免費"的Prometheus集群時,這筆錢隱身了。沒有行項目。沒有預算審查。成本被拆解成日歷上的會議、Slack里的線程、凌晨的告警——然后被當作"正常運營"吞掉。
我見過團隊為"省下"監控預算而歡呼,同時默默燃燒著比商業方案貴3倍的人力成本。諷刺的是:他們其實知道。每個值班工程師都知道。但沒人把數字擺到臺面上。
隱藏成本的解剖
讓我們拆開真正在燒錢的東西。
計算與存儲:你以為的"輕量"工具會膨脹
Prometheus被設計成單二進制文件、內存時序數據庫。聽起來很輕?試試在生產環境攢幾個月指標。基數爆炸不是理論問題,是每周發生的現實。一個配置失誤的label——比如把用戶ID或者請求ID塞進指標——能讓內存用量從8GB飆到80GB。
然后你得開始分片。或者換VictoriaMetrics。或者上Thanos。或者Cortex。每個方案都帶來自己的運維負擔、學習曲線和故障模式。
Grafana呢?儀表盤JSON文件存在哪里?版本怎么管?權限怎么控?突然之間你在用GitOps管儀表盤,而你的數據團隊想問為什么他們的查詢慢得像爬。
人力時間:最昂貴的隱藏行項目
這是真正傷人的地方。我見過太多團隊陷入這個循環:
第1年:部署開源工具,慶祝沒花許可費。團隊學習曲線陡峭但可控。
第2年:工具成為關鍵路徑。團隊里有一兩個人成為"那個懂X的人"。知識 silo 形成。
第3年:原團隊人員流動。"那個懂X的人"離職。剩下的人花6個月才真正理解系統怎么工作——期間生產事故頻發。
第4年:團隊終于承認需要專門的人維護這個"免費"工具。招聘啟事寫著"需要X經驗",而市場上懂X的人要么貴得離譜,要么已經被其他公司用同樣的陷阱套牢。
這個模式我見過在Vault、ArgoCD、Istio、Elasticsearch上反復上演。每次都有人驚訝:"我們以為這會很簡單。"
上下文切換:被低估的生產力殺手
更隱蔽的是對工程師注意力的征稅。當你的SRE團隊每周花數小時調試"免費"工具的 edge case,他們沒在做的事是什么?
沒在設計內部開發者平臺。沒在優化CI/CD流水線。沒在寫能預防事故的自動化。沒在 mentor 初級工程師。
這些機會成本不會出現在任何報表里。但它們決定了你的團隊是往前跑還是原地打轉。
什么時候開源工具真的劃算
我不是說別用開源。我用,而且會繼續用。但選擇需要眼睛睜大。
開源在以下情況是真·省錢:
你有獨特的需求,商業產品滿足不了。比如高度定制化的指標流水線,或者特殊的合規要求。
你的團隊已經有深度專業知識。不是"用過",是"調試過源碼、提交過PR、理解內部機制"的深度。
工具處于非關鍵路徑,或者故障影響可控。實驗性項目、內部工具、明顯可替換的組件。
你有能力并且愿意為社區貢獻,把維護成本部分轉化為公共品。
商業方案在以下情況更便宜:
工具是差異化無關的基礎設施。監控、日志、身份認證——這些是你的業務,還是你業務的支撐?
你的團隊規模小,沒有專門的SRE。三個后端工程師兼職運維"免費"Kubernetes集群,是通往 burnout 的快車道。
你需要的功能是"好用"而不是"能用"。托管方案的UI、文檔、支持工單——這些省下的時間直接轉化為 velocity。
合規和安全要求嚴格。SOC2、ISO27001、GDPR——自己搭建認證過的系統,成本遠超訂閱費。
一個更誠實的決策框架
下次有人問你"為什么不用開源的",試試這個計算:
列出接下來12個月你預期要投入的人工小時。包括學習、部署、維護、值班、升級。用你團隊 fully-loaded cost(工資+福利+overhead,通常1.5-2倍工資)換算成美元。
加上計算、存儲、網絡的直接成本。別用"大概",去云賬單里挖數字。
加上風險成本:如果這東西凌晨3點崩了,恢復時間是多少?業務損失多少?
現在對比商業方案的標價。不是"免費 vs 5萬",是"真實總成本 vs 5萬"。
我見過這個計算讓團隊沉默。也見過它讓團隊理直氣壯地選擇開源——因為算完之后,他們真的知道自己在買什么。
開源的偉大之處在于自由。你可以看代碼、改代碼、把命運握在自己手里。但自由不是無成本,它只是成本結構不同。
最危險的決策是假裝成本不存在。那個凌晨3點的告警不會配合你的預算幻想。
你的團隊上次算"免費"工具的真實賬單是什么時候?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.