![]()
凌晨3:17,PagerDuty炸了。某SaaS公司的值班工程師從床上彈起來,屏幕血紅一片——支付網(wǎng)關(guān)掛了,訂單流水正在歸零。按常理,這時候該有人沖進(jìn)Slack頻道喊"全體起床",然后一群人邊罵邊修,四小時后天亮才能收工。
但這家公司不太一樣。他們沒有"救火隊長",只有一張寫著SEV0到SEV4的表格。支付網(wǎng)關(guān)宕機(jī)自動觸發(fā)SEV0,兩分鐘內(nèi)值班工程師必須完成三件事:開橋接電話、拉指定專家進(jìn)群、宣布"我現(xiàn)在只收集信息,不做判斷"。
這套系統(tǒng)叫"結(jié)構(gòu)化應(yīng)急響應(yīng)",抄的是航空業(yè)的事故處理手冊。核心就一句話:「思考是奢侈品,執(zhí)行是必需品」。工程師被禁止在故障前30分鐘做任何根因分析,只能按清單打勾——誰看日志、誰聯(lián)系云廠商、誰準(zhǔn)備回滾。腦子越動,手越慢。
效果很粗暴。他們之前的平均修復(fù)時間是4小時,現(xiàn)在壓到40分鐘。不是人變強(qiáng)了,是把" panic time"從流程里摳掉了。創(chuàng)始人算過賬:一次SEV0如果拖到早高峰,客戶流失率會跳漲17%,這還沒算工程師 burnout 的隱性成本。
有個細(xì)節(jié)很有意思。他們的值班手機(jī)不是發(fā)給最資深的工程師,而是輪流抽簽—— senior 反而容易憑經(jīng)驗瞎猜, junior 更聽話,清單執(zhí)行得更干凈。上個月一次數(shù)據(jù)庫主從切換失敗,抽簽抽中的實習(xí)生按步驟走完,26分鐘解決。隔壁組的老兵同期遇到類似問題,邊查邊罵,修了兩個小時。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.