網易首頁 > 網易號 > 正文申請入駐

微軟工程師踩坑70次后，把AI系統崩潰做成了自動修復

2026-03-25 14:54:10　來源: 算力游俠

北京舉報

分享至

35,000次重啟。不是壓力測試數據，是生產環境真實的PM2日志。一個負責安全掃描的AI代理進程，在Windows服務器上陷入死循環：發現危險代碼→報錯崩潰→自動重啟→再次掃描同一文件→再次崩潰。

這是「AI System Guardian」誕生的起點。一支團隊用11輪調試、70+個生產級Bug的代價，打磨出一套自愈合監控守護程序。他們的經驗值得任何做多代理系統的人抄作業。

編碼陷阱：一行默認值引發的萬次崩潰

第一個35,000次重啟的罪魁禍首，藏在Python的subprocess.run()默認行為里。Windows系統編碼默認是CP-950（繁體中文），當子進程輸出無法編碼的字符時，UnicodeEncodeError直接殺死進程。

PM2的自動重啟機制在這里成了幫兇。崩潰→重啟→遇到同樣輸出→再崩潰。團隊花了大量時間才定位到，修復只需要一行參數：

encoding="utf-8", errors="replace"

這行代碼被寫進Guardian的第一條規則：PM2重啟異常檢測。任何進程50次重啟內必須觸發告警，而不是讓日志默默堆積到五位數。

同步地獄：雙向橋接的無限回聲

paperclip_matrix_bridge進程的4,000次重啟暴露了更隱蔽的設計缺陷。這個組件負責兩個系統間的任務雙向同步：Matrix到Paperclip，再反向同步狀態更新。

問題出在事件監聽機制。任務A從Matrix同步到Paperclip，觸發Paperclip的變更事件，事件處理器又將它同步回Matrix，Matrix再次觸發變更——無限循環就此形成。CPU被徹底吃光。

解決方案是給每次同步操作打上「血統標簽」。如果任務的_sync_source字段顯示最后一次修改來自橋接器本身，直接跳過。代碼只有三行，但定位問題花了整整兩天。

Guardian為此增加了振蕩模式識別：任何進程在冷卻期內頻繁切換「online」和「errored」狀態，立即人工介入。

錯誤處理悖論：掃描器的自我毀滅

安全掃描器的35,000次重啟則是一個經典錯誤處理反例。當掃描器發現危險模式（如eval()調用）時，它拋出RuntimeError——但從未將問題文件移出掃描路徑。

結果可預見：重啟后掃描同一文件，發現同一問題，再次崩潰。這個設計本意是保護系統，實際卻成了最穩定的崩潰源。

修復邏輯很簡單：發現危險代碼→立即隔離文件→記錄審計日志→繼續掃描其他文件。但Guardian從這里學到了一個更深層的教訓：生產系統的錯誤處理必須包含「狀態重置」機制，否則重啟只是延遲下一次崩潰。

從滅火到防火：Guardian的架構設計

經歷這些事件后，團隊把救火經驗固化為三層防御體系。第一層是實時監控，用PM2的編程接口持續拉取進程狀態，計算重啟頻率、內存曲線、CPU占用模式。

第二層是模式匹配。Guardian內置了常見故障的特征庫：編碼崩潰、同步循環、內存泄漏、僵尸進程。每種模式對應特定的診斷邏輯和修復建議，而非盲目重啟。

第三層是人工兜底。當自動修復失敗或故障模式超出已知范圍，Guardian生成結構化的「戰報」推送到Discord，包含時間線、相關日志片段、建議檢查點。團隊保留了一個Cursor IDE集成入口，用于緊急代碼任務。

這套系統的核心假設是：多代理AI系統的故障從來不是單點問題，而是組件間交互的涌現現象。監控工具必須理解業務語義，而不能停留在進程存活檢測。

團隊公開的數據中，一個細節很有意思：70+個Bug里，超過60%發生在組件邊界——橋接器、編排器、狀態同步層。純代理內部邏輯反而相對穩定。這印證了分布式系統的一句老話：故障喜歡躲在接口里。

Guardian現在跑在同一臺Windows機器上，和四個核心代理進程、Dashboard后端、Discord機器人共處。它的自愈合能力也有邊界——當自身進程異常時，依賴PM2的外部重啟。團隊考慮過雙守護進程互檢，但覺得過度設計。

他們的最后一個待解問題是：如果Guardian的告警邏輯本身有Bug，誰來守護Guardian？目前答案是「人」。每周一次的日志審計，人工抽查10%的自動修復決策。

這個折中方案能撐多久？團隊沒有給出預測。他們只是把問題寫進了Guardian的Roadmap，優先級P2。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

3月25日（報道時間），河南。孩子想到馬路對面找爸爸，一路"疾跑"奔向馬路對面險釀悲劇，媽媽擔心孩子

中安在線 2026-03-25 11:55:16
1269 跟貼 1269
日本被指多年搞反華教育

北京日報 2026-03-25 09:16:49
78834 跟貼 78834

“上海實體交通卡，為啥退不了？”73歲老伯來滬遭遇引發質疑，記者調查：確實難

新民晚報 2026-03-25 18:45:33
145 跟貼 145

德總統稱"對美信任已然喪失" 得到法國軍方強烈共鳴

紅星新聞 2026-03-25 13:54:18
386 跟貼 386
日本自衛隊現役軍官攜刀強闖中使館中國軍號連續發聲

看看新聞Knews 2026-03-25 17:33:25
1538 跟貼 1538

于東來：我從30歲開始吃藥拍CT上百次哪天說沒就沒了

新聞晨報 2026-03-25 21:24:37
2776 跟貼 2776

接住那個想找工作的“自閉”年輕人

新京報 2026-03-25 08:41:11
298 跟貼 298
患者的住院檢查報告竟是偽造的，中山五院致歉，珠海市衛健局：全面排查醫療機構外送檢查報告

極目新聞 2026-03-25 17:53:18
961 跟貼 961

女子稱找高鐵乘務員投訴一名男子在列車口抽煙，被發了一個口罩，當事人：乘務員的態度很好，但自己對這種情況無語，希望高鐵全面禁煙

洪觀新聞 2026-03-25 14:56:54
4924 跟貼 4924
歐爾班拒絕同意歐盟向烏提供900億歐元貸款，美方回應

環球網資訊 2026-03-25 11:26:19
629 跟貼 629
10元/斤，最近這一口“鮮貨”正肥！杭州一攤主：一天上百斤不夠賣

環球網資訊 2026-03-25 13:22:33
408 跟貼 408
湖南省政府與比亞迪舉行工作會談

財聯社 2026-03-25 13:30:21
35 跟貼 35
上海迪士尼上新70元“包子套餐”，網友怒了：離譜

大象新聞 2026-03-24 13:53:02
327 跟貼 327
黃天鵝就雞蛋角黃素抽檢結果發布聲明，三地監管部門抽檢結果反饋，雞蛋未檢出角黃素

每日經濟新聞 2026-03-25 18:11:54
1012 跟貼 1012
中遠海運恢復海灣國家訂艙船舶暫不過霍爾木茲海峽

財聯社 2026-03-25 20:20:04
4145 跟貼 4145
男子在樹下蕩繩子玩，結果樂極生悲掉水里了

南陽日報 2026-03-25 20:24:01
73 跟貼 73
重回1400元品牌金飾克價一夜大漲近70元

第一財經資訊 2026-03-25 12:01:52
320 跟貼 320
教育部：通過“曬課表”確保“課間15分鐘”等落實到位

中國青年報 2026-03-26 07:09:18
1 跟貼 1
事關幼兒園食品安全官方征求意見

界面新聞 2026-03-25 15:00:16
117 跟貼 117
熱搜上63萬人破防的“奧特曼蛋糕”事件：有毒父母，逼瘋中國孩子

番外行 2026-03-26 08:10:35
0 跟貼 0
高三學生被鄰居駕車撞死媽媽重回現場洗刷血跡

看看新聞Knews 2026-03-26 08:17:03
0 跟貼 0
“速效救心丸”搜索激增！經銷商回應

每日經濟新聞 2026-03-26 08:17:22
0 跟貼 0
高三學生被鄰居駕車撞死生前房間始終保持原樣

看看新聞Knews 2026-03-26 08:17:06
0 跟貼 0
我國成功發射四維高景二號05、06星

新京報 2026-03-26 07:41:09
0 跟貼 0

手機 / 數碼

房產 / 家居

微軟工程師踩坑70次后，把AI系統崩潰做成了自動修復

編碼陷阱：一行默認值引發的萬次崩潰

同步地獄：雙向橋接的無限回聲

錯誤處理悖論：掃描器的自我毀滅

從滅火到防火：Guardian的架構設計

紅極一時卻草草收場，Sora宣布正式關停

伊朗軍方稱擊落美軍F-18戰機 現場畫面披露

伊朗軍方稱擊落美軍F-18戰機 現場畫面披露

35歲替補門將，憑什么入選英格蘭隊？

張雪峰遺產分割復雜！是否立遺囑成關鍵

管濤:中東局勢如何影響人民幣匯率走勢?

智己LS8放大招 30萬內8系旗艦+全線控底盤秀實力

態度原創

啊?GameStop推叛逃套餐:用PS5換Xbox 倒貼你69刀

中考數學，幾何求面積，學霸的方法想不到

來永泰同安 赴一場春天的約會

風?吹?麥?浪?正出片！

原來唐朝貴婦的生活，比我們還會享受！

伊朗軍方稱擊落美軍F-18戰機現場畫面披露

伊朗軍方稱擊落美軍F-18戰機現場畫面披露

來永泰同安赴一場春天的約會