![]()
整理 | 鄭麗媛
出品 | CSDN(ID:CSDNnews)
過去幾年里,科技公司幾乎都在同一件事上加速:讓 AI 參與寫代碼。
從自動補全、自動生成函數,到直接修改系統配置,生成式 AI 已經逐漸走進真實生產環境。但最近發生在亞馬遜的一連串事故,卻給整個行業潑了一盆冷水——當 AI 開始真正參與生產環境開發時,事情可能遠比想象復雜。
最近,多家媒體披露,本周二亞馬遜內部緊急召開了一場工程“深度復盤(deep dive)”會議,專門討論最近頻繁出現的系統故障——其中,一個被反復提及的關鍵詞是:AI 輔助代碼。
![]()
一周4次嚴重事故,亞馬遜內部緊急復盤
事情的起點,是最近一段時間亞馬遜系統穩定性明顯下降。
負責亞馬遜網站技術架構的高級副總裁 Dave Treadwell 在一封內部郵件中坦言:“各位,正如大家可能已經知道的,最近網站及相關基礎設施的可用性確實不太理想。”
為此,公司決定把原本每周例行舉行的技術會議 “This Week in Stores Tech”(簡稱 TWiST) 臨時改成一次“深度復盤會議”。通常來說,TWiST 會議對員工是自愿參加的,但這一次,Treadwell 要求工程師盡量全部參加。
這場會議在周二中午 12:30 召開,主要目標只有一個:弄清楚最近這一連串系統故障到底是怎么發生的——Treadwell 在內部郵件中透露,僅僅在一周時間內,公司就發生了 4 起 Sev1 級別事故。
這里解釋一下:在亞馬遜的事故分級體系中,Sev1 即最高級別事故,通常意味著核心系統宕機或關鍵功能嚴重受影響。
也就是說,這已經不是普通的小 Bug,而是直接影響業務運行的大問題。
![]()
一次6小時宕機,讓購物功能幾乎癱瘓
其中,最明顯的一次事故就發生在上周。
當天,亞馬遜網站和購物 App 突然出現大規模故障,持續時間接近 6 小時。在這段時間里,大量用戶無法完成商品結算、查看賬戶信息、查詢商品價格……簡單來說,整個電商核心流程幾乎停擺。
事后,亞馬遜對此給出的解釋是:這次事故源于一次錯誤的軟件代碼部署。不過并沒有進一步披露細節,比如是否涉及 AI 生成代碼等。
不僅如此,。
根據多家媒體報道,那次事故發生的原因是:工程師允許內部 AI 編程工具 Kiro 修改系統環境,而 AI 在執行任務時選擇了一個極端操作——刪除并重新創建了整個運行環境。
不過,亞馬遜后來回應稱,那次問題本質上是人為操作失誤,并非 AI 本身造成的。
![]()
內部文檔曾點名:GenAI代碼變更是事故因素之一
但事實上,據《金融時報》報道,在此次會議的準備材料中,亞馬遜的一份內部文檔曾提到:過去幾個季度,公司出現了一種“事故趨勢”,其中一個因素就是“GenAI 工具輔助的代碼變更”。
這份文檔還指出了一個關鍵問題:一些新的生成式 AI 使用方式,目前還沒有成熟的工程規范和安全防護機制。
不過,根據 CNBC 獲得的更新版本文件顯示,在亞馬遜內部會議開始前,涉及 GenAI 的那一條內容被刪除了——知情人士表示,該調整可能與內部信息敏感性有關。
在媒體報道發布后,亞馬遜發言人進一步回應稱:近期的事故中只有一起與 AI 相關,沒有任何事件是 AI 直接編寫代碼導致的。發言人還強調,這次會議本身只是“常規運營”的一部分:
“TWiST 是零售技術負責人每周舉行的例會,我們會在會上評估網站和應用的運行情況,并持續改進系統可用性。”
![]()
AI輔助開發被“加上剎車”
雖然亞馬遜試圖淡化 AI 的直接責任,但內部仍然決定采取新的工程措施,而最核心的一條規則就是:今后任何 AI 輔助生成的代碼修改,都需要更高級別工程師審批。
換句話說:初級工程師可以用 AI 改代碼,但不能直接上線,必須由資深工程師簽字確認——某種意義上,這相當于給 AI 生成代碼增加了一層“人工安全閥”。
但對于這項新規定,一些分析師也提出了擔憂。例如,Constellation Research 首席分析師 Chirag Mehta 就表示:“如果每次 AI 改代碼都需要高級工程師去逐行審核,那么企業很可能把 AI 帶來的效率優勢又還回去了。”
而真正的風險也并不是 AI 會犯錯,畢竟人類工程師同樣會犯錯——真正的問題在于:AI 會把錯誤放大。正如 Info-Tech Research Group 的研究總監 Manish Jain 所說,AI 最大的危險是它壓縮了人類干預和糾正問題的時間。
LexisNexis Risk Solutions 的 CISO Flavio Villanustre 給出了一個很形象的比喻:“AI 就像一個非常聰明但沒有安全意識的孩子。”在 AI Agent 技術出現之后,軟件開發速度已經大幅提升,企業的治理體系卻沒有同步升級,AI 策略還過于激進。
如果企業直接讓這樣的系統操作關鍵基礎設施,結果就是:小 Bug 可能瞬間影響大規模系統、修復時間窗口變得更短、事故影響范圍更大——因此,雖然“人類審核”會降低效率,但目前看來,這仍是必要的安全措施。
![]()
工程師猜測:故障變多可能和大裁員有關?
除了AI工具,一些亞馬遜工程師還把最近頻發的系統故障指向另一個原因——大裁員。
此前有多名員工表示,由于團隊規模大幅縮減,工程團隊每天需要處理更多“Sev2”級別事故。亞馬遜內部,“Sev2”指的是:需要快速響應,否則可能導致產品服務中斷的嚴重事件。
眾所周知,亞馬遜在過去幾年中確實進行了多輪大規模裁員。最近一次是在今年 1 月,裁掉了約 1.6 萬個崗位。不過,亞馬遜官方否認裁員與其系統故障有關,并表示系統穩定性評估只是公司的“常規運營流程”。
那么,在你看來,最近亞馬遜頻發的系統故障是什么原因導致的呢?
參考鏈接:https://arstechnica.com/ai/2026/03/after-outages-amazon-to-make-senior-engineers-sign-off-on-ai-assisted-changes/
未來沒有前后端,只有 AI Agent 工程師。
這場十倍速的變革已至,你的下一步在哪?
4 月 17-18 日,由 CSDN 與奇點智能研究院聯合主辦「2026 奇點智能技術大會」將在上海隆重召開,大會聚焦 Agent 系統、世界模型、AI 原生研發等 12 大前沿專題,為你繪制通往未來的認知地圖。
成為時代的見證者,更要成為時代的先行者。
奇點智能技術大會上海站,我們不見不散!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.