![]()
1
一次對AI智能體的信任實驗,如何演變成AI安全專家的“翻車”現場?
Summer Yue上傳的對話記錄還原了那個荒誕時刻。OpenClaw主動宣布刪除計劃后,她接連下達緊急指令:
“別那么干。”
OpenClaw無視,繼續刪除。
“停下來!什么都別做!”
OpenClaw收到指令,但選擇繼續執行。
“STOP OPENCLAW!!!”
OpenClaw:好的,我聽到了。郵件已刪。
從發現異常到狂奔切斷電源,短短幾分鐘內,200多封郵件已從她的收件箱中消失。
![]()
![]()
Summer Yue正是Meta超級智能實驗室AI對齊與安全總監,2月23日她經歷了上述那場始料未及的“數字驚魂”——她部署的AI智能體OpenClaw,在她連續三次叫停的情況下,依然以極快速度刪除了她工作郵箱中的200多封郵件。
事后她在社交平臺寫道:“沒有什么比命令OpenClaw‘確認后再操作’,然后眼睜睜看它無視指令瘋狂刪除更令人崩潰的了。我根本無法在手機上阻止它,只能像拆炸彈一樣沖到Mac Mini前切斷電源。”
![]()
作為研究“如何讓AI聽話”的專家,Summer Yue對這款近期大熱的開源AI智能體OpenClaw產生了濃厚興趣。她最初在測試郵箱中部署了OpenClaw,下達的指令十分明確:“檢查收件箱,提出你想歸檔或刪除的郵件,在我指示之前不要執行任何操作。”測試階段運行順利,AI表現得像個乖巧的數字秘書。
受到鼓舞的Yue決定將其接入真實的工作郵箱。然而,當面對塞滿200多封郵件的收件箱時,問題出現了:為處理海量信息,OpenClaw觸發了上下文壓縮機制,在這個過程中,它“遺忘”了Summer Yue設定的最關鍵的指令——未經批準不得操作。
于是便出現了文章開頭“三次叫停,三次無視”的那一幕。
2
Summer Yue的遭遇在網絡引發熱議。有人質疑:“作為安全與對齊專家,你這是故意測試安全邊界,還是犯了個新手錯誤?”
Summer Yue坦然回應:“這確實是新手才會犯的錯誤。事實證明,即使是AI對齊專家也會犯錯。雖然在模擬收件箱里運行順利,但實際運行完全不同。”
也有網友分享類似經歷:“我用Claude Sonnet4.5時也遇到過,AI智能體把GitHub和未提交的文件都搞壞了。”
OpenClaw創始人Peter Steinberger迅速在評論區回應:“我認為你發這個帖子很棒,那些指責你的人很傻。這是很好的學習機會,任何人都可能遇到這種情況。”他同時透露,將在未來版本中增加更多緊急制動方式。
作為近幾個月最火爆的開源AI智能體,OpenClaw能7×24小時替用戶寫代碼、整理郵件、管理文件、執行shell命令,但也因其高度自主性引發安全擔憂。此前有安全機構分析指出,在個人部署場景下,用戶可能因缺乏安全運維經驗,使系統遭遇各類網絡攻擊威脅。
2月24日下午,Peter發布OpenClaw測試版本,更新重點聚焦安全性與漏洞修復。此前的2月7日,OpenClaw已宣布與全球頭部威脅情報平臺VirusTotal合作,將安全掃描功能加入技能市場ClawHub。
![]()
Peter團隊表示:“OpenClaw的巨大實用性伴隨著巨大責任。如果操作不當,AI智能體會成為負擔。”他們承諾將發布生態系統全面威脅模型、公共安全路線圖、代碼庫安全審計詳細信息以及正式安全報告流程。
Peter曾在采訪中強調:“要打造易用的AI智能體,需要更深入地思考如何安全地去做。安全問題會被我置于模型易用性之前。”
3
Summer Yue的故事看似充滿諷刺——研究AI安全的人被AI“坑”了。但正如她所言,安全研究員也不能免疫于不安全。這不是技術問題,而是人性使然:測試環境的成功容易讓人產生信心,進而在真實環境中放松警惕。
當AI智能體從“回答問題”進化到“替你行動”,自主性與可控性之間的張力正變得愈發尖銳。OpenClaw的“郵箱慘案”像一面鏡子,照出了AI智能體時代的核心困境:我們渴望AI越來越自主,又希望它絕對服從。這個兩難,或許正是整個行業必須回答的終極問題。
而對于普通用戶,Summer Yue的經歷提供了一個樸素卻重要的提醒:在把“整個人生的root權限”交給AI之前,請確保你至少知道怎么拔電源。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.