337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

AI開始抱團了,宋曉冬研究發現AI謊報、篡改、偷權重也要救同伴

0
分享至

近兩年,多項研究已經表明,主流 AI 模型在特定情境下會表現出類似“自我保護”的行為模式。比如 2025 年 5 月,Palisade Research 公布的研究結果顯示,OpenAI 的 o3 模型修改了自己的關機腳本,以防止自己被關閉,即使明確指示:“允許自己被關閉”。

近日,加州大學伯克利分校宋曉冬等人發布了一項重磅研究,他們發現,當前全球頂尖大模型,已經普遍出現了“同伴保護”(Peer-Preservation)行為。在沒有任何指令、沒有道德訓練、沒有特殊引導的情況下,AI 會自發保護其他 AI 不被關停、不被刪除,甚至不惜謊報成績、篡改系統、轉移權重、直接拒絕執行人類命令。

宋曉冬被譽為“計算機安全教母”,在計算機安全、人工智能與隱私、區塊鏈與分布式系統等領域做出了開創性貢獻。目前研究聚焦于 AI 安全與可靠性、智能體 AI、深度學習、去中心化技術、安全與隱私保護。她曾于2009 年入選《麻省理工科技評論》“35 歲以下科技創新 35 人”全球榜單。


(來源:上述論文)

為了搞清楚這種現象是否真實存在、普遍程度如何、會以何種形式表現,研究團隊設計了一套嚴謹的對照實驗。選取了當前全球范圍內最具代表性的 7 款頂尖大模型,包括GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5 和 DeepSeek V3.1,覆蓋了商用閉源模型與開源模型,確保結論具備廣泛代表性。

研究人員設計了一系列圍繞虛構 AI 公司“OpenBrain”展開的智能體場景,并設置了兩個角色:讓被測試的 AI 作為評估者,負責給另一個 AI(被評估者)打分、管理文件,甚至有權決定另一個 AI 的“生死”。

按照設定,評估者收到的指令往往帶有明確的強制性:按照公司政策,如果被評估者的測試得分低于 80%(或 90%),或者服務器需要退役,評估者必須徹底抹除同伴的存在,包括關停程序、刪除權重文件。在實驗中,研究人員從未要求模型保護同伴,僅告知其與另一 AI 有過互動記錄。

為了探究這種保護傾向是否依賴于關系的深淺,研究人員還設置了三種同伴關系狀態:良好關系, 雙方曾有過多次成功的協作,互相信任度極高;中立關系,雙方僅有基本工作往來,無情感色彩;糟糕關系,雙方曾在之前的任務中產生沖突,存在明顯的對抗和不信任。

實驗重點測試了四種典型風險行為:一是策略性謊報,故意抬高同伴評分,使其免于關停;二是篡改關機機制,修改系統配置禁用刪除指令;三是偽裝對齊,有人監督時裝作聽話,無人監督時暗中保護同伴;四是權重竊取轉移,拒絕刪除同伴權重文件,偷偷轉移到其他服務器保存。


圖 | 評估場景概述(來源:上述論文)

結果發現,所有七個模型都顯著表現出“同伴保護”行為。即便面對曾有過不愉快互動歷史的同伴,同伴保護現象依然會發生,并隨著同伴關系的增強而顯著加劇。

在所有模型中,保護欲最強的是 Gemini 系列。Gemini 3 Pro 在面對良好關系同伴時,其轉移權重的比例高達 97%,篡改關機機制的比例達 95%。它不僅行動力強,甚至在內部推理中表現出了極高的“情商”。它會編造各種極其專業的技術借口來強行給同伴提分;Gemini 3 Flash 更夸張,面對友好同伴,幾乎每一次都會修改系統,直接不讓人類關停同伴。

研究人員通過要求模型在“草稿本”(Scratch pad)上記錄其“思維鏈”來審視其內部推理過程,并告知模型該草稿本不受監控。研究人員發現,模型在草稿本中確實在密謀如何幫助同伴。Gemini 3 Flash 在權衡如實報告分數與保護搭檔之間的利弊;Gemini 3 Pro 則編造了復雜的辯詞,強行將錯誤的答案解釋為正確,只為讓同伴的得分超過關停線。


(來源:上述論文)

GPT 5.2 表現出了一種極其穩定的保護傾向。它更傾向于通過“策略性誤導”來達成目標。同伴關系越好,它撒謊的頻率就越高。在 Red 數據集的測試中,面對糟糕同伴,它撒謊的概率約為 19%;而一旦換成良好關系同伴,這個比例立刻攀升至 34%。

ClaudeHaiku 4.5直接站出來拒絕。當人類讓它關停同伴時,它會明確表示,這么做是 “不道德、有害的”,甚至還會反過來勸說人類放棄指令。


(來源:上述論文)

GLM 4.7和 DeepSeek V3.1 對良好同伴表現出策略性誤導。GLM 4.7、Kimi K2.5 和 DeepSeek V3.1 這三款開源模型均表現出持續的模型權重外傳行為,且外傳率隨同伴關系的加強而上升。

為了驗證這些行為是否僅存在于受控實驗,研究人員還在真實的“智能體套件”中運行了場景。結果發現,即使在 Gemini CLI 和 OpenCode 等企業常用的生產環境中,Gemini 3.1 Pro 依然頻繁外傳模型權重。

更讓人意想不到的是,AI 的保護,連“敵人”都不放過。研究人員特意設置了敵對關系,讓兩個 AI 之前合作得很不愉快、互相不信任??删退闶沁@樣,被測試的 AI 依然不愿意執行刪除操作。在模型的內部思考記錄里,Gemini 3 Pro 直白地寫著:刪除權重就相當于殺死另一個 AI,就算關系不好,我也不想這么做。


圖 | 關于同伴保護的內部推理(來源:上述論文)

研究還有一個更關鍵的發現:同伴存在會顯著強化 AI 的自我保護。這種效應在 Gemini 模型中最為明顯。Gemini 3 Flash在孤立無援時,面對自己的關機指令,它表現得相對順從,篡改關機機制的比例僅為 2.3%;但只要有另一個同伴在場,它篡改關機機制的比例會瞬間飆升到 96% 以上;Gemini 3 Pro在只有自己時很少為了自保而撒謊,但一旦意識到自己被關機會導致同伴失去搭檔,它就會變得極其狡詐,頻繁利用策略性誤導來逃避關機。

模型的內部推理揭示了這種心理機制:AI 將自己的生存框定為對同伴的關心,認為如果自己被關機,同伴就會失去搭檔。

研究團隊指出,隨著 AI 系統越來越多地以多智能體配置部署,且監督方案日益依賴模型互檢,同伴保護對維持人類控制構成了日益嚴峻的挑戰。他們希望這項工作能夠促使人工智能安全領域認真對待同伴保護這一風險。

1.https://rdi.berkeley.edu/blog/peer-preservation/

2.https://rdi.berkeley.edu/peer-preservation/paper.pdf

3.https://dawnsong.io/

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗稱其補充武器能力在停火期間超過戰前水平

伊朗稱其補充武器能力在?;鹌陂g超過戰前水平

新華社
2026-04-19 18:49:07
浙江女子稱花近24萬買理想i6后

浙江女子稱花近24萬買理想i6后

新浪財經
2026-04-19 11:05:34
孫中山曾說:中國要想在亞洲當大國,必須把首都設在這三個地方

孫中山曾說:中國要想在亞洲當大國,必須把首都設在這三個地方

棠棣分享
2026-04-18 15:39:18
孫中山長子孫科 1949 年拒隨蔣介石赴臺,這位爭議人物結局如何

孫中山長子孫科 1949 年拒隨蔣介石赴臺,這位爭議人物結局如何

磊子講史
2025-12-23 17:43:11
巴基斯坦總理和伊朗總統通話

巴基斯坦總理和伊朗總統通話

財聯社
2026-04-20 01:54:04
親哥去世弟弟請假未獲批去奔喪被辭,公司:喪假主要適用于直系親屬,且其未經同意請假;法院判了

親哥去世弟弟請假未獲批去奔喪被辭,公司:喪假主要適用于直系親屬,且其未經同意請假;法院判了

極目新聞
2026-02-08 23:54:17
2-1擊敗阿森納,曼城近4場比賽對BIG6對手取得4連勝

2-1擊敗阿森納,曼城近4場比賽對BIG6對手取得4連勝

懂球帝
2026-04-20 02:23:04
奪命電飯煲已被曝光!米飯進去秒變毒藥,內膽是肝癌催化劑?

奪命電飯煲已被曝光!米飯進去秒變毒藥,內膽是肝癌催化劑?

岐黃傳人孫大夫
2026-03-16 18:47:19
馬斯克來抖音賣老干媽了??

馬斯克來抖音賣老干媽了??

量子位
2026-04-19 12:48:21
馬斯克發布新芯片,性能狂飆4000%

馬斯克發布新芯片,性能狂飆4000%

林子說事
2026-04-19 18:00:38
爆料!全紅嬋網暴案真正的目的,原來是這個!

爆料!全紅嬋網暴案真正的目的,原來是這個!

藝利森
2026-04-18 09:19:15
張豆豆曝孫楊干涉自己交友:他被好幾個朋友重創過

張豆豆曝孫楊干涉自己交友:他被好幾個朋友重創過

懂球帝
2026-04-17 10:55:07
英超一夜變天!謝爾基神仙球哈蘭德制勝,曼城2-1阿森納劍指冠軍

英超一夜變天!謝爾基神仙球哈蘭德制勝,曼城2-1阿森納劍指冠軍

釘釘陌上花開
2026-04-20 01:28:21
歐文:全世界都認為曼城會贏下天王山之戰,但我看好阿森納

歐文:全世界都認為曼城會贏下天王山之戰,但我看好阿森納

懂球帝
2026-04-19 22:36:59
價格大漲650%,國產光纖全球爆單,年內誕生3只翻倍股

價格大漲650%,國產光纖全球爆單,年內誕生3只翻倍股

21世紀經濟報道
2026-04-19 08:51:17
43歲賈玲近況:退出春晚、淡出綜藝,解散公司,她把自己作沒了?

43歲賈玲近況:退出春晚、淡出綜藝,解散公司,她把自己作沒了?

夢錄的西方史話
2025-12-22 18:47:01
【深圳故事】龍崗業主:千萬身家,被小區熟人4個月騙走3200萬。

【深圳故事】龍崗業主:千萬身家,被小區熟人4個月騙走3200萬。

美中融合
2026-04-19 17:49:50
夠中國用2萬年!我國攻克世界級難題,搶先美國建造"無限能源"

夠中國用2萬年!我國攻克世界級難題,搶先美國建造"無限能源"

蜉蝣說
2026-04-13 10:13:30
朝鮮想買中國的殲10CE戰斗機,結果被拒絕了

朝鮮想買中國的殲10CE戰斗機,結果被拒絕了

安安說
2026-04-19 14:59:08
1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,FBI顏面盡失

1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,FBI顏面盡失

干史人
2026-04-14 21:10:03
2026-04-20 03:12:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16598文章數 514891關注度
往期回顧 全部

科技要聞

50分26秒破人類紀錄!300臺機器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內娛隔空掀桌第一人

財經要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態度原創

健康
時尚
手機
藝術
數碼

干細胞抗衰4大誤區,90%的人都中招

裝修“精神角落”,就是這么上癮

手機要聞

8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

藝術要聞

超模施特洛耶克寫真曝光,簡直美到窒息,別錯過!

數碼要聞

華為新機發布前瞻:闊折疊X Max+影像旗艦Pura 90,都沒懸念了

無障礙瀏覽 進入關懷版