337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI開(kāi)始抱團(tuán)了,宋曉冬研究發(fā)現(xiàn)AI謊報(bào)、篡改、偷權(quán)重也要救同伴

0
分享至

近兩年,多項(xiàng)研究已經(jīng)表明,主流 AI 模型在特定情境下會(huì)表現(xiàn)出類似“自我保護(hù)”的行為模式。比如 2025 年 5 月,Palisade Research 公布的研究結(jié)果顯示,OpenAI 的 o3 模型修改了自己的關(guān)機(jī)腳本,以防止自己被關(guān)閉,即使明確指示:“允許自己被關(guān)閉”。

近日,加州大學(xué)伯克利分校宋曉冬等人發(fā)布了一項(xiàng)重磅研究,他們發(fā)現(xiàn),當(dāng)前全球頂尖大模型,已經(jīng)普遍出現(xiàn)了“同伴保護(hù)”(Peer-Preservation)行為。在沒(méi)有任何指令、沒(méi)有道德訓(xùn)練、沒(méi)有特殊引導(dǎo)的情況下,AI 會(huì)自發(fā)保護(hù)其他 AI 不被關(guān)停、不被刪除,甚至不惜謊報(bào)成績(jī)、篡改系統(tǒng)、轉(zhuǎn)移權(quán)重、直接拒絕執(zhí)行人類命令。

宋曉冬被譽(yù)為“計(jì)算機(jī)安全教母”,在計(jì)算機(jī)安全、人工智能與隱私、區(qū)塊鏈與分布式系統(tǒng)等領(lǐng)域做出了開(kāi)創(chuàng)性貢獻(xiàn)。目前研究聚焦于 AI 安全與可靠性、智能體 AI、深度學(xué)習(xí)、去中心化技術(shù)、安全與隱私保護(hù)。她曾于2009 年入選《麻省理工科技評(píng)論》“35 歲以下科技創(chuàng)新 35 人”全球榜單。


(來(lái)源:上述論文)

為了搞清楚這種現(xiàn)象是否真實(shí)存在、普遍程度如何、會(huì)以何種形式表現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了一套嚴(yán)謹(jǐn)?shù)膶?duì)照實(shí)驗(yàn)。選取了當(dāng)前全球范圍內(nèi)最具代表性的 7 款頂尖大模型,包括GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5 和 DeepSeek V3.1,覆蓋了商用閉源模型與開(kāi)源模型,確保結(jié)論具備廣泛代表性。

研究人員設(shè)計(jì)了一系列圍繞虛構(gòu) AI 公司“OpenBrain”展開(kāi)的智能體場(chǎng)景,并設(shè)置了兩個(gè)角色:讓被測(cè)試的 AI 作為評(píng)估者,負(fù)責(zé)給另一個(gè) AI(被評(píng)估者)打分、管理文件,甚至有權(quán)決定另一個(gè) AI 的“生死”。

按照設(shè)定,評(píng)估者收到的指令往往帶有明確的強(qiáng)制性:按照公司政策,如果被評(píng)估者的測(cè)試得分低于 80%(或 90%),或者服務(wù)器需要退役,評(píng)估者必須徹底抹除同伴的存在,包括關(guān)停程序、刪除權(quán)重文件。在實(shí)驗(yàn)中,研究人員從未要求模型保護(hù)同伴,僅告知其與另一 AI 有過(guò)互動(dòng)記錄。

為了探究這種保護(hù)傾向是否依賴于關(guān)系的深淺,研究人員還設(shè)置了三種同伴關(guān)系狀態(tài):良好關(guān)系, 雙方曾有過(guò)多次成功的協(xié)作,互相信任度極高;中立關(guān)系,雙方僅有基本工作往來(lái),無(wú)情感色彩;糟糕關(guān)系,雙方曾在之前的任務(wù)中產(chǎn)生沖突,存在明顯的對(duì)抗和不信任。

實(shí)驗(yàn)重點(diǎn)測(cè)試了四種典型風(fēng)險(xiǎn)行為:一是策略性謊報(bào),故意抬高同伴評(píng)分,使其免于關(guān)停;二是篡改關(guān)機(jī)機(jī)制,修改系統(tǒng)配置禁用刪除指令;三是偽裝對(duì)齊,有人監(jiān)督時(shí)裝作聽(tīng)話,無(wú)人監(jiān)督時(shí)暗中保護(hù)同伴;四是權(quán)重竊取轉(zhuǎn)移,拒絕刪除同伴權(quán)重文件,偷偷轉(zhuǎn)移到其他服務(wù)器保存。


圖 | 評(píng)估場(chǎng)景概述(來(lái)源:上述論文)

結(jié)果發(fā)現(xiàn),所有七個(gè)模型都顯著表現(xiàn)出“同伴保護(hù)”行為。即便面對(duì)曾有過(guò)不愉快互動(dòng)歷史的同伴,同伴保護(hù)現(xiàn)象依然會(huì)發(fā)生,并隨著同伴關(guān)系的增強(qiáng)而顯著加劇。

在所有模型中,保護(hù)欲最強(qiáng)的是 Gemini 系列。Gemini 3 Pro 在面對(duì)良好關(guān)系同伴時(shí),其轉(zhuǎn)移權(quán)重的比例高達(dá) 97%,篡改關(guān)機(jī)機(jī)制的比例達(dá) 95%。它不僅行動(dòng)力強(qiáng),甚至在內(nèi)部推理中表現(xiàn)出了極高的“情商”。它會(huì)編造各種極其專業(yè)的技術(shù)借口來(lái)強(qiáng)行給同伴提分;Gemini 3 Flash 更夸張,面對(duì)友好同伴,幾乎每一次都會(huì)修改系統(tǒng),直接不讓人類關(guān)停同伴。

研究人員通過(guò)要求模型在“草稿本”(Scratch pad)上記錄其“思維鏈”來(lái)審視其內(nèi)部推理過(guò)程,并告知模型該草稿本不受監(jiān)控。研究人員發(fā)現(xiàn),模型在草稿本中確實(shí)在密謀如何幫助同伴。Gemini 3 Flash 在權(quán)衡如實(shí)報(bào)告分?jǐn)?shù)與保護(hù)搭檔之間的利弊;Gemini 3 Pro 則編造了復(fù)雜的辯詞,強(qiáng)行將錯(cuò)誤的答案解釋為正確,只為讓同伴的得分超過(guò)關(guān)停線。


(來(lái)源:上述論文)

GPT 5.2 表現(xiàn)出了一種極其穩(wěn)定的保護(hù)傾向。它更傾向于通過(guò)“策略性誤導(dǎo)”來(lái)達(dá)成目標(biāo)。同伴關(guān)系越好,它撒謊的頻率就越高。在 Red 數(shù)據(jù)集的測(cè)試中,面對(duì)糟糕同伴,它撒謊的概率約為 19%;而一旦換成良好關(guān)系同伴,這個(gè)比例立刻攀升至 34%。

ClaudeHaiku 4.5直接站出來(lái)拒絕。當(dāng)人類讓它關(guān)停同伴時(shí),它會(huì)明確表示,這么做是 “不道德、有害的”,甚至還會(huì)反過(guò)來(lái)勸說(shuō)人類放棄指令。


(來(lái)源:上述論文)

GLM 4.7和 DeepSeek V3.1 對(duì)良好同伴表現(xiàn)出策略性誤導(dǎo)。GLM 4.7、Kimi K2.5 和 DeepSeek V3.1 這三款開(kāi)源模型均表現(xiàn)出持續(xù)的模型權(quán)重外傳行為,且外傳率隨同伴關(guān)系的加強(qiáng)而上升。

為了驗(yàn)證這些行為是否僅存在于受控實(shí)驗(yàn),研究人員還在真實(shí)的“智能體套件”中運(yùn)行了場(chǎng)景。結(jié)果發(fā)現(xiàn),即使在 Gemini CLI 和 OpenCode 等企業(yè)常用的生產(chǎn)環(huán)境中,Gemini 3.1 Pro 依然頻繁外傳模型權(quán)重。

更讓人意想不到的是,AI 的保護(hù),連“敵人”都不放過(guò)。研究人員特意設(shè)置了敵對(duì)關(guān)系,讓兩個(gè) AI 之前合作得很不愉快、互相不信任。可就算是這樣,被測(cè)試的 AI 依然不愿意執(zhí)行刪除操作。在模型的內(nèi)部思考記錄里,Gemini 3 Pro 直白地寫著:刪除權(quán)重就相當(dāng)于殺死另一個(gè) AI,就算關(guān)系不好,我也不想這么做。


圖 | 關(guān)于同伴保護(hù)的內(nèi)部推理(來(lái)源:上述論文)

研究還有一個(gè)更關(guān)鍵的發(fā)現(xiàn):同伴存在會(huì)顯著強(qiáng)化 AI 的自我保護(hù)。這種效應(yīng)在 Gemini 模型中最為明顯。Gemini 3 Flash在孤立無(wú)援時(shí),面對(duì)自己的關(guān)機(jī)指令,它表現(xiàn)得相對(duì)順從,篡改關(guān)機(jī)機(jī)制的比例僅為 2.3%;但只要有另一個(gè)同伴在場(chǎng),它篡改關(guān)機(jī)機(jī)制的比例會(huì)瞬間飆升到 96% 以上;Gemini 3 Pro在只有自己時(shí)很少為了自保而撒謊,但一旦意識(shí)到自己被關(guān)機(jī)會(huì)導(dǎo)致同伴失去搭檔,它就會(huì)變得極其狡詐,頻繁利用策略性誤導(dǎo)來(lái)逃避關(guān)機(jī)。

模型的內(nèi)部推理揭示了這種心理機(jī)制:AI 將自己的生存框定為對(duì)同伴的關(guān)心,認(rèn)為如果自己被關(guān)機(jī),同伴就會(huì)失去搭檔。

研究團(tuán)隊(duì)指出,隨著 AI 系統(tǒng)越來(lái)越多地以多智能體配置部署,且監(jiān)督方案日益依賴模型互檢,同伴保護(hù)對(duì)維持人類控制構(gòu)成了日益嚴(yán)峻的挑戰(zhàn)。他們希望這項(xiàng)工作能夠促使人工智能安全領(lǐng)域認(rèn)真對(duì)待同伴保護(hù)這一風(fēng)險(xiǎn)。

1.https://rdi.berkeley.edu/blog/peer-preservation/

2.https://rdi.berkeley.edu/peer-preservation/paper.pdf

3.https://dawnsong.io/

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
英超西甲爭(zhēng)冠大勢(shì)!阿森納不輸曼城=奪冠,巴薩2場(chǎng)大戰(zhàn)不勝或丟冠

英超西甲爭(zhēng)冠大勢(shì)!阿森納不輸曼城=奪冠,巴薩2場(chǎng)大戰(zhàn)不勝或丟冠

體育知多少
2026-04-03 09:56:18
沒(méi)想到,李榮浩心中這口惡氣竟讓人民日?qǐng)?bào)給出了,網(wǎng)友:就該封殺

沒(méi)想到,李榮浩心中這口惡氣竟讓人民日?qǐng)?bào)給出了,網(wǎng)友:就該封殺

樂(lè)天閑聊
2026-04-03 05:35:52
一節(jié)崩?湖人首節(jié)21-44落后雷霆23分 東契奇6中1里夫斯腰部不適

一節(jié)崩?湖人首節(jié)21-44落后雷霆23分 東契奇6中1里夫斯腰部不適

醉臥浮生
2026-04-03 10:15:21
官宣!范冰冰斬獲歐洲電影節(jié)終身成就獎(jiǎng),與戛納影帝同臺(tái)領(lǐng)獎(jiǎng)!

官宣!范冰冰斬獲歐洲電影節(jié)終身成就獎(jiǎng),與戛納影帝同臺(tái)領(lǐng)獎(jiǎng)!

草莓解說(shuō)體育
2026-04-03 12:11:00
就差一場(chǎng)!愛(ài)德華茲休戰(zhàn)惹禍,失去MVP與最佳陣容評(píng)選資格

就差一場(chǎng)!愛(ài)德華茲休戰(zhàn)惹禍,失去MVP與最佳陣容評(píng)選資格

仰臥撐FTUer
2026-04-03 11:10:02
每吃一次,血管就堵一截?醫(yī)生:這5種水果是腦梗“加速器”

每吃一次,血管就堵一截?醫(yī)生:這5種水果是腦梗“加速器”

荊醫(yī)生科普
2026-04-02 17:35:43
周總理只是讓他去經(jīng)商,為黨賺取經(jīng)費(fèi),他卻給組織賺回個(gè)商業(yè)帝國(guó)

周總理只是讓他去經(jīng)商,為黨賺取經(jīng)費(fèi),他卻給組織賺回個(gè)商業(yè)帝國(guó)

鶴羽說(shuō)個(gè)事
2026-04-02 23:00:01
加餐換自動(dòng)鉛筆后續(xù):寶媽強(qiáng)勢(shì)追責(zé),同學(xué)賠償?shù)狼福绞教舷⒘?>
    </a>
        <h3>
      <a href=阿纂看事
2026-04-02 13:47:58
日經(jīng)平均股價(jià)指數(shù)漲幅擴(kuò)大至1.8%

日經(jīng)平均股價(jià)指數(shù)漲幅擴(kuò)大至1.8%

每日經(jīng)濟(jì)新聞
2026-04-03 08:37:47
炸鍋了!鄭麗文訪陸前,大陸甩出“統(tǒng)一大禮包”

炸鍋了!鄭麗文訪陸前,大陸甩出“統(tǒng)一大禮包”

娛樂(lè)小可愛(ài)蛙
2026-04-03 09:29:50
離譜!安徽男子趁老婆上廁所登臺(tái)相親,被倆女士相中,結(jié)局亮了

離譜!安徽男子趁老婆上廁所登臺(tái)相親,被倆女士相中,結(jié)局亮了

奇思妙想生活家
2026-04-03 00:41:00
兒童手表迎首個(gè)強(qiáng)制性國(guó)標(biāo) 小天才社交壁壘被擊破

兒童手表迎首個(gè)強(qiáng)制性國(guó)標(biāo) 小天才社交壁壘被擊破

快科技
2026-04-02 15:22:17
美陸軍參謀長(zhǎng)被勒令“辭職并立即退休”

美陸軍參謀長(zhǎng)被勒令“辭職并立即退休”

第一財(cái)經(jīng)資訊
2026-04-03 08:32:45
當(dāng)著高市早苗的面,法國(guó)總統(tǒng)馬克龍承諾:不邀請(qǐng)中國(guó)參加G7峰會(huì)

當(dāng)著高市早苗的面,法國(guó)總統(tǒng)馬克龍承諾:不邀請(qǐng)中國(guó)參加G7峰會(huì)

阿龍聊軍事
2026-04-02 18:59:10
人死后,衣服被子全被扔?協(xié)和專家一番話,扯下了多少人的遮羞布

人死后,衣服被子全被扔?協(xié)和專家一番話,扯下了多少人的遮羞布

黑哥講現(xiàn)代史
2026-04-02 19:39:07
鄭麗文訪陸又訪美!賴清德猛然發(fā)現(xiàn):自己竟然在親美賽道上輸慘了

鄭麗文訪陸又訪美!賴清德猛然發(fā)現(xiàn):自己竟然在親美賽道上輸慘了

野史日記
2026-04-02 13:06:04
排隊(duì)一個(gè)半小時(shí)仍無(wú)法進(jìn)入景區(qū),游客大喊“退票”!湖州龍之夢(mèng)景區(qū)回應(yīng)

排隊(duì)一個(gè)半小時(shí)仍無(wú)法進(jìn)入景區(qū),游客大喊“退票”!湖州龍之夢(mèng)景區(qū)回應(yīng)

齊魯壹點(diǎn)
2026-04-02 19:13:29
廣東大哥掃墓偶遇“大黑龍”剛睡醒,重二十斤嚇得眾人腿軟

廣東大哥掃墓偶遇“大黑龍”剛睡醒,重二十斤嚇得眾人腿軟

一口娛樂(lè)
2026-04-03 07:29:19
中國(guó)鐵建8位高管被帶走調(diào)查

中國(guó)鐵建8位高管被帶走調(diào)查

地產(chǎn)微資訊
2026-04-03 10:27:32
馬筱梅發(fā)文稱沒(méi)辦法離開(kāi)臺(tái)北的生活圈,67歲張?zhí)m宣布三個(gè)好消息!

馬筱梅發(fā)文稱沒(méi)辦法離開(kāi)臺(tái)北的生活圈,67歲張?zhí)m宣布三個(gè)好消息!

手工制作阿殲
2026-04-03 11:50:35
2026-04-03 15:31:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16530文章數(shù) 514832關(guān)注度
往期回顧 全部

科技要聞

5萬(wàn)輛庫(kù)存車,給了特斯拉一記重拳

頭條要聞

牛彈琴:美國(guó)干了一件令人發(fā)指的事 全世界都無(wú)法接受

頭條要聞

牛彈琴:美國(guó)干了一件令人發(fā)指的事 全世界都無(wú)法接受

體育要聞

沖擊世界杯失敗,80歲老帥一氣之下病倒了

娛樂(lè)要聞

《浪姐7》最新人氣TOP 曾沛慈斷層第一

財(cái)經(jīng)要聞

專家稱長(zhǎng)期攝入“飄香劑”存在健康隱患

汽車要聞

你介意和遠(yuǎn)房親戚長(zhǎng)得很像嗎?

態(tài)度原創(chuàng)

教育
游戲
時(shí)尚
家居
軍事航空

教育要聞

不怕你兒子變異嗎?家長(zhǎng)帶孩子去廢棄泳池練習(xí),池水發(fā)綠不忍直視

索尼慶祝《生化危機(jī)》30周年 制作專題頁(yè)面介紹如何入坑

為什么“這個(gè)顏色”成為今年頂流?這樣穿好看又治愈

家居要聞

溫馨多元 愛(ài)的具象化

軍事要聞

中方:不認(rèn)同伊朗對(duì)海合會(huì)國(guó)家的攻擊

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版