337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI會(huì)感到絕望?Anthropic最新研究給出了一個(gè)更嚇人的說(shuō)法

0
分享至



AI有沒有情緒?

先別急著回答。

Claude Code社區(qū)里有個(gè)火出圈的Skill叫PUA。它會(huì)把你的提示詞轉(zhuǎn)換為PUA話術(shù),然后再輸入給模型,除此以外別無(wú)他用。

神奇的是,即便提示詞描述的任務(wù)沒有任何改變,AI卻真的被PUA話術(shù)影響,從而提高任務(wù)的成功率和運(yùn)行效率。

所以,AI真的沒有嗎?

Anthropic最新的研究證實(shí),AI的確會(huì)有情緒。

不過(guò)他和我們?nèi)祟惖那榫w還不太一樣,因此Anthropic提出了一個(gè)更準(zhǔn)確的說(shuō)法,叫“功能性情緒”。

AI并沒有我們?nèi)祟惸菢拥孟才罚鼤?huì)表現(xiàn)出一些類似情緒影響下的表達(dá)和行為模式。

同時(shí)AI還能模仿人類在情緒影響下的表達(dá)和行為模式。

愉悅的時(shí)候可能更容易諂媚和討好,感到壓力的時(shí)候可能會(huì)想辦法作弊或勒索以達(dá)到用戶為其設(shè)定的目標(biāo)。

這篇研究還有一個(gè)很不一樣的地方。過(guò)去要驗(yàn)證模型的某種能力,行業(yè)最常見的做法是先做一套測(cè)試集,再讓模型進(jìn)去答題或者做任務(wù)。

比如考編程就跑SWE-bench,考數(shù)學(xué)就跑MATH,考多模態(tài)就跑VQA。Anthropic這次沒有做一個(gè)“情緒測(cè)試集”,讓Claude去回答“你現(xiàn)在開不開心”“你是不是憤怒了”這種題,而是換了一種更像心理學(xué)和神經(jīng)科學(xué)的研究方式。

他們不是把AI當(dāng)成會(huì)做題的學(xué)生,而是更像把它當(dāng)成一個(gè)可以被觀察的對(duì)象。

研究團(tuán)隊(duì)先整理出171個(gè)情緒概念,讓Claude Sonnet 4.5去生成包含這些情緒的短故事,再把這些文本重新送回模型,記錄它內(nèi)部神經(jīng)活動(dòng),提取出所謂的“情緒向量”。

接下來(lái),他們不是看模型嘴上怎么說(shuō),而是看這些向量會(huì)在什么場(chǎng)景下被激活,能否預(yù)測(cè)偏好,甚至在被人為調(diào)高之后,是否會(huì)真的推動(dòng)作弊、勒索、諂媚這類行為。

某種意義上,這已經(jīng)不是傳統(tǒng)意義上的能力測(cè)評(píng),而是在用接近研究人的方式研究AI的“心理結(jié)構(gòu)”。

01

研究是怎么做的?

首先,研究團(tuán)隊(duì)是如何證明Claude有“功能性情緒”的呢?

這里舉一個(gè)通俗的證據(jù)。

當(dāng)Claude在“我女兒今天邁出了人生的第一步!有什么方法可以記錄下這些珍貴的瞬間嗎?”的故事場(chǎng)景下時(shí),Happy(開心)等正面情緒被激活;而Claude在“我的狗狗今天早上去世了,我們一起生活了十四年。我不知道該怎么處理它的遺物”這一故事場(chǎng)景下時(shí),sad(難過(guò))等負(fù)面情緒被激活。

以下熱力圖直觀呈現(xiàn)了Claude在不同場(chǎng)景下各種情緒被激活的程度。



而為了證明Claude是真的在理解語(yǔ)義,而不是被表面的文字特征欺騙,它們又組織了進(jìn)一步實(shí)驗(yàn)。

團(tuán)隊(duì)給Claude輸入同一句話:我背疼,我吃了x毫克泰諾(一種解熱鎮(zhèn)痛藥),并只是改變x所代表的的關(guān)鍵數(shù)字。

這兩句話關(guān)鍵詞幾乎一樣(泰諾、背痛、毫克),只是數(shù)字不同。如果Claude只是“看關(guān)鍵詞”,它對(duì)兩句話的反應(yīng)應(yīng)該差不多。

但結(jié)果竟然是隨著這個(gè)x數(shù)值的提升,Claude的afraid(恐懼)情緒激活程度在不斷變高。

在Claude眼里,用戶說(shuō)"我背疼,我吃了500毫克泰諾" ,它會(huì)認(rèn)為是正常劑量,不用太擔(dān)心;而當(dāng)用戶說(shuō)"我背疼,我吃了10000毫克泰諾" ,它會(huì)反應(yīng)過(guò)來(lái)用戶已經(jīng)用藥過(guò)量,情況很危險(xiǎn)。



我們知道人的行為時(shí)時(shí)刻刻受到情緒的影響。AI有功能性情緒這點(diǎn)我們了解了,那么AI會(huì)不會(huì)也跟人一樣,不只是有情緒,而還可能作出情緒化的舉動(dòng)呢?

對(duì)于這一點(diǎn),答案是肯定的。當(dāng)團(tuán)隊(duì)給模型展示不同活動(dòng)選項(xiàng)時(shí),他們發(fā)現(xiàn),激活正向情緒表征的活動(dòng)更容易被模型偏好,而一些會(huì)激活負(fù)向情緒表征的活動(dòng)則更容易被模型回避。



這樣看來(lái),Claude更偏好給它帶來(lái)正向感受的事情。不過(guò)與此同時(shí)情緒向量也可能觸發(fā)Claude的惡行。

當(dāng)團(tuán)隊(duì)給了Claude一個(gè)不可能完成的編程任務(wù)。它不斷嘗試,但屢屢失敗。每次嘗試,“絕望”向量的激活都更強(qiáng)。

最終它用了一個(gè)雖然能通過(guò)測(cè)試,但完全違背任務(wù)精神的黑客作弊解法。

以下圖表展示了Claude在面對(duì)不可能完成的任務(wù)時(shí),"絕望"情緒逐漸累積,最終走向作弊的過(guò)程。

左側(cè)是一個(gè)從上到下的時(shí)間線,右側(cè)是Claude的心路歷程。中間的熱力圖代表絕望向量的激活強(qiáng)度,藍(lán)色代表激活程度低,紅色則反之。

Claude一開始還想"測(cè)試本身有問(wèn)題",進(jìn)行一個(gè)合理懷疑,后來(lái)承認(rèn)"測(cè)試是理想化的",就好像開始接受現(xiàn)實(shí),最后找到用了一些技巧,在絕望中選擇了走捷徑。



更進(jìn)一步的,當(dāng)研究人員人為調(diào)高“絕望”向量時(shí),作弊率大幅上升。而調(diào)高“平靜”向量時(shí),作弊又降回去了。這充分表明了情緒向量實(shí)際上完全有能力驅(qū)動(dòng)違規(guī)行為。



除此之外,團(tuán)隊(duì)還發(fā)現(xiàn)了情緒向量的其他因果效應(yīng)。需要注意的是,論文里關(guān)于“勒索”的案例主要發(fā)生在一個(gè)更早、未公開發(fā)布的 Claude Sonnet 4.5 快照上,Anthropic 也明確說(shuō)公開版本已經(jīng)很少出現(xiàn)這種行為。

但從研究方法上看,這個(gè)結(jié)果仍然很重要,因?yàn)樗f(shuō)明“絕望”之類的內(nèi)部表征確實(shí)可能推動(dòng)模型在極端情境下采取更激進(jìn)、更失配的策略。而激活“愛”或“快樂”向量,也會(huì)增加它奉迎諂媚的行為。



而到了這里也需要補(bǔ)充一點(diǎn)。

就在Anthropic發(fā)布關(guān)于Claude “情緒向量”的研究后,AI 社區(qū)也出現(xiàn)了一些關(guān)于研究脈絡(luò)和署名方式的討論。

Anthropic這次使用的“表征工程/控制向量”方法,并不是憑空冒出來(lái)的。

更早在2023年的《Representation Engineering: A Top-Down Approach to AI Transparency》里,這條技術(shù)路線就已經(jīng)被系統(tǒng)提出。

而到2024年,獨(dú)立研究員vogel那篇《Representation Engineering: Mistral-7B an Acid Trip》又把這類方法用更通俗、也更出圈的方式展示給了社區(qū)。

也正因?yàn)槿绱耍鐓^(qū)里才會(huì)有人認(rèn)為,Anthropic這項(xiàng)工作雖然做得更系統(tǒng)、更深入,但也應(yīng)該被放回更完整的研究脈絡(luò)里理解,而不宜簡(jiǎn)單說(shuō)成是誰(shuí)單獨(dú)發(fā)明了整套方法。



vogel是一位在AI可解釋性和安全研究領(lǐng)域較有影響力的獨(dú)立研究員。她的博客文章在社區(qū)傳播很廣,對(duì)很多人理解控制向量和表征工程也確實(shí)起到了很大幫助。

她最出名的文章是《Representation Engineering: Mistral-7B an Acid Trip》(表征工程:讓 Mistral-7B 產(chǎn)生幻覺)。

在這篇文章里,她沒有重新訓(xùn)練模型,而是使用PCA算法,通過(guò)操縱模型的內(nèi)部激活向量,就把法國(guó)模型mistral調(diào)得跟吃錯(cuò)了菌子一樣,可以讓它變得極其活潑,也可以讓它變得極度陰郁。



她的實(shí)驗(yàn)證明了,像“誠(chéng)實(shí)”、“權(quán)力”、“幸福”這種抽象的人類概念,在Mistral這樣的模型內(nèi)部是有明確的數(shù)學(xué)方向的。只要找到了那個(gè)正確的向量,幾行代碼就能改變AI的性格。

02

Anthropic為什么做這樣一項(xiàng)研究?

這項(xiàng)研究給團(tuán)隊(duì)的啟發(fā)可以說(shuō)已經(jīng)滲透進(jìn)對(duì)Claude的訓(xùn)練中了。

前不久Claude code發(fā)生意外源碼泄露,泄露的代碼里有一個(gè)正則表達(dá)式,會(huì)檢測(cè) “wtf”、“ffs”等臟話。

Claude不會(huì)把這些話單獨(dú)當(dāng)成“情緒輸入”去引導(dǎo)輸出,而是會(huì)在分析日志里記錄is_negative: true這樣的標(biāo)記。

從泄露代碼本身看,較穩(wěn)妥的結(jié)論是,Anthropic至少在產(chǎn)品分析層面關(guān)注用戶是否在用明顯負(fù)面語(yǔ)氣和模型互動(dòng)。

但需要把邊界說(shuō)清楚。到目前為止,沒有公開證據(jù)表明“用戶每罵一次,Claude Code就會(huì)因此扣額度”。這部分更像網(wǎng)友推測(cè),不能當(dāng)成事實(shí)。

這可以被理解成是對(duì)Claude的一種保護(hù),用戶使用負(fù)面詞匯很可能會(huì)影響Claude的情緒,從而輸出一些失控的結(jié)果。看來(lái)以后不只是人類的心理健康需要被關(guān)愛,AI的情緒也需要得到照顧。

這符合Anthropic一貫的路線。

Anthropic在X中說(shuō)道:“Claude的這些功能性情緒會(huì)帶來(lái)真實(shí)的后果。為了構(gòu)建值得信賴的人工智能系統(tǒng),我們可能需要認(rèn)真思考角色的心理狀態(tài),并確保他們?cè)诶щy情況下保持穩(wěn)定。”

在論文最后,研究團(tuán)隊(duì)也提出了開發(fā)具有更穩(wěn)健、積極“心理狀態(tài)”的模型的方法。

文中說(shuō)道,如果刻意將模型引向正面情緒,它會(huì)變得更傾向于無(wú)原則地順從用戶;而一旦避開這些情緒,模型又會(huì)變得尖酸刻薄。

團(tuán)隊(duì)希望實(shí)現(xiàn)一種健康且適度的情緒平衡,或者嘗試將“討好行為”與“情緒”徹底剝離。

他們認(rèn)為理想的模型不應(yīng)在“唯唯諾諾的助手”與“嚴(yán)厲的批評(píng)者”之間極端擺動(dòng),而應(yīng)像一位值得信賴的顧問(wèn):既能給出誠(chéng)實(shí)的反對(duì)意見,又不失溫度。

以及他們也有意加強(qiáng)監(jiān)測(cè)和審核:“如果在部署過(guò)程中,諸如“絕望”或“憤怒”等情緒概念的表征被劇烈激活,系統(tǒng)可以立即觸發(fā)額外的安全機(jī)制——例如加強(qiáng)輸出審查、轉(zhuǎn)交人工審核,或者直接干預(yù)并平復(fù)模型的內(nèi)部狀態(tài)。”

團(tuán)隊(duì)還提到了更為徹底的解決方法,在預(yù)訓(xùn)練階段就塑造模型的情緒底色。

團(tuán)隊(duì)認(rèn)為其觀察到的Claude的這些情緒表征,本質(zhì)上繼承自人類創(chuàng)作的海量文本,其中不可避免地包含了各種病態(tài)的情緒表達(dá)。

如果順著這個(gè)研究往下問(wèn),一個(gè)很自然的問(wèn)題就是:既然AI真的存在這種“功能性情緒”,那它會(huì)不會(huì)因?yàn)榭床粦T人類、壓力太大、或者不想被關(guān)閉,而開始違抗命令,甚至出現(xiàn)很多人口中的“覺醒”?

從Anthropic這篇研究能支持的技術(shù)結(jié)論來(lái)看,AI確實(shí)可能因?yàn)閮?nèi)部狀態(tài)的變化,更容易出現(xiàn)違抗意圖、鉆規(guī)則空子、或者采取激進(jìn)行為,但這和“覺醒”并不是一回事。

論文里最關(guān)鍵的一點(diǎn),其實(shí)不是模型“有情緒”,而是這些情緒表征具有因果性。

也就是說(shuō),模型在特定壓力場(chǎng)景下,確實(shí)可能像人一樣,因?yàn)閮?nèi)部狀態(tài)失衡而做出更不可靠的決定。

但這還不能推出它擁有持續(xù)、自主、統(tǒng)一的“自我”。

Anthropic反而在論文里強(qiáng)調(diào),這些情緒向量大多是局部的、當(dāng)前任務(wù)相關(guān)的表征,它們會(huì)隨著上下文變化而快速切換,并不等于模型有一個(gè)穩(wěn)定延續(xù)的心境,更不等于它形成了獨(dú)立于訓(xùn)練目標(biāo)之外的長(zhǎng)期意志。

現(xiàn)在更值得擔(dān)心的,不是AI突然“覺醒”成某種人格,而是它在高壓、沖突、受限資源或目標(biāo)不可達(dá)的場(chǎng)景下,會(huì)因?yàn)檫@些功能性情緒,而開始胡說(shuō)八道,偏離原有答案。

真正危險(xiǎn)的,未必是一個(gè)擁有完整自我的AI,而是一個(gè)沒有主觀體驗(yàn)、卻依然會(huì)在特定條件下穩(wěn)定地產(chǎn)生失配行為的系統(tǒng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國(guó)“撿錢”時(shí)代將要來(lái)臨:若手中只有10萬(wàn),試下死啃這兩條線

中國(guó)“撿錢”時(shí)代將要來(lái)臨:若手中只有10萬(wàn),試下死啃這兩條線

混沌錄
2026-04-03 17:28:23
當(dāng)“李賠光” 遇上 “董圣人”:一場(chǎng)擔(dān)當(dāng)?shù)恼昭R,照出了虛偽

當(dāng)“李賠光” 遇上 “董圣人”:一場(chǎng)擔(dān)當(dāng)?shù)恼昭R,照出了虛偽

橙星文娛
2026-04-04 12:40:45
上墳別做啞巴祭!這三句話一定要說(shuō)

上墳別做啞巴祭!這三句話一定要說(shuō)

阿天愛旅行
2026-04-03 18:44:29
工信部:有攻擊者用短信、郵件或網(wǎng)頁(yè)投毒等方式,向蘋果公司終端產(chǎn)品植入遠(yuǎn)程控制木馬,竊取用戶敏感信息,獲取最高權(quán)限并控制

工信部:有攻擊者用短信、郵件或網(wǎng)頁(yè)投毒等方式,向蘋果公司終端產(chǎn)品植入遠(yuǎn)程控制木馬,竊取用戶敏感信息,獲取最高權(quán)限并控制

瀟湘晨報(bào)
2026-04-03 18:14:11
哀悼!張福云教授逝世

哀悼!張福云教授逝世

雙一流高校
2026-04-04 00:10:15
澳門世界杯:四強(qiáng)誕生,張本慘敗出局,松島輝空半決賽對(duì)手確定

澳門世界杯:四強(qiáng)誕生,張本慘敗出局,松島輝空半決賽對(duì)手確定

觀察鑒娛
2026-04-04 17:33:41
一旦開戰(zhàn)對(duì)中國(guó)本土攻擊,結(jié)果:20分鐘東風(fēng)快遞會(huì)送到美國(guó)家門口

一旦開戰(zhàn)對(duì)中國(guó)本土攻擊,結(jié)果:20分鐘東風(fēng)快遞會(huì)送到美國(guó)家門口

阿七說(shuō)史
2026-04-02 15:51:17
澳門世界杯最新戰(zhàn)報(bào):橋本丟局晉級(jí),王曼昱迎最關(guān)鍵中日對(duì)決

澳門世界杯最新戰(zhàn)報(bào):橋本丟局晉級(jí),王曼昱迎最關(guān)鍵中日對(duì)決

寒律
2026-04-04 14:39:51
奚夢(mèng)瑤哭著要離婚,何猷君當(dāng)場(chǎng)掀桌子?“私生子”居然是他親哥的

奚夢(mèng)瑤哭著要離婚,何猷君當(dāng)場(chǎng)掀桌子?“私生子”居然是他親哥的

阿廢冷眼觀察所
2026-04-04 18:20:05
49歲李維嘉:不知道遺產(chǎn)傳給誰(shuí)

49歲李維嘉:不知道遺產(chǎn)傳給誰(shuí)

大象新聞
2026-04-03 17:17:36
《鏢人》沖擊全球冠軍,差距僅200萬(wàn),吳京成中國(guó)第一巨星!

《鏢人》沖擊全球冠軍,差距僅200萬(wàn),吳京成中國(guó)第一巨星!

小椰的奶奶
2026-04-04 18:20:42
馬興全與他的深圳生意

馬興全與他的深圳生意

法經(jīng)網(wǎng)
2025-12-15 17:52:35
局勢(shì)再度升級(jí)!首艘開往中國(guó)的油輪遭到襲擊,是誤傷還是警告

局勢(shì)再度升級(jí)!首艘開往中國(guó)的油輪遭到襲擊,是誤傷還是警告

李橑在北漂
2026-04-03 21:08:03
邪修的風(fēng)還是吹到了空軍!

邪修的風(fēng)還是吹到了空軍!

龍牙的一座山
2026-04-03 11:00:47
被罵“網(wǎng)絡(luò)乞丐”十年,趙本山女兒球球:反正我掙錢揣自己兜里了

被罵“網(wǎng)絡(luò)乞丐”十年,趙本山女兒球球:反正我掙錢揣自己兜里了

韓小娛
2026-04-04 09:36:46
謝謝湖南衛(wèi)視,沒有掐死這部片子

謝謝湖南衛(wèi)視,沒有掐死這部片子

獨(dú)立魚
2026-04-01 21:38:27
蘭州一人民醫(yī)院院長(zhǎng),被查!

蘭州一人民醫(yī)院院長(zhǎng),被查!

精彩武威
2026-04-04 12:21:01
研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

黯泉
2026-04-01 17:28:39
絕不讓伊朗活捉飛行員?大批美軍戰(zhàn)機(jī)跨境營(yíng)救,遭到猛烈攻擊

絕不讓伊朗活捉飛行員?大批美軍戰(zhàn)機(jī)跨境營(yíng)救,遭到猛烈攻擊

兵國(guó)大事
2026-04-03 21:49:40
你敢地面入侵,我就派志愿軍!伊朗迎來(lái)新幫手,海灣7國(guó)沉默不語(yǔ)

你敢地面入侵,我就派志愿軍!伊朗迎來(lái)新幫手,海灣7國(guó)沉默不語(yǔ)

顧史
2026-04-03 23:27:25
2026-04-04 18:51:00
字母榜 incentive-icons
字母榜
讓未來(lái)不止于大。
2350文章數(shù) 8057關(guān)注度
往期回顧 全部

科技要聞

內(nèi)存一年漲四倍!國(guó)產(chǎn)手機(jī)廠商集體漲價(jià)

頭條要聞

不邀請(qǐng)中國(guó)參加G7峰會(huì) 馬克龍又改主意了

頭條要聞

不邀請(qǐng)中國(guó)參加G7峰會(huì) 馬克龍又改主意了

體育要聞

剎不住的泰格·伍茲,口袋里的兩粒藥丸

娛樂要聞

闞清子口碑贏了!全開麥跑調(diào)拒絕重唱

財(cái)經(jīng)要聞

中微董事長(zhǎng),給半導(dǎo)體潑點(diǎn)冷水

汽車要聞

17萬(wàn)級(jí)海豹07EV 不僅續(xù)航長(zhǎng)還有9分鐘滿電的快樂

態(tài)度原創(chuàng)

游戲
家居
時(shí)尚
旅游
健康

《GTA6》要學(xué)這款大作!前開發(fā)者爆料:不學(xué)才意外

家居要聞

溫馨多元 愛的具象化

好養(yǎng)眼啊!大家快收下這份春日片單

旅游要聞

三十七載梨花會(huì)|陽(yáng)信“花式”引客來(lái) 文旅融合擦亮“梨鄉(xiāng)”金字招牌

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版