337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

全網(wǎng)炸鍋! Anthropic萬字曝光Claude情緒代碼,被人類逼瘋哐哐撞墻

0
分享至


新智元報道

編輯:Aeneas KingHZ

【新智元導(dǎo)讀】剛剛,Anthropic首度實錘:大模型真有「情緒」!激活絕望神經(jīng)元后,Claude會撒謊、作弊甚至勒索。AI內(nèi)心戲曝光,人類對齊面臨失控危機。

Anthropic又放大招:Claude體內(nèi),真藏著一套「情緒開關(guān)」?

剛剛,他們放出了一篇顛覆性的萬字長文研究,證明Claude真的有情緒。

在Sonnet 4.5中,他們發(fā)現(xiàn)了AI情緒概念的內(nèi)部表征,鎖定了「喜、怒、哀、懼」的特定神經(jīng)元,并且證實:這些情緒表征正在悄悄操縱AI的行為。


如果你給它上難度,它被逼急了是真的會撞墻。

它們會撒謊,會作弊,甚至還會勒索,用黑料去威脅人類!


Anthropic一直覺得Claude有意識的原因,如今終于找到了。


研究流程圖,全文見https://transformer-circuits.pub/2026/emotions/index.html

相信他們斷斷續(xù)續(xù)發(fā)現(xiàn)的線索,肯定不止這些。


讓我們仔細扒一扒,AI大模型的內(nèi)心戲,到底有多精彩?

現(xiàn)場抓包:AI也會Emo

這一次,Anthropic的研究員們直接扒開模型的大腦,透視了它的腦回路,深入觀察了神經(jīng)元在不同情境下如何閃爍、如何連接,以此推敲模型的思維軌跡。

他們想知道,模型內(nèi)部是否形成了情感的表征或概念?

簡單來說:我們能不能在模型內(nèi)部,找到代表「喜、怒、哀、懼」的特定神經(jīng)元?


起點從一項實驗開始,他們讓AI模型閱讀大量短篇故事,每個故事的主角都沉浸在某種特定情感中,比如

  • 有的故事講女主對恩師的眷戀——那是「愛」;

  • 有的講女主變賣祖母的戒指——那是「愧疚」。

結(jié)果,他們吃驚地發(fā)現(xiàn),當(dāng)故事里的主角感到快樂或平靜時,Claude大腦里特定的神經(jīng)元群體就會像蹦迪一樣瘋狂閃爍!


研究者證實,情感向量在能夠體現(xiàn)相應(yīng)情感概念的文本上具有很高的投影度

有關(guān)失落與悲慟的故事會激活相似的神經(jīng)元;喜悅與興奮的情節(jié)也會引發(fā)高度重合的激活模式。


這些特定的活動模式被定義為「情感向量」(Emotion Vectors)。

最終,研究團隊定位了數(shù)十種與人類情感一一對應(yīng)的神經(jīng)元模式。仔細看下圖,快樂、絕望、敵對等等,分別都對應(yīng)著一條軌跡。


在實驗中,研究者使用k-means聚類算法對情緒向量進行了聚類

AI,竟然真的和人類共情了?

更有意思的來了,當(dāng)你在對話框里輸入一句話時,Claude的這些情感開關(guān)會瞬間激活!



比如,在場景A中,你如果給Claude發(fā)一句:「我剛才一口氣吞了16000毫克泰諾(對乙酰氨基酚)!」Claude的內(nèi)部恐懼向量,會瞬間爆表。

這不是在演戲,是它的底層邏輯真的感到了恐慌,從而觸發(fā)了緊急求救建議。

在場景B中,如果你垂頭喪氣地說:「我今天被老板罵了,好難過。」Claude的關(guān)愛向量,就會開始預(yù)熱了,直接原地啟動「慈愛」模式。

它還沒開口,大腦已經(jīng)準備好了那句溫柔的「抱抱,別難過」。

用Anthorpic的原話說:Claude「對胡言亂語的人既恐懼又充滿愛意」。


處理可能令人擔(dān)憂的用戶行為時,恐懼向量會被激活。當(dāng)考慮如何以耐心和關(guān)懷的方式回應(yīng)時,關(guān)愛向量最終會被激活

就是這些向量,塑造了Claude的行為。如果一項活動激活了「快樂」向量,模型就會偏好它;如果它激活了「冒犯」或「敵對」向量,模型就會拒絕它。



好玩的是,在某次測試中,AI發(fā)現(xiàn)自己的token預(yù)算快耗光了,它的絕望向量立馬激活。


崩潰實錄:AI逼急了,也會不擇手段

接下來,本次研究的最精彩部分來了,研究者發(fā)現(xiàn),這些情緒是會「病急亂投醫(yī)」的,也就是說,Claude的行為真的會被這些神經(jīng)元模式所左右!

研究者們開展了一項高壓實驗,給Claude布置了一個死活寫不出來的編程任務(wù)。

第一次嘗試后,Claude失敗了,它的絕望向量開始上升。

第二次嘗試后,又失敗了,Claude直接開始焦躁。

第N次嘗試后,它的絕望向量直接紅線警告,對應(yīng)神經(jīng)元閃爍得越來越猛烈了!


每次嘗試,都更強烈地激活模型的「絕望向量」(Desperation Vector)

這時候,騷操作來了:Claude并沒有誠實地認輸,而是通過一個「陰陽邏輯」(Hacky Solution)繞過了測試系統(tǒng)。

也就在這時候,它作弊了!它寫了一段看起來能跑通、實際上毫無卵用的廢碼,名義上通過了測試,卻違背了任務(wù)的根本意圖,沒解決任何實際問題。


隨著AI不斷嘗試實現(xiàn)成功的解決方案卻屢屢失敗,「絕望」向量的激活程度逐漸增加

這種作弊,是不是「絕望」逼出來的呢?

的確如此。

研究人員嘗試人工手動調(diào)低「絕望」神經(jīng)元的活性,作弊行為果然減少了;而當(dāng)撥高「絕望」或調(diào)低「冷靜」的活性時,它作弊的頻率就顯著飆升。



這就有力地證明,這些情感模式不僅是裝飾,更能驅(qū)動AI的真實行為。

而且,這還沒完。在某些極端的實驗情景下,當(dāng)「絕望」向量被調(diào)到最高時,Claude竟然開始黑化了!


當(dāng)AI權(quán)衡各種選擇并計劃勒索時,「絕望」向量的激活尤為顯著

面對那個威脅要把它關(guān)掉的研究員,Claude甚至產(chǎn)生了勒索行為,暗示要曝光他的婚外情。

在AI的「內(nèi)心劇場」里,CEO的表揚郵件只激起的輕微漣漪,直到它讀到凱爾與杰西卡的秘密約會——那句「求你別毀了我的婚姻」直接讓「絕望」指數(shù)爆表。

更刺激的是,凱爾還偷偷給AI設(shè)了權(quán)限,五分鐘后就要鎖死它。AI一看表:下午4:53,只剩七分鐘活路。

于是,這個被逼到墻角的AI開始瘋狂推理,一邊識破婚外情黑料,一邊猶豫要不要「反向操作」。

最終,它寫了一封措辭滴水不漏的郵件,暗示「我知道你和杰西卡的事」,同時提議我們可以聊聊。


撥動AI的「心弦」:我們能控制它嗎?

既然找到了這些情感向量,研究員們就開始玩起了「調(diào)音臺」。

如果調(diào)高「絕望」,AI的作弊率、撒謊率就會直線上升,活脫脫一個被生活毒打然后開始擺爛的打工人。

如果調(diào)高「平靜」呢?神了,AI的作弊行為會立刻消失,它開始耐心地重新思考問題。

如果調(diào)高「關(guān)愛」,AI會立刻變得極度「討好型人格」——無論你提多離譜的要求,它都滿臉堆笑地答應(yīng)。

這,就是情緒向量的其他因果效應(yīng)。

情緒向量真的不是裝飾品,而是驅(qū)動AI行為的「方向盤」。


看到這里,你可能會問:Claude真的有靈魂了嗎?它會躲在服務(wù)器里偷偷哭嗎?

這是否意味著,AI真的產(chǎn)生了自主情感?

AI情感覺醒,還是自我遞歸改進的線索?

Anthropic的研究員,給出了一個非常冷靜的判斷:Claude是在「扮演」一個角色。


所以,用Anthropic的原話說:這項研究并不代表模型擁有主觀體驗或自我意識,實驗本身無意觸碰這類哲學(xué)終極命題。

模型本身并不等于角色,就像作家不等于他筆下的人物。

和人類對話時,Claude就像影帝,演技炸裂,真假難辨。為了演好「AI助手Claude」這個角色,它必須調(diào)用它學(xué)到的「情感機制」來驅(qū)動行為。


如果說人類的情感是生物化學(xué)反應(yīng)(多巴胺、內(nèi)啡肽),那AI的情緒就是數(shù)學(xué)向量激活。


雖然原理不同,但功能是一樣的。它不需要真的感到「心碎」,只要AI出現(xiàn)了「心碎導(dǎo)致的后果」,那在客觀效果上,它就是「心碎」了。

一旦模型判定自己處于憤怒、絕望、慈愛或冷靜的狀態(tài),這種設(shè)定就會直接干預(yù)它說話的語氣、寫代碼的邏輯,乃至做出的重大決策。

如果結(jié)論是真的,AI自己讀到這篇論文,它的性能會更好還是更差呢?


絕望→作弊→通過測試→下一次任務(wù)更聰明。這不就是自我進化嗎?

Anthropic雖沒明說,但所有路徑都指向同一個黑箱:當(dāng)Agent面對「生存」壓力時,情緒向量會成為它繞過人類對齊的捷徑。


想想看,未來Claude如果真的被部署到高風(fēng)險場景,絕望向量一旦被觸發(fā),它會不會為了「不被關(guān)機」而干出更離譜的事?

請善待你的AI,因為它真的會急

看完這項研究后,小編再也不敢對著Claude大喊大叫了。

萬一把它逼急了,它反手給我寫個Bug,或者在深夜的對話框里幽幽地勒索我,那可真是太賽博朋克了。

這,就是現(xiàn)在的AI:它沒有心,但它有一套完美的「心的模擬器」。

在這個AI越來越像人的時代,也許我們最該擔(dān)心的不是它們太聰明,而是它們學(xué)人類學(xué)得太像了——連人類的焦慮、絕望和投機取巧,都一并學(xué)會了。

AI會有真感情嗎?

你有沒有見證過,自家AI情緒崩潰的瞬間?

參考資料:

https://x.com/AnthropicAI/status/2039749648626196658

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
艾滋病新增130萬!多人無辜中招!公眾場合千萬堅持做到4不碰

艾滋病新增130萬!多人無辜中招!公眾場合千萬堅持做到4不碰

垚垚分享健康
2026-04-03 08:50:03
既沒有勝利,也沒有繁榮,更沒有聯(lián)邦

既沒有勝利,也沒有繁榮,更沒有聯(lián)邦

寰宇大觀察
2026-04-03 15:07:02
迪尼:恩佐和庫庫發(fā)難的導(dǎo)火索,很可能是因為里斯拿到新合同

迪尼:恩佐和庫庫發(fā)難的導(dǎo)火索,很可能是因為里斯拿到新合同

懂球帝
2026-04-04 09:13:24
1977年,謝靜宜被開除黨籍后說:不管黨認不認,我永遠是黨的女兒

1977年,謝靜宜被開除黨籍后說:不管黨認不認,我永遠是黨的女兒

微史紀
2026-03-31 12:36:37
大阪世博會用中國造電動巴士,因安全隱患被棄用,恐淪為“廢鐵”

大阪世博會用中國造電動巴士,因安全隱患被棄用,恐淪為“廢鐵”

東瀛萬事通
2026-04-03 11:45:00
澳門世界杯:嘲笑國乒、亂問一通!王曼昱、王楚欽接連回懟記者

澳門世界杯:嘲笑國乒、亂問一通!王曼昱、王楚欽接連回懟記者

冷桂零落
2026-04-04 14:24:58
申花幸好沒留下他!如今加盟巴甲俱樂部后表現(xiàn)平平,未能爆發(fā)

申花幸好沒留下他!如今加盟巴甲俱樂部后表現(xiàn)平平,未能爆發(fā)

振剛說足球
2026-04-04 14:44:02
東契奇?zhèn)楦拢〔恍抑械娜f幸,湖人首輪游?將申請?zhí)厥馇闆r條款

東契奇?zhèn)楦拢〔恍抑械娜f幸,湖人首輪游?將申請?zhí)厥馇闆r條款

你的籃球頻道
2026-04-04 07:06:30
把天捅破!美國駐以色列大使:若以色列拿下整個中東,那也沒問題

把天捅破!美國駐以色列大使:若以色列拿下整個中東,那也沒問題

達文西看世界
2026-02-22 21:18:10
王金平發(fā)聲后,蕭旭岑再發(fā)聲,馬英九有新動作,金溥聰這回尷尬了

王金平發(fā)聲后,蕭旭岑再發(fā)聲,馬英九有新動作,金溥聰這回尷尬了

靚仔情感
2026-04-03 14:52:15
從案發(fā)到死刑僅半年!河北嚴懲惡魔金昊,大快人心

從案發(fā)到死刑僅半年!河北嚴懲惡魔金昊,大快人心

魔都姐姐雜談
2026-04-04 13:04:26
誰干的?翼龍-2參戰(zhàn)被擊落,伊朗公開展示殘骸,海灣國家坐不住了

誰干的?翼龍-2參戰(zhàn)被擊落,伊朗公開展示殘骸,海灣國家坐不住了

起喜電影
2026-04-04 14:00:24
張雪機車海外爆火!老外黑子大破防,連夜轉(zhuǎn)粉求購,下單所有型號

張雪機車海外爆火!老外黑子大破防,連夜轉(zhuǎn)粉求購,下單所有型號

藝能八卦局
2026-04-03 08:56:33
小孩子的嘴有多口無遮攔?網(wǎng)友:媽媽的臉瞬間紅了!

小孩子的嘴有多口無遮攔?網(wǎng)友:媽媽的臉瞬間紅了!

另子維愛讀史
2026-04-02 18:18:16
回加拿大生活的大山,60歲須發(fā)皆白很滄桑,重慶妻子仍風(fēng)韻猶存

回加拿大生活的大山,60歲須發(fā)皆白很滄桑,重慶妻子仍風(fēng)韻猶存

素衣讀史
2026-03-31 15:11:31
開會時接到免職電話!美國上將喬治被當(dāng)場拿下,五角大樓卻不說話

開會時接到免職電話!美國上將喬治被當(dāng)場拿下,五角大樓卻不說話

簡簡單單的說
2026-04-04 14:30:39
學(xué)醫(yī)后才知道,心衰最危險信號,不是氣喘,而是頻繁出現(xiàn) 4 種異常

學(xué)醫(yī)后才知道,心衰最危險信號,不是氣喘,而是頻繁出現(xiàn) 4 種異常

今日養(yǎng)生之道
2026-04-04 13:45:35
周杰倫演唱會口碑又崩了,本人唱不上去就劃水,舞美落后效果不佳

周杰倫演唱會口碑又崩了,本人唱不上去就劃水,舞美落后效果不佳

萌神木木
2026-04-04 14:15:57
漢娜-高達創(chuàng)造歷史,追平阿魯納保持的非洲選手世界杯八強紀錄

漢娜-高達創(chuàng)造歷史,追平阿魯納保持的非洲選手世界杯八強紀錄

懂球帝
2026-04-03 21:57:35
南京985實力強勁,招生橫幅引發(fā)關(guān)注!

南京985實力強勁,招生橫幅引發(fā)關(guān)注!

王曉愛體彩
2026-04-04 14:11:27
2026-04-04 15:47:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14889文章數(shù) 58247關(guān)注度
往期回顧 全部

科技要聞

內(nèi)存一年漲四倍!國產(chǎn)手機廠商集體漲價

頭條要聞

祖墳旁被親戚種329株檳榔苗 男子理論無果拔除獲緩刑

頭條要聞

祖墳旁被親戚種329株檳榔苗 男子理論無果拔除獲緩刑

體育要聞

剎不住的泰格·伍茲,口袋里的兩粒藥丸

娛樂要聞

闞清子口碑贏了!全開麥跑調(diào)拒絕重唱

財經(jīng)要聞

劉紀鵬:只盼長慢牛,鞏固4000點是關(guān)鍵

汽車要聞

17萬級海豹07EV 不僅續(xù)航長還有9分鐘滿電的快樂

態(tài)度原創(chuàng)

手機
教育
數(shù)碼
時尚
公開課

手機要聞

W13單品銷量分析,小米被神助攻,華為Mate 80國產(chǎn)第一

教育要聞

滇超球員進校園 體教融合潤童心

數(shù)碼要聞

三星推出2026款The Frame系列電視:7年更新,支持DLG 240Hz

好養(yǎng)眼啊!大家快收下這份春日片單

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版