337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude爆火研究漏引華人團(tuán)隊(duì)成果,已挨打立正道歉

0
分享至

聽雨 發(fā)自 凹非寺量子位 | 公眾號 QbitAI

Anthropic新論文漏引同行工作,被抓包并貼臉質(zhì)疑了。

MBZUAI研究生Chenxi Wang發(fā)現(xiàn),這篇論文的引用列表里,是不是忘了些什么……



4月2日,Anthropic發(fā)布了一篇新論文,研究了Claude內(nèi)部的“情緒機(jī)制”,在Sonnet 4.5中發(fā)現(xiàn)了171種“情緒向量”。

這些情緒會在與之關(guān)聯(lián)的情境中被激活,并且與人類的心理結(jié)構(gòu)和情緒空間相似。



論文還驗(yàn)證了情緒表征對模型行為的因果性影響,比如絕望會驅(qū)使模型采取不道德的行為,或使其對無法解決的編程任務(wù)實(shí)施“作弊”。

但Chenxi Wang自述,她讀到這篇博客時第一反應(yīng)是:

  • 這不是我們?nèi)ツ曜龅膯幔?/strong>

她可以肯定,他們?nèi)ツ?0月發(fā)表的論文《LLMs會“感覺”嗎?情緒回路的發(fā)現(xiàn)與控制》,是首篇系統(tǒng)研究LLMs情緒產(chǎn)生內(nèi)部機(jī)制的論文

但Anthropic在原始博客中并未引用這一研究成果。



目前經(jīng)作者親自溝通,A社已經(jīng)火速立正道歉,并更新了論文博客,突出引用這篇工作。



兩篇“撞車”的研究

Chenxi Wang團(tuán)隊(duì)的論文《“LLMs 會“感覺”嗎?情緒回路的發(fā)現(xiàn)與控制》,研究了驅(qū)動語言模型產(chǎn)生情緒輸出的內(nèi)部機(jī)制。

這篇研究扒清了大語言模型的 “情緒表達(dá)底層邏輯”,回答了 “AI有沒有內(nèi)在的情緒機(jī)制、靠什么表達(dá)情緒、能不能精準(zhǔn)控制” 三個關(guān)鍵問題。

據(jù)作者介紹,這是首篇系統(tǒng)研究LLMs情緒產(chǎn)生內(nèi)部機(jī)制的論文



Chenxi Wang認(rèn)為,兩篇論文都研究了LLM自身產(chǎn)生的情感,而不是LLM在他人文本中感知到的情感,但Anthropic并未引用他們的研究成果。

她很快聯(lián)系了Anthropic的通訊作者Jack Lindsey。Jack同意添加引用,并分享了他對兩篇論文之間關(guān)系的理解。

Jack一開始指出,Chenxi Wang團(tuán)隊(duì)的核心發(fā)現(xiàn)與原始博客中列舉的幾篇先前的研究有重疊之處。

但Chenxi Wang逐一閱讀這些論文后,指出它們研究的是LLM的“情緒感知”——即LLM如何識別輸入文本中的情緒,而非“情緒生成機(jī)制”。



作者Chenxi Wang回復(fù)Anthropic的郵件



隨后,Jack認(rèn)可了這一區(qū)別。

目前,Anthropic已經(jīng)更新其論文博客,在“相關(guān)工作”部分添加了對這一工作的引用。

首篇系統(tǒng)性AI情緒回路研究

接下來仔細(xì)看看這篇華人團(tuán)隊(duì)的論文,它主要解答了三個核心問題:

AI有沒有內(nèi)在的情緒機(jī)制?以什么形式存在?能不能精準(zhǔn)控制?

而且還造出了LLM里的 “情緒回路”,實(shí)現(xiàn)了比提示詞、向量操控更精準(zhǔn)的情緒控制。



研究的主實(shí)驗(yàn)?zāi)P褪荓LaMA-3.2-3B-Instruct,并在Qwen2.5-7B-Instruct上驗(yàn)證了方法是否具有跨模型泛化能力。

首先解答第一個問題:大模型是否存在“與上下文無關(guān)”的情緒機(jī)制?

研究者構(gòu)建了一個受控數(shù)據(jù)集SEV,覆蓋工作、學(xué)習(xí)、人際關(guān)系等8個日常場景。

每個場景配 “正面/中性/負(fù)面” 三種結(jié)果,用于描述同一情境下的不同結(jié)果。嚴(yán)禁使用任何情緒詞(如“開心”“難過”),以確保情緒差異源于事件語義。

接著,研究者引導(dǎo)AI表達(dá)6種基礎(chǔ)情緒(喜、怒、哀、懼、驚、惡),從AI的各層網(wǎng)絡(luò)里,提取出了和語境無關(guān)、只對應(yīng)情緒的 “情緒方向向量”

而且從AI網(wǎng)絡(luò)的淺層開始,不同情緒的信號就會慢慢分開,形成清晰的 “情緒分組”。

比如憤怒和厭惡挨得近、悲傷和恐懼挨得近,和人類對情緒的直覺完全一致,還會在深層網(wǎng)絡(luò)里保持穩(wěn)定。



這也就解答了第一個問題:模型內(nèi)部確實(shí)編碼了穩(wěn)定的、與具體語義無關(guān)的情緒表示。

第二個問題:這些情緒機(jī)制以什么形式存在?

答案是,AI每層網(wǎng)絡(luò)里,只有少數(shù)神經(jīng)元(MLP層)和注意力頭(Attn層)在主導(dǎo)情緒表達(dá)。

研究者用兩個實(shí)驗(yàn)證明了這一點(diǎn):

1、消融實(shí)驗(yàn):把這些核心的神經(jīng)元/注意力頭關(guān)掉,AI的情緒表達(dá)能力會驟降,而且只需要關(guān)2-4個神經(jīng)元、1-2個注意力頭,效果就會大幅下降。

2、增強(qiáng)實(shí)驗(yàn):只激活這些核心組件,哪怕不給AI任何 “要表達(dá)某種情緒” 的提示,AI也能自己生出對應(yīng)情緒,而激活隨機(jī)組件則完全沒效果。



第三個問題:能否利用這些機(jī)制實(shí)現(xiàn)通用情緒控制?

答案是可以,而且效果顯著優(yōu)于現(xiàn)有方法。

研究者進(jìn)一步發(fā)現(xiàn),情緒信息在多層之間傳播,深層網(wǎng)絡(luò)的情緒表示趨于穩(wěn)定。

他們把每層的核心情緒零件,按影響力整合起來,形成了跨層的、連貫的“情緒回路”



直接調(diào)節(jié)這個回路,使AI生成指定情緒,在測試集上的整體情緒表達(dá)準(zhǔn)確率達(dá)到99.65%,遠(yuǎn)超之前的 “提示詞引導(dǎo)”和“向量操控” 方法。

尤其是之前最難控制的 “驚訝” 情緒,實(shí)現(xiàn)了100%準(zhǔn)確表達(dá)。



此外,團(tuán)隊(duì)還在Qwen2.5-7B上重復(fù)了一遍實(shí)驗(yàn),結(jié)果發(fā)現(xiàn):

  • Qwen因?yàn)橛邪踩珜R,直接操控很難讓它表達(dá)負(fù)面情緒,但用這套 “情緒回路” 方法,還是能有效引導(dǎo);
  • 兩個模型都表現(xiàn)出 “少數(shù)核心組件主導(dǎo)情緒” 的特點(diǎn),說明這套機(jī)制是LLM的通用規(guī)律,不是某個模型的特例。



碩士生硬剛Anthropic

論文一作Chenxi Wang,MBZUAI(穆罕默德·本·扎耶德人工智能學(xué)院)的NLP碩士研究生,本科畢業(yè)于西安交通大學(xué)計算機(jī)科學(xué)專業(yè)。



其研究方向聚焦于人本人工智能、可解釋性研究,有多篇一作/共同一作論文被EMNLP、ACL、NeurIPS、COLING等頂會接收。目前正在Qwen后訓(xùn)練團(tuán)隊(duì)實(shí)習(xí)。

這件事情已經(jīng)告一段落,好在結(jié)局算是比較友好:

Anthropic道歉并補(bǔ)引了這篇工作;而Chenxi Wang則稱贊Anthropic在雙方重疊部分之外,做出了真正獨(dú)立的貢獻(xiàn)。

  • 尤其是研究情緒表征在不同情境下的功能作用方面,包括對偏好和與對齊相關(guān)行為的影響、在真實(shí)交互中的激活情況,以及后訓(xùn)練階段這些表征的演變。
    這些都是我們工作未曾涉及的重要方向。



她也指出,通訊作者Jack Lindsey在整個交流過程中,始終保持尊重的態(tài)度,并真誠地參與到技術(shù)論證中。

最后,感興趣的朋友可以讀一讀這兩篇論文,鏈接已附在下方~


[1]https://x.com/ChenxiWang19183/status/2041204375549604106?s=20
[2]華人團(tuán)隊(duì)論文:https://arxiv.org/abs/2510.11328
[3]Anthropic論文:https://transformer-circuits.pub/2026/emotions/index.html#toc-18

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鄭麗文抵達(dá)上海,大陸高規(guī)格接待,國民黨大佬:兩岸絕不能動武

鄭麗文抵達(dá)上海,大陸高規(guī)格接待,國民黨大佬:兩岸絕不能動武

娛樂小可愛蛙
2026-04-07 17:35:50
快訊!特朗普“怒批”日本了!

快訊!特朗普“怒批”日本了!

達(dá)文西看世界
2026-04-07 17:17:02
江蘇百畝大蔥被哄搶,場面宛如蝗蟲過境,戶主哭訴太慘了,已報警

江蘇百畝大蔥被哄搶,場面宛如蝗蟲過境,戶主哭訴太慘了,已報警

眼光很亮
2026-04-07 13:53:06
陳麗華白手起家,10年前已是中國女首富

陳麗華白手起家,10年前已是中國女首富

極目新聞
2026-04-07 11:33:24
鄭麗文抵達(dá)上海,大陸高規(guī)格接待,國民黨大佬:兩岸絕不能動武

鄭麗文抵達(dá)上海,大陸高規(guī)格接待,國民黨大佬:兩岸絕不能動武

小童歷史
2026-04-07 16:57:59
國務(wù)院825號令正式落地!這些執(zhí)法全被叫停,老百姓收好維權(quán)干貨

國務(wù)院825號令正式落地!這些執(zhí)法全被叫停,老百姓收好維權(quán)干貨

混沌錄
2026-04-07 17:59:04
伊朗發(fā)出最后通牒!俄通告全球?qū)?zhàn),法國上將:中估計也要到了

伊朗發(fā)出最后通牒!俄通告全球?qū)?zhàn),法國上將:中估計也要到了

觀察者小海風(fēng)
2026-04-07 16:07:23
75歲姜昆近況:與46歲單身愛女相依為命,日子過得讓人羨慕

75歲姜昆近況:與46歲單身愛女相依為命,日子過得讓人羨慕

娛說瑜悅
2026-04-04 15:38:01
“虧大了”?浙江多個小區(qū)物業(yè)主動撤場,業(yè)主卻稱:錢花得冤,背后有筆算不攏的賬

“虧大了”?浙江多個小區(qū)物業(yè)主動撤場,業(yè)主卻稱:錢花得冤,背后有筆算不攏的賬

環(huán)球網(wǎng)資訊
2026-04-07 14:42:45
大雨、暴雨將抵河南!

大雨、暴雨將抵河南!

大象新聞
2026-04-07 16:53:14
繼德國之后,英國也開始貼出“中文標(biāo)語”?中國游客:不能夠接受

繼德國之后,英國也開始貼出“中文標(biāo)語”?中國游客:不能夠接受

潮鹿逐夢
2026-04-02 12:31:48
與黑鷹行動相比,美軍此次成功解救飛行員,是川普軍事改革的勝利

與黑鷹行動相比,美軍此次成功解救飛行員,是川普軍事改革的勝利

壹家言
2026-04-06 07:52:53
特朗普威脅伊朗,中方表態(tài)

特朗普威脅伊朗,中方表態(tài)

澎湃新聞
2026-04-07 17:04:04
王思聰曬日本豪宅一角,墻上掛東京地圖很搶鏡,和懶懶要長期居住

王思聰曬日本豪宅一角,墻上掛東京地圖很搶鏡,和懶懶要長期居住

娛樂團(tuán)長
2026-04-06 18:00:03
東北3歲小網(wǎng)紅繼續(xù)做吃播,父母是真不想上班

東北3歲小網(wǎng)紅繼續(xù)做吃播,父母是真不想上班

九方魚論
2026-04-07 05:02:58
中國造不出光刻機(jī)?中科大副院長:美國造不出,中國永遠(yuǎn)都不可能

中國造不出光刻機(jī)?中科大副院長:美國造不出,中國永遠(yuǎn)都不可能

勇敢的人享受生活
2026-04-07 11:26:46
今日最慘股,月內(nèi)已腰斬今又一字跌停,而板塊個股卻全部上漲!

今日最慘股,月內(nèi)已腰斬今又一字跌停,而板塊個股卻全部上漲!

丁丁鯉史紀(jì)
2026-04-07 15:35:34
安徽岳西6歲女童失蹤遇害案:35歲女子被抓獲 家屬辟謠“賠1萬元”傳言

安徽岳西6歲女童失蹤遇害案:35歲女子被抓獲 家屬辟謠“賠1萬元”傳言

閃電新聞
2026-04-07 16:58:24
小米挖孔版維權(quán)準(zhǔn)車主稱接到通知,可找人買新車退回定金,客服:非車企政策

小米挖孔版維權(quán)準(zhǔn)車主稱接到通知,可找人買新車退回定金,客服:非車企政策

紅星資本局
2026-04-07 19:25:04
伊朗提出戰(zhàn)爭賠償,特朗普答應(yīng)賠2.5萬億美元,但掏錢的不是美國

伊朗提出戰(zhàn)爭賠償,特朗普答應(yīng)賠2.5萬億美元,但掏錢的不是美國

人生錄
2026-04-07 17:19:08
2026-04-07 19:51:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12434文章數(shù) 176445關(guān)注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

英媒:伊朗最高領(lǐng)袖病重昏迷 無法參與任何國家決策

頭條要聞

英媒:伊朗最高領(lǐng)袖病重昏迷 無法參與任何國家決策

體育要聞

官宣簽約“AI球員”,這支球隊(duì)被罵慘了...

娛樂要聞

女首富陳麗華離世 被曝生前已分好遺產(chǎn)

財經(jīng)要聞

10萬億財政轉(zhuǎn)移支付,被誰拿走了?

汽車要聞

不止是大 極狐首款MPV問道V9靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

游戲
本地
手機(jī)
家居
親子

大話西游手游通用套裝哪個好用?仙族首選容止,變身卡不再被克

本地新聞

跟著歌聲游安徽,聽古村回響

手機(jī)要聞

華為暢享90 Pro Max升級鴻蒙6.0.0.138 SP23,新增HiCar互聯(lián)

家居要聞

雅致愜意 感知生活之美

親子要聞

別讓過度檢查,毀了你的備孕路!

無障礙瀏覽 進(jìn)入關(guān)懷版