337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Claude爆火研究漏引華人團隊成果,已挨打立正道歉

0
分享至

聽雨 發自 凹非寺量子位 | 公眾號 QbitAI

Anthropic新論文漏引同行工作,被抓包并貼臉質疑了。

MBZUAI研究生Chenxi Wang發現,這篇論文的引用列表里,是不是忘了些什么……



4月2日,Anthropic發布了一篇新論文,研究了Claude內部的“情緒機制”,在Sonnet 4.5中發現了171種“情緒向量”。

這些情緒會在與之關聯的情境中被激活,并且與人類的心理結構和情緒空間相似。



論文還驗證了情緒表征對模型行為的因果性影響,比如絕望會驅使模型采取不道德的行為,或使其對無法解決的編程任務實施“作弊”。

但Chenxi Wang自述,她讀到這篇博客時第一反應是:

  • 這不是我們去年做的嗎?

她可以肯定,他們去年10月發表的論文《LLMs會“感覺”嗎?情緒回路的發現與控制》,是首篇系統研究LLMs情緒產生內部機制的論文

但Anthropic在原始博客中并未引用這一研究成果。



目前經作者親自溝通,A社已經火速立正道歉,并更新了論文博客,突出引用這篇工作。



兩篇“撞車”的研究

Chenxi Wang團隊的論文《“LLMs 會“感覺”嗎?情緒回路的發現與控制》,研究了驅動語言模型產生情緒輸出的內部機制。

這篇研究扒清了大語言模型的 “情緒表達底層邏輯”,回答了 “AI有沒有內在的情緒機制、靠什么表達情緒、能不能精準控制” 三個關鍵問題。

據作者介紹,這是首篇系統研究LLMs情緒產生內部機制的論文



Chenxi Wang認為,兩篇論文都研究了LLM自身產生的情感,而不是LLM在他人文本中感知到的情感,但Anthropic并未引用他們的研究成果。

她很快聯系了Anthropic的通訊作者Jack Lindsey。Jack同意添加引用,并分享了他對兩篇論文之間關系的理解。

Jack一開始指出,Chenxi Wang團隊的核心發現與原始博客中列舉的幾篇先前的研究有重疊之處。

但Chenxi Wang逐一閱讀這些論文后,指出它們研究的是LLM的“情緒感知”——即LLM如何識別輸入文本中的情緒,而非“情緒生成機制”。



作者Chenxi Wang回復Anthropic的郵件



隨后,Jack認可了這一區別。

目前,Anthropic已經更新其論文博客,在“相關工作”部分添加了對這一工作的引用。

首篇系統性AI情緒回路研究

接下來仔細看看這篇華人團隊的論文,它主要解答了三個核心問題:

AI有沒有內在的情緒機制?以什么形式存在?能不能精準控制?

而且還造出了LLM里的 “情緒回路”,實現了比提示詞、向量操控更精準的情緒控制。



研究的主實驗模型是LLaMA-3.2-3B-Instruct,并在Qwen2.5-7B-Instruct上驗證了方法是否具有跨模型泛化能力。

首先解答第一個問題:大模型是否存在“與上下文無關”的情緒機制?

研究者構建了一個受控數據集SEV,覆蓋工作、學習、人際關系等8個日常場景。

每個場景配 “正面/中性/負面” 三種結果,用于描述同一情境下的不同結果。嚴禁使用任何情緒詞(如“開心”“難過”),以確保情緒差異源于事件語義。

接著,研究者引導AI表達6種基礎情緒(喜、怒、哀、懼、驚、惡),從AI的各層網絡里,提取出了和語境無關、只對應情緒的 “情緒方向向量”

而且從AI網絡的淺層開始,不同情緒的信號就會慢慢分開,形成清晰的 “情緒分組”。

比如憤怒和厭惡挨得近、悲傷和恐懼挨得近,和人類對情緒的直覺完全一致,還會在深層網絡里保持穩定。



這也就解答了第一個問題:模型內部確實編碼了穩定的、與具體語義無關的情緒表示。

第二個問題:這些情緒機制以什么形式存在?

答案是,AI每層網絡里,只有少數神經元(MLP層)和注意力頭(Attn層)在主導情緒表達。

研究者用兩個實驗證明了這一點:

1、消融實驗:把這些核心的神經元/注意力頭關掉,AI的情緒表達能力會驟降,而且只需要關2-4個神經元、1-2個注意力頭,效果就會大幅下降。

2、增強實驗:只激活這些核心組件,哪怕不給AI任何 “要表達某種情緒” 的提示,AI也能自己生出對應情緒,而激活隨機組件則完全沒效果。



第三個問題:能否利用這些機制實現通用情緒控制?

答案是可以,而且效果顯著優于現有方法。

研究者進一步發現,情緒信息在多層之間傳播,深層網絡的情緒表示趨于穩定。

他們把每層的核心情緒零件,按影響力整合起來,形成了跨層的、連貫的“情緒回路”



直接調節這個回路,使AI生成指定情緒,在測試集上的整體情緒表達準確率達到99.65%,遠超之前的 “提示詞引導”和“向量操控” 方法。

尤其是之前最難控制的 “驚訝” 情緒,實現了100%準確表達。



此外,團隊還在Qwen2.5-7B上重復了一遍實驗,結果發現:

  • Qwen因為有安全對齊,直接操控很難讓它表達負面情緒,但用這套 “情緒回路” 方法,還是能有效引導;
  • 兩個模型都表現出 “少數核心組件主導情緒” 的特點,說明這套機制是LLM的通用規律,不是某個模型的特例。



碩士生硬剛Anthropic

論文一作Chenxi Wang,MBZUAI(穆罕默德·本·扎耶德人工智能學院)的NLP碩士研究生,本科畢業于西安交通大學計算機科學專業。



其研究方向聚焦于人本人工智能、可解釋性研究,有多篇一作/共同一作論文被EMNLP、ACL、NeurIPS、COLING等頂會接收。目前正在Qwen后訓練團隊實習。

這件事情已經告一段落,好在結局算是比較友好:

Anthropic道歉并補引了這篇工作;而Chenxi Wang則稱贊Anthropic在雙方重疊部分之外,做出了真正獨立的貢獻。

  • 尤其是研究情緒表征在不同情境下的功能作用方面,包括對偏好和與對齊相關行為的影響、在真實交互中的激活情況,以及后訓練階段這些表征的演變。
    這些都是我們工作未曾涉及的重要方向。



她也指出,通訊作者Jack Lindsey在整個交流過程中,始終保持尊重的態度,并真誠地參與到技術論證中。

最后,感興趣的朋友可以讀一讀這兩篇論文,鏈接已附在下方~


[1]https://x.com/ChenxiWang19183/status/2041204375549604106?s=20
[2]華人團隊論文:https://arxiv.org/abs/2510.11328
[3]Anthropic論文:https://transformer-circuits.pub/2026/emotions/index.html#toc-18

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
出差前一刻,我偷偷在妻子身體乳里混了點熒光粉,3天后提前回家

出差前一刻,我偷偷在妻子身體乳里混了點熒光粉,3天后提前回家

戶外阿嶄
2026-04-17 19:17:03
革命衛隊與伊朗政府矛盾公開化,伊朗內部分裂愈演愈烈

革命衛隊與伊朗政府矛盾公開化,伊朗內部分裂愈演愈烈

修明札記
2026-04-19 11:47:24
我國肝癌高發,茶葉是背后的禍因?醫生勸告:3種茶才是幫兇

我國肝癌高發,茶葉是背后的禍因?醫生勸告:3種茶才是幫兇

岐黃傳人孫大夫
2026-04-12 06:30:03
叛逃至我國級別最高的外國領導人:越南副主席黃文歡,結局如何?

叛逃至我國級別最高的外國領導人:越南副主席黃文歡,結局如何?

興趣知識
2026-04-20 01:15:11
世錦賽戰報!世錦賽三冠王轟出3連鞭!6-3完爆波蘭小將,16強穩了

世錦賽戰報!世錦賽三冠王轟出3連鞭!6-3完爆波蘭小將,16強穩了

林子說事
2026-04-19 12:49:37
鄭麗文稱臺灣是國家,反對兩岸統一?喊話大陸:美國讓我過去

鄭麗文稱臺灣是國家,反對兩岸統一?喊話大陸:美國讓我過去

阿器談史
2026-01-26 20:48:30
為什么酒店大廚都是用勺子炒菜,而不是鏟子?里面有什么奧妙嗎?

為什么酒店大廚都是用勺子炒菜,而不是鏟子?里面有什么奧妙嗎?

思思夜話
2026-04-18 09:25:16
人活多久,看血壓就知道?壽命短的人,血壓往往有這3個信號

人活多久,看血壓就知道?壽命短的人,血壓往往有這3個信號

健康科普365
2026-04-15 19:25:03
廣西百色5歲走失男童已不幸身亡,當地通報

廣西百色5歲走失男童已不幸身亡,當地通報

澎湃新聞
2026-04-19 17:59:02
鄭麗文殺雞儆猴!對黨內開刀、向大陸交底,劍指“藍皮綠骨”之徒

鄭麗文殺雞儆猴!對黨內開刀、向大陸交底,劍指“藍皮綠骨”之徒

二大爺觀世界
2026-01-14 20:30:22
這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關!

這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關!

蜉蝣說
2026-01-29 14:46:50
中央明確了!社保最低繳費年限要提高,70、80后得早做準備

中央明確了!社保最低繳費年限要提高,70、80后得早做準備

云鵬敘事
2026-04-12 16:36:39
陳麗華的前丈夫叫王友發,但她的孩子們卻都姓趙,令人費解

陳麗華的前丈夫叫王友發,但她的孩子們卻都姓趙,令人費解

草莓解說體育
2026-04-19 01:17:58
別再羨慕西班牙了!國內月入4500元,就能過上他們中產的生活

別再羨慕西班牙了!國內月入4500元,就能過上他們中產的生活

李子櫥
2026-03-15 04:19:28
青城山修行十年,我親身經歷了三件無法解釋的怪事

青城山修行十年,我親身經歷了三件無法解釋的怪事

千秋文化
2026-03-21 19:57:48
張蘭已經把話挑明了,馬筱梅這些日子的反常,的確事出有因

張蘭已經把話挑明了,馬筱梅這些日子的反常,的確事出有因

云深不知在何處
2026-04-19 13:24:04
10-1勝傳奇名將,五連鞭打懵世界第一,三利好成就第二人

10-1勝傳奇名將,五連鞭打懵世界第一,三利好成就第二人

逗比演員說體育
2026-04-06 11:02:36
不懂車的人都多可怕?網友:?這個媳婦怕是人家都看不上

不懂車的人都多可怕?網友:?這個媳婦怕是人家都看不上

另子維愛讀史
2026-03-21 19:01:06
ASML總裁炮轟中國:若再繼續自主研究光刻機,將會破壞全球產業鏈

ASML總裁炮轟中國:若再繼續自主研究光刻機,將會破壞全球產業鏈

虎哥閑聊
2026-04-19 08:54:56
56歲虞美人集團董事長與26歲男友大婚:陪嫁5000萬,男方身份被扒

56歲虞美人集團董事長與26歲男友大婚:陪嫁5000萬,男方身份被扒

老貓觀點
2026-03-19 08:35:09
2026-04-20 03:15:00
量子位 incentive-icons
量子位
追蹤人工智能動態
12497文章數 176455關注度
往期回顧 全部

科技要聞

50分26秒破人類紀錄!300臺機器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內娛隔空掀桌第一人

財經要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態度原創

家居
旅游
手機
藝術
公開課

家居要聞

法式線條 時光靜淌

旅游要聞

北京投入2.2億元建成和田“三館一院”

手機要聞

8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

藝術要聞

超模施特洛耶克寫真曝光,簡直美到窒息,別錯過!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版