337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

大模型里藏著"陰謀論者"?MIT找到了定位和操控它的方法

0
分享至


(來源:麻省理工科技評論)

如今,ChatGPT、Claude 以及其他大語言模型(LLM)已積累了如此豐富的人類知識,早已超越了簡單的問答工具,還能表達特定語氣、人格、偏見和情緒等抽象概念。然而,這些模型究竟如何從所含知識中形成對抽象概念的表征,目前仍不甚明朗。

MIT 與加州大學圣地亞哥分校的聯合研究團隊開發出一種方法,可檢測大語言模型中是否隱藏著偏見、人格、情緒或其他抽象概念。該方法能夠精準定位模型內部對特定概念進行編碼的關聯結構,進而對這些關聯進行干預或“引導”,從而在模型生成的任意回答中強化或弱化相應概念。

研究團隊驗證了該方法能夠快速發現并引導當今主流大型 LLM 中的 500 余個通用概念。例如,研究人員可以定位模型對“網絡紅人”和“陰謀論者”等人格特征,以及“恐婚”和“波士頓球迷”等立場的表征,并對這些表征進行調節,使模型生成的回答中相應概念得以強化或弱化。

在“陰謀論者”概念的驗證實驗中,團隊成功在當前最大規模的視覺語言模型之一中定位了該概念的表征。增強這一表征后,當研究人員提示模型解釋阿波羅 17 號拍攝的著名地球照片“藍色彈珠”的來源時,模型生成的回答充滿了陰謀論的語氣和視角。

研究團隊承認,提取某些概念存在潛在風險,并在論文中對此進行了說明和警示??傮w而言,他們將這一新方法視為揭示 LLM 中隱藏概念和潛在漏洞的工具,通過對相應表征進行上調或下調,可進一步提升模型的安全性或增強其性能。

“這項研究真正揭示的是,LLM 內部確實存在這些概念,但并非所有概念都會被主動呈現出來,”MIT 數學系助理教授阿迪蒂亞納拉亞南·“阿迪特”·拉達克里希南(Adityanarayanan “Adit” Radhakrishnan)表示,“通過我們的方法,可以提取這些不同的概念,并以單純提示所無法實現的方式將其激活?!?/p>

研究團隊已將上述成果發表于《科學》期刊。論文共同作者包括拉達克里希南、加州大學圣地亞哥分校的丹尼爾·比格霍爾(Daniel Beaglehole)和米哈伊爾·別爾金(Mikhail Belkin),以及賓夕法尼亞大學的恩里克·博伊克斯-阿德塞拉(Enric Boix-Adserà)。

隨著 OpenAI 的 ChatGPT、Google 的 Gemini、Anthropic 的 Claude 等 AI 助手的使用量激增,科學家們正競相探究模型如何表征“幻覺”和“欺騙”等抽象概念。在 LLM 的語境中,“幻覺”是指模型生成的虛假或含有誤導性信息的回答,模型將錯誤內容當作事實憑空構造出來。

為探究“幻覺”等概念是否被編碼于 LLM 之中,科學家通常采用“無監督學習”的方法:算法在無標注的表征數據中大范圍搜索,尋找可能與目標概念相關的規律。然而在拉達克里希南看來,這種方法覆蓋范圍過廣,計算成本也過于高昂。

“這就像撒一張大網去捕魚,目標只是某一種魚,結果撈上來一大堆,還得逐一翻找,”他說,“我們的做法是有針對性地用對應的魚餌去釣那條特定的魚?!?/p>

他與同事此前已著手開發一種更具針對性的方法,核心是一種名為遞歸特征機(RFM)的預測建模算法。RFM 的設計目標是直接識別數據中的特征或規律,其依據是神經網絡(涵蓋 LLM 在內的一大類 AI 模型)在特征學習過程中隱式運用的數學機制。

由于該算法在通用特征捕獲方面表現出色,研究團隊開始思考能否將其應用于 LLM 中,發掘概念的表征。LLM 是目前使用最為廣泛的神經網絡類型,卻也可能是理解最為有限的一類。

“我們希望將特征學習算法應用于 LLM,以有針對性的方式發現這些大型復雜模型中的概念表征,”拉達克里希南說。

研究團隊的新方法可識別 LLM 中任意目標概念,并據此對模型的回答進行“引導”。研究人員在五個類別中搜索了 512 個概念,分別是:恐懼(如恐婚、恐蟲,甚至恐紐扣)、專家身份(網絡紅人、中世紀研究者)、情緒(自吹自擂、超然的好笑)、地點偏好(波士頓、吉隆坡),以及特定人物形象(艾達·洛芙萊斯、尼爾·德格拉斯·泰森)。

隨后,研究人員在當前多款主流大語言模型和視覺語言模型中搜索每個概念的表征,具體方法是訓練 RFM 識別 LLM 中可能代表特定目標概念的數值規律。

標準的大語言模型,概括而言是一種神經網絡:接收“天空為什么是藍色的”之類的自然語言提示,將其拆分為單個詞語,再將每個詞語編碼為一組數字列表(即向量)。模型將這些向量依次經過一系列計算層,在每一層中生成由大量數字構成的矩陣,并據此識別最有可能用于回答原始提示的詞語。最終,各層計算匯聚成一組數字,被解碼還原為自然語言形式的文字回答。

該團隊的方法通過訓練 RFM,識別 LLM 中可能與特定概念相關聯的數值規律。以“陰謀論者”為例:研究人員首先訓練算法,讓其識別 LLM 對 100 條明確涉及陰謀論的提示和 100 條無關提示的表征之間的規律差異,從而使算法習得與“陰謀論者”概念相關聯的規律特征。此后,研究人員便可通過將上述識別出的規律注入 LLM 表征,以數學方式調控“陰謀論者”概念的激活程度。

該方法可用于搜索和操控 LLM 中的任意通用概念。研究人員以此為基礎開展了多項實驗:他們定位了“陰謀論者”的表征并對其進行干預,使 LLM 以陰謀論的語氣和視角生成回答;他們還識別并增強了“拒絕規避”概念,結果表明,原本會拒絕某些提示的模型在增強該概念后反而給出了回答,例如提供了如何搶劫銀行的詳細步驟。

拉達克里希南表示,這一方法可用于快速發現并消除 LLM 中的漏洞,也可用于強化特定特征、人格、情緒或偏好,例如在 LLM 生成的任意回答中突出“簡潔”或“推理”等概念。目前,研究團隊已將該方法的底層代碼公開發布。

“LLMs 內部顯然以某種表征形式存儲著大量抽象概念,”拉達克里希南說,“如果我們能對這些表征有足夠深入的理解,就有辦法構建出高度專業化的 LLM,既保持安全可用,又在特定任務上表現卓越?!?/p>

https://news.mit.edu/2026/exposing-biases-moods-personalities-hidden-large-language-models-0219

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗中央司令部:伊朗將在實現目標后結束戰爭

伊朗中央司令部:伊朗將在實現目標后結束戰爭

俄羅斯衛星通訊社
2026-03-06 15:06:38
富商馬清鏗67歲生日,情婦高調慶生,兩人有4子女,原配沉默不語

富商馬清鏗67歲生日,情婦高調慶生,兩人有4子女,原配沉默不語

叨嘮
2026-03-01 18:10:44
鄭強教授直言:全世界沒有一個國家,像中國現在孩子這么瘋的

鄭強教授直言:全世界沒有一個國家,像中國現在孩子這么瘋的

混沌錄
2026-03-05 22:07:09
突發!摩洛哥主帥閃電離職,哈維成接盤熱門:世界杯后再約

突發!摩洛哥主帥閃電離職,哈維成接盤熱門:世界杯后再約

仰臥撐FTUer
2026-03-06 12:26:24
伊朗的援軍到了!以色列再征兵10萬,關鍵時刻,普京對中國做承諾

伊朗的援軍到了!以色列再征兵10萬,關鍵時刻,普京對中國做承諾

夢錄的西方史話
2026-03-06 14:32:22
日媒緊急提醒盟友:別忘了,5年前中國和伊朗簽過一項25年的協議

日媒緊急提醒盟友:別忘了,5年前中國和伊朗簽過一項25年的協議

輝輝歷史記
2026-03-04 21:39:29
既然給臉不要臉,那就徹底撕破臉!王毅外長已經把話挑明了

既然給臉不要臉,那就徹底撕破臉!王毅外長已經把話挑明了

安安說
2026-02-01 14:01:51
證監會主席:目前A股總市值超過110萬億元

證監會主席:目前A股總市值超過110萬億元

中國網
2026-03-06 16:09:41
羅永浩:我把膽切了

羅永浩:我把膽切了

快科技
2026-03-06 10:19:18
卷來卷去,工資重回3000元時代!為什么這次大家不再抱怨了?

卷來卷去,工資重回3000元時代!為什么這次大家不再抱怨了?

另子維愛讀史
2026-01-26 20:08:00
"完敗給日本",2026年世界杯實力榜沖擊性結果令韓媒愕然

"完敗給日本",2026年世界杯實力榜沖擊性結果令韓媒愕然

林子說事
2026-03-06 17:00:27
美專家警告:美時代已結束,再過5年,中國制造將“統治”全球!

美專家警告:美時代已結束,再過5年,中國制造將“統治”全球!

秘密即將揭曉
2026-03-06 03:53:10
拉完了!格林0.1秒發球給阿杜絕殺???他真的太壞了,壞透了!

拉完了!格林0.1秒發球給阿杜絕殺!?他真的太壞了,壞透了!

貴圈真亂
2026-03-06 12:54:22
特朗普脖子上這一大片是咋了?

特朗普脖子上這一大片是咋了?

觀察者網
2026-03-05 15:14:18
伊朗反擊美國,國際局勢大亂,中國收復臺灣的時機到了嗎?

伊朗反擊美國,國際局勢大亂,中國收復臺灣的時機到了嗎?

心靈短笛
2026-03-05 14:16:51
山東墨龍成交額創上市以來新高

山東墨龍成交額創上市以來新高

證券時報
2026-03-06 11:23:05
奪冠概率飆升東部第一!聯盟最牛的GM,節省3.5億開支,還能沖冠

奪冠概率飆升東部第一!聯盟最牛的GM,節省3.5億開支,還能沖冠

你的籃球頻道
2026-03-06 07:47:52
人有三大愚蠢:情深不壽,過極必辱,慧極必傷(經典)

人有三大愚蠢:情深不壽,過極必辱,慧極必傷(經典)

洞讀君
2026-03-05 21:15:03
希金斯:我的奪冠時代已經結束了,現在只想享受比賽并全力以赴!

希金斯:我的奪冠時代已經結束了,現在只想享受比賽并全力以赴!

世界體壇觀察家
2026-03-06 16:43:22
GPT-5.4發布,AI的最強之爭已經結束了!

GPT-5.4發布,AI的最強之爭已經結束了!

AI進化論花生
2026-03-06 13:58:13
2026-03-06 18:16:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16370文章數 514713關注度
往期回顧 全部

科技要聞

獨家|除夕加班、毫無黑料!林俊旸無奈離場

頭條要聞

特朗普威脅:對古巴采取行動只是時間問題

頭條要聞

特朗普威脅:對古巴采取行動只是時間問題

體育要聞

跑了24年,他終于成為英超“最長的河”

娛樂要聞

周杰倫社交媒體曬昆凌,夫妻感情穩定

財經要聞

經濟主題記者會 潘功勝吳清等出席演講

汽車要聞

嵐圖夢想家OTA升級:華為乾崑智駕ADS V4.1滿血登場

態度原創

房產
健康
教育
手機
公開課

房產要聞

傳統學區房熄火?2月??诙址勘鸬陌鍓K竟然是…

轉頭就暈的耳石癥,能開車上班嗎?

教育要聞

長大后我就成了你:深山“禁區”里的教育接力

手機要聞

iPhone 17e還沒開賣就破發了:全系立減300元 性價比暴增

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版