網易首頁 > 網易號 > 正文申請入駐

大模型里藏著"陰謀論者"？MIT找到了定位和操控它的方法

2026-02-27 14:06:47　來源: DeepTech深科技

北京舉報

分享至

（來源：麻省理工科技評論）

如今，ChatGPT、Claude 以及其他大語言模型（LLM）已積累了如此豐富的人類知識，早已超越了簡單的問答工具，還能表達特定語氣、人格、偏見和情緒等抽象概念。然而，這些模型究竟如何從所含知識中形成對抽象概念的表征，目前仍不甚明朗。

MIT 與加州大學圣地亞哥分校的聯合研究團隊開發出一種方法，可檢測大語言模型中是否隱藏著偏見、人格、情緒或其他抽象概念。該方法能夠精準定位模型內部對特定概念進行編碼的關聯結構，進而對這些關聯進行干預或“引導”，從而在模型生成的任意回答中強化或弱化相應概念。

研究團隊驗證了該方法能夠快速發現并引導當今主流大型 LLM 中的 500 余個通用概念。例如，研究人員可以定位模型對“網絡紅人”和“陰謀論者”等人格特征，以及“恐婚”和“波士頓球迷”等立場的表征，并對這些表征進行調節，使模型生成的回答中相應概念得以強化或弱化。

在“陰謀論者”概念的驗證實驗中，團隊成功在當前最大規模的視覺語言模型之一中定位了該概念的表征。增強這一表征后，當研究人員提示模型解釋阿波羅 17 號拍攝的著名地球照片“藍色彈珠”的來源時，模型生成的回答充滿了陰謀論的語氣和視角。

研究團隊承認，提取某些概念存在潛在風險，并在論文中對此進行了說明和警示?？傮w而言，他們將這一新方法視為揭示 LLM 中隱藏概念和潛在漏洞的工具，通過對相應表征進行上調或下調，可進一步提升模型的安全性或增強其性能。

“這項研究真正揭示的是，LLM 內部確實存在這些概念，但并非所有概念都會被主動呈現出來，”MIT 數學系助理教授阿迪蒂亞納拉亞南·“阿迪特”·拉達克里希南（Adityanarayanan “Adit” Radhakrishnan）表示，“通過我們的方法，可以提取這些不同的概念，并以單純提示所無法實現的方式將其激活?！?/p>

研究團隊已將上述成果發表于《科學》期刊。論文共同作者包括拉達克里希南、加州大學圣地亞哥分校的丹尼爾·比格霍爾（Daniel Beaglehole）和米哈伊爾·別爾金（Mikhail Belkin），以及賓夕法尼亞大學的恩里克·博伊克斯－阿德塞拉（Enric Boix－Adserà）。

隨著 OpenAI 的 ChatGPT、Google 的 Gemini、Anthropic 的 Claude 等 AI 助手的使用量激增，科學家們正競相探究模型如何表征“幻覺”和“欺騙”等抽象概念。在 LLM 的語境中，“幻覺”是指模型生成的虛假或含有誤導性信息的回答，模型將錯誤內容當作事實憑空構造出來。

為探究“幻覺”等概念是否被編碼于 LLM 之中，科學家通常采用“無監督學習”的方法：算法在無標注的表征數據中大范圍搜索，尋找可能與目標概念相關的規律。然而在拉達克里希南看來，這種方法覆蓋范圍過廣，計算成本也過于高昂。

“這就像撒一張大網去捕魚，目標只是某一種魚，結果撈上來一大堆，還得逐一翻找，”他說，“我們的做法是有針對性地用對應的魚餌去釣那條特定的魚?！?/p>

他與同事此前已著手開發一種更具針對性的方法，核心是一種名為遞歸特征機（RFM）的預測建模算法。RFM 的設計目標是直接識別數據中的特征或規律，其依據是神經網絡（涵蓋 LLM 在內的一大類 AI 模型）在特征學習過程中隱式運用的數學機制。

由于該算法在通用特征捕獲方面表現出色，研究團隊開始思考能否將其應用于 LLM 中，發掘概念的表征。LLM 是目前使用最為廣泛的神經網絡類型，卻也可能是理解最為有限的一類。

“我們希望將特征學習算法應用于 LLM，以有針對性的方式發現這些大型復雜模型中的概念表征，”拉達克里希南說。

研究團隊的新方法可識別 LLM 中任意目標概念，并據此對模型的回答進行“引導”。研究人員在五個類別中搜索了 512 個概念，分別是：恐懼（如恐婚、恐蟲，甚至恐紐扣）、專家身份（網絡紅人、中世紀研究者）、情緒（自吹自擂、超然的好笑）、地點偏好（波士頓、吉隆坡），以及特定人物形象（艾達·洛芙萊斯、尼爾·德格拉斯·泰森）。

隨后，研究人員在當前多款主流大語言模型和視覺語言模型中搜索每個概念的表征，具體方法是訓練 RFM 識別 LLM 中可能代表特定目標概念的數值規律。

標準的大語言模型，概括而言是一種神經網絡：接收“天空為什么是藍色的”之類的自然語言提示，將其拆分為單個詞語，再將每個詞語編碼為一組數字列表（即向量）。模型將這些向量依次經過一系列計算層，在每一層中生成由大量數字構成的矩陣，并據此識別最有可能用于回答原始提示的詞語。最終，各層計算匯聚成一組數字，被解碼還原為自然語言形式的文字回答。

該團隊的方法通過訓練 RFM，識別 LLM 中可能與特定概念相關聯的數值規律。以“陰謀論者”為例：研究人員首先訓練算法，讓其識別 LLM 對 100 條明確涉及陰謀論的提示和 100 條無關提示的表征之間的規律差異，從而使算法習得與“陰謀論者”概念相關聯的規律特征。此后，研究人員便可通過將上述識別出的規律注入 LLM 表征，以數學方式調控“陰謀論者”概念的激活程度。

該方法可用于搜索和操控 LLM 中的任意通用概念。研究人員以此為基礎開展了多項實驗：他們定位了“陰謀論者”的表征并對其進行干預，使 LLM 以陰謀論的語氣和視角生成回答；他們還識別并增強了“拒絕規避”概念，結果表明，原本會拒絕某些提示的模型在增強該概念后反而給出了回答，例如提供了如何搶劫銀行的詳細步驟。

拉達克里希南表示，這一方法可用于快速發現并消除 LLM 中的漏洞，也可用于強化特定特征、人格、情緒或偏好，例如在 LLM 生成的任意回答中突出“簡潔”或“推理”等概念。目前，研究團隊已將該方法的底層代碼公開發布。

“LLMs 內部顯然以某種表征形式存儲著大量抽象概念，”拉達克里希南說，“如果我們能對這些表征有足夠深入的理解，就有辦法構建出高度專業化的 LLM，既保持安全可用，又在特定任務上表現卓越?！?/p>

https://news.mit.edu/2026/exposing-biases-moods-personalities-hidden-large-language-models-0219

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.