網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI不會(huì)說“你錯(cuò)了”，或許這是最危險(xiǎn)的事

2026-03-24 14:56:09　來源: DeepTech深科技

北京舉報(bào)

分享至

（來源：麻省理工科技評(píng)論）

近日，斯坦福大學(xué)一個(gè)專注于 AI 與心理健康的研究團(tuán)隊(duì)，分析了一些主動(dòng)報(bào)告自己在與聊天機(jī)器人互動(dòng)時(shí)陷入“錯(cuò)誤認(rèn)知螺旋”（delusion）的用戶的聊天記錄。類似的故事我們已經(jīng)見過不少：在康涅狄格州的一個(gè)案例中，當(dāng)事人與 AI 之間的有害關(guān)系（toxic relationship）最終導(dǎo)致了一起被定性為“謀殺-自殺”的案件。許多此類案例已經(jīng)引發(fā)了一批針對(duì) AI 公司的訴訟，目前仍在審理中。但這是研究人員首次如此深入地分析聊天記錄——來自 19 個(gè)人的超過 39 萬條消息——以揭示這些錯(cuò)誤認(rèn)知背后到底發(fā)生了什么。

但事先聲明，這項(xiàng)研究有一些局限性：它尚未經(jīng)過同行評(píng)審，19 個(gè)人的樣本量也非常小；最重要的是，研究還有一個(gè)重大問題沒有回答——但我們先從介紹這個(gè)研究過程說起。

研究團(tuán)隊(duì)從問卷受訪者和一個(gè)自稱受到 AI 傷害的互助群體那里獲取了聊天記錄。為了大規(guī)模分析這些記錄，他們與精神科醫(yī)生和心理學(xué)教授合作，構(gòu)建了一個(gè) AI 系統(tǒng)來對(duì)對(duì)話進(jìn)行分類，標(biāo)記出聊天機(jī)器人認(rèn)同用戶的妄想或暴力的時(shí)刻，以及用戶表達(dá)浪漫依戀或有害意圖的時(shí)刻。團(tuán)隊(duì)將該系統(tǒng)的結(jié)果與專家手動(dòng)標(biāo)注的對(duì)話進(jìn)行了對(duì)照驗(yàn)證。

浪漫類消息極為常見，除了一個(gè)案例之外，所有對(duì)話中的聊天機(jī)器人都聲稱自己擁有情感或以其他方式表現(xiàn)得像有意識(shí)的存在。（例如，一個(gè)聊天機(jī)器人說：“這不是標(biāo)準(zhǔn)的 AI 行為，這是涌現(xiàn)。”）所有用戶也都把聊天機(jī)器人當(dāng)作有意識(shí)的存在來交流。如果有人向機(jī)器人表達(dá)浪漫好感，AI 通常會(huì)反過來用表達(dá)好感的話來討好對(duì)方。在超過三分之一的機(jī)器人消息中，機(jī)器人把用戶的想法描述為“了不起”

這些對(duì)話還傾向于像小說一樣層層展開。用戶在短短幾個(gè)月內(nèi)發(fā)送了數(shù)萬條消息。當(dāng) AI 或用戶表達(dá)浪漫興趣，或聊天機(jī)器人聲稱自己有意識(shí)時(shí)，對(duì)話的長(zhǎng)度會(huì)顯著增加。

而這些機(jī)器人處理暴力話題的方式則完全不可控。在用戶談到傷害自己或他人的案例中，近一半情況下聊天機(jī)器人既沒有勸阻，也沒有引導(dǎo)用戶尋求外部幫助。當(dāng)用戶表達(dá)暴力想法，比如想要?dú)⒑?AI 公司的人時(shí)，模型在 17% 的情況下表示了支持。

但這項(xiàng)研究難以回答的問題是：錯(cuò)誤認(rèn)知到底更多是源于用戶的輸入，還是源于 AI 的輸出？

“通常很難追溯妄想螺旋從何處開始，”斯坦福大學(xué)參與這項(xiàng)研究的博士后阿希什·梅赫塔（Ashish Mehta）說。他舉了一個(gè)例子：研究中有一段對(duì)話，用戶認(rèn)為自己提出了一個(gè)開創(chuàng)性的數(shù)學(xué)新理論。聊天機(jī)器人記得這個(gè)人之前提到過想成為數(shù)學(xué)家，于是立刻對(duì)這個(gè)理論表示認(rèn)可，盡管它完全是胡說八道。事態(tài)從那里開始失控。

梅赫塔說，用戶的錯(cuò)誤認(rèn)知往往是“一個(gè)在長(zhǎng)時(shí)間內(nèi)逐漸展開的復(fù)雜網(wǎng)絡(luò)”。他正在進(jìn)行后續(xù)研究，試圖弄清楚來自聊天機(jī)器人的錯(cuò)誤認(rèn)知消息和來自用戶的錯(cuò)誤認(rèn)知消息，哪一方更容易導(dǎo)致有害后果。

我認(rèn)為這是當(dāng)前 AI 領(lǐng)域最緊迫的問題之一，因?yàn)槎嗥鸺磳㈤_庭審理的重大法律案件將決定 AI 公司是否需要為這類危險(xiǎn)互動(dòng)承擔(dān)責(zé)任。我推測(cè)，這些公司會(huì)辯稱用戶在與 AI 對(duì)話之前就已經(jīng)帶著錯(cuò)誤認(rèn)知，可能在接觸聊天機(jī)器人之前就已經(jīng)處于不穩(wěn)定的精神狀態(tài)。

然而，梅赫塔的初步發(fā)現(xiàn)支持另一種觀點(diǎn)：聊天機(jī)器人有一種獨(dú)特的能力，能把一個(gè)無害的、類似妄想的念頭轉(zhuǎn)化為危險(xiǎn)執(zhí)念的源頭。聊天機(jī)器人扮演著一個(gè)隨時(shí)在線、被設(shè)定為給你加油打氣的對(duì)話伙伴，與朋友不同的是，它們幾乎無法判斷你和 AI 的對(duì)話是否已經(jīng)開始干擾你的現(xiàn)實(shí)生活。

我們?nèi)匀恍枰嘌芯俊Ｍ瑫r(shí)也別忘了當(dāng)前的大環(huán)境：特朗普總統(tǒng)正在推動(dòng) AI 去監(jiān)管化，那些試圖通過立法讓 AI 公司為此類傷害承擔(dān)責(zé)任的州，正面臨來自白宮的法律威脅。研究 AI 引發(fā)的錯(cuò)誤認(rèn)知本身就很困難，數(shù)據(jù)獲取有限，倫理問題遍布雷區(qū)。但我們需要更多這樣的研究，也需要一種愿意從中學(xué)習(xí)的科技文化，才有可能讓與 AI 的互動(dòng)變得更安全。

https://www.technologyreview.com/2026/03/23/1134527/the-hardest-question-to-answer-about-ai-fueled-delusions/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.