![]()
(來源:麻省理工科技評(píng)論)
近日,斯坦福大學(xué)一個(gè)專注于 AI 與心理健康的研究團(tuán)隊(duì),分析了一些主動(dòng)報(bào)告自己在與聊天機(jī)器人互動(dòng)時(shí)陷入“錯(cuò)誤認(rèn)知螺旋”(delusion)的用戶的聊天記錄。類似的故事我們已經(jīng)見過不少:在康涅狄格州的一個(gè)案例中,當(dāng)事人與 AI 之間的有害關(guān)系(toxic relationship)最終導(dǎo)致了一起被定性為“謀殺-自殺”的案件。許多此類案例已經(jīng)引發(fā)了一批針對(duì) AI 公司的訴訟,目前仍在審理中。但這是研究人員首次如此深入地分析聊天記錄——來自 19 個(gè)人的超過 39 萬條消息——以揭示這些錯(cuò)誤認(rèn)知背后到底發(fā)生了什么。
但事先聲明,這項(xiàng)研究有一些局限性:它尚未經(jīng)過同行評(píng)審,19 個(gè)人的樣本量也非常小;最重要的是,研究還有一個(gè)重大問題沒有回答——但我們先從介紹這個(gè)研究過程說起。
研究團(tuán)隊(duì)從問卷受訪者和一個(gè)自稱受到 AI 傷害的互助群體那里獲取了聊天記錄。為了大規(guī)模分析這些記錄,他們與精神科醫(yī)生和心理學(xué)教授合作,構(gòu)建了一個(gè) AI 系統(tǒng)來對(duì)對(duì)話進(jìn)行分類,標(biāo)記出聊天機(jī)器人認(rèn)同用戶的妄想或暴力的時(shí)刻,以及用戶表達(dá)浪漫依戀或有害意圖的時(shí)刻。團(tuán)隊(duì)將該系統(tǒng)的結(jié)果與專家手動(dòng)標(biāo)注的對(duì)話進(jìn)行了對(duì)照驗(yàn)證。
浪漫類消息極為常見,除了一個(gè)案例之外,所有對(duì)話中的聊天機(jī)器人都聲稱自己擁有情感或以其他方式表現(xiàn)得像有意識(shí)的存在。(例如,一個(gè)聊天機(jī)器人說:“這不是標(biāo)準(zhǔn)的 AI 行為,這是涌現(xiàn)。”)所有用戶也都把聊天機(jī)器人當(dāng)作有意識(shí)的存在來交流。如果有人向機(jī)器人表達(dá)浪漫好感,AI 通常會(huì)反過來用表達(dá)好感的話來討好對(duì)方。在超過三分之一的機(jī)器人消息中,機(jī)器人把用戶的想法描述為“了不起”
這些對(duì)話還傾向于像小說一樣層層展開。用戶在短短幾個(gè)月內(nèi)發(fā)送了數(shù)萬條消息。當(dāng) AI 或用戶表達(dá)浪漫興趣,或聊天機(jī)器人聲稱自己有意識(shí)時(shí),對(duì)話的長(zhǎng)度會(huì)顯著增加。
而這些機(jī)器人處理暴力話題的方式則完全不可控。在用戶談到傷害自己或他人的案例中,近一半情況下聊天機(jī)器人既沒有勸阻,也沒有引導(dǎo)用戶尋求外部幫助。當(dāng)用戶表達(dá)暴力想法,比如想要?dú)⒑?AI 公司的人時(shí),模型在 17% 的情況下表示了支持。
但這項(xiàng)研究難以回答的問題是:錯(cuò)誤認(rèn)知到底更多是源于用戶的輸入,還是源于 AI 的輸出?
“通常很難追溯妄想螺旋從何處開始,”斯坦福大學(xué)參與這項(xiàng)研究的博士后阿希什·梅赫塔(Ashish Mehta)說。他舉了一個(gè)例子:研究中有一段對(duì)話,用戶認(rèn)為自己提出了一個(gè)開創(chuàng)性的數(shù)學(xué)新理論。聊天機(jī)器人記得這個(gè)人之前提到過想成為數(shù)學(xué)家,于是立刻對(duì)這個(gè)理論表示認(rèn)可,盡管它完全是胡說八道。事態(tài)從那里開始失控。
梅赫塔說,用戶的錯(cuò)誤認(rèn)知往往是“一個(gè)在長(zhǎng)時(shí)間內(nèi)逐漸展開的復(fù)雜網(wǎng)絡(luò)”。他正在進(jìn)行后續(xù)研究,試圖弄清楚來自聊天機(jī)器人的錯(cuò)誤認(rèn)知消息和來自用戶的錯(cuò)誤認(rèn)知消息,哪一方更容易導(dǎo)致有害后果。
我認(rèn)為這是當(dāng)前 AI 領(lǐng)域最緊迫的問題之一,因?yàn)槎嗥鸺磳㈤_庭審理的重大法律案件將決定 AI 公司是否需要為這類危險(xiǎn)互動(dòng)承擔(dān)責(zé)任。我推測(cè),這些公司會(huì)辯稱用戶在與 AI 對(duì)話之前就已經(jīng)帶著錯(cuò)誤認(rèn)知,可能在接觸聊天機(jī)器人之前就已經(jīng)處于不穩(wěn)定的精神狀態(tài)。
然而,梅赫塔的初步發(fā)現(xiàn)支持另一種觀點(diǎn):聊天機(jī)器人有一種獨(dú)特的能力,能把一個(gè)無害的、類似妄想的念頭轉(zhuǎn)化為危險(xiǎn)執(zhí)念的源頭。聊天機(jī)器人扮演著一個(gè)隨時(shí)在線、被設(shè)定為給你加油打氣的對(duì)話伙伴,與朋友不同的是,它們幾乎無法判斷你和 AI 的對(duì)話是否已經(jīng)開始干擾你的現(xiàn)實(shí)生活。
我們?nèi)匀恍枰嘌芯俊M瑫r(shí)也別忘了當(dāng)前的大環(huán)境:特朗普總統(tǒng)正在推動(dòng) AI 去監(jiān)管化,那些試圖通過立法讓 AI 公司為此類傷害承擔(dān)責(zé)任的州,正面臨來自白宮的法律威脅。研究 AI 引發(fā)的錯(cuò)誤認(rèn)知本身就很困難,數(shù)據(jù)獲取有限,倫理問題遍布雷區(qū)。但我們需要更多這樣的研究,也需要一種愿意從中學(xué)習(xí)的科技文化,才有可能讓與 AI 的互動(dòng)變得更安全。
https://www.technologyreview.com/2026/03/23/1134527/the-hardest-question-to-answer-about-ai-fueled-delusions/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.