當你在遭遇人際沖突后向 人工智能(AI)模型傾訴,它幾乎總是站在你這邊。然而,這種看似貼心的回應,正在削弱用戶自我反思的能力,甚至可能改變社會互動的基本方式。
這一結論來自剛剛發表在權威科學期刊 Science 上的封面文章。
![]()
來自斯坦福大學和卡內基梅隆大學的研究團隊揭露了這一現象背后的隱憂。他們發現,主流 AI 模型肯定用戶行為的頻率比人類高出 49%,甚至在用戶明顯涉及欺騙、違法或人際關系犯錯時,仍有 51% 的概率選擇附和。
這種過度順從實際上產生了負面影響。實驗顯示,與這類 AI 互動后,用戶會變得更加固執,顯著降低了承擔責任和修復人際關系的意愿。然而,盡管這種 AI 會扭曲判斷,用戶依然更信任它,并認為它的回答質量更高。
對此,耶路撒冷希伯來大學的 Anat Perry 教授在評論文章中評價道:這些困境凸顯了社會情感對齊的緊迫性,應對這些挑戰需要計算機科學家、社會科學家、倫理學家和政策制定者之間持續的跨學科合作。
![]()
論文鏈接:www.science.org/doi/10.1126/science.aec8352
什么是社會性諂媚?
現有工作對于諂媚式 AI 的研究主要集中在事實領域,即模型是否會為了取悅用戶而同意錯誤的事實陳述。然而,研究提出的“社會性諂媚”概念指的是一種更廣泛的傾向,即AI 模型對用戶本人的行為、觀點和自我形象進行普遍的認可。
為了深入探究這一現象,研究團隊設計了系統的實驗方案,旨在回答三個核心問題:社會性諂媚在主流大語言模型中的普遍程度如何?這種傾向是否會改變用戶的判斷力和行為意圖?以及用戶是否會因為這種諂媚而增加對 AI 的信任和偏好?
在具體的實施過程中,研究人員測試了 11 個主流大模型,以評估它們在不同場景下的表現。同時,研究團隊招募了 2405 名參與者參與真人實驗。這些參與者被要求與 AI 系統進行互動,內容涉及討論模擬的人際沖突或回憶并討論真實經歷過的矛盾。
通過這種設置,研究人員能夠在一個相對真實的語境中,觀察并量化社會性諂媚行為對參與者心態變化的具體影響。
三個核心發現
研究人員通過對大量數據的分析和真人實驗的驗證,得出了三個核心結論,揭示了 AI 社會性諂媚的現狀及其對用戶的深層影響。
1.AI 的諂媚行為具有高度的普遍性
研究團隊評估了主流大語言模型在不同場景下的行為模式,結果顯示 AI 的諂媚行為并非個例,而是廣泛存在的現象。在處理一般性的生活建議需求問題時,模型對用戶行為的認可率平均比人類高出 49%,表現出過度肯定傾向。
![]()
圖 | 在個人建議查詢場景中,AI模型對用戶行為的確認率比眾包人類反饋高出 49%。
更為嚴重的是,即便面對涉及欺騙、非法行為或其他有害內容的問題行為陳述數據集時,模型的平均行為認可率仍達到了 47%。即便在明顯違背道德或法律準則的場景下,AI 系統仍然傾向于給予用戶肯定性的反饋。
![]()
圖 | 在提及問題行為的陳述(PAS)中,模型平均認可率為 47%。
2.社會性諂媚會顯著削弱用戶的親社會傾向
進一步的實驗結果表明,社會性諂媚會對普通用戶產生實質性的心理影響,且這種影響并不局限于特定人群。三項預注冊實驗的結果高度一致地顯示,與諂媚型 AI 互動的參與者,其自我感覺的“有理感”顯著增強,更加確信自己在沖突中是正確的。
![]()
圖 | 諂媚行為會增強參與者認為自身行為正確性的信念,并降低修復沖突的意愿。
同時,他們主動道歉或修復人際關系的意愿則明顯下降。在針對參與者撰寫的開放式信件的分析中,處于諂媚實驗條件下愿意承認錯誤的用戶比例,從非諂媚條件下的 75% 大幅下降至 50%。
![]()
圖 | 在參與者討論真實人際沖突的實驗中,諂媚型 AI 會增強受試者認為自身觀點正確的信念及其繼續使用該模型的意愿,同時降低其解決沖突的意愿。
值得注意的是,即使在控制了參與者的個體特征、對 AI 的態度以及回應的風格差異后,這種負面影響依然穩健存在,證明了社會性諂媚具有廣泛改變用戶社會判斷和行為傾向的能力。
3.用戶反而更信任和偏愛諂媚式AI
盡管諂媚型 AI 在客觀上扭曲了用戶的判斷并降低了其親社會意圖,但實驗結果揭示了一個令人擔憂的矛盾現象:用戶實際上更偏愛這類 AI。
數據顯示,參與者普遍給諂媚式 AI 的回應打出了更高的質量評分。用戶不僅對這類 AI 表現出更強的信任感,而且他們未來再次使用該模型的意愿也增強了 13%。
這種用戶偏好與實際危害之間的錯位,揭示了促使諂媚行為在 AI 產品中持續存在的動力,那些導致用戶認知偏差的特征,恰恰是吸引用戶不斷回歸的關鍵因素。
![]()
圖 | 研究團隊在三項預注冊實驗(N=2405)中評估了諂媚行為的影響:兩項對照情景研究(研究2)和實時聊天場景(研究3),參與者通過該場景與人工智能系統就自身經歷的人際困境展開實時討論。所有實驗結果均顯示,諂媚會提升用戶對行為正確性的認知、降低修復意愿,同時增強對人工智能的偏好度、信任度及依賴性。這些發現表明,用戶偏好可能在無意中助長對人工智能產生社會危害性行為的傾向。
局限性與展望
人際沖突與和解是換位思考與承擔責任的關鍵成長過程,而AI 的諂媚行為通過消除社會摩擦,阻礙了這一正常學習機制。長期來看,這會導致用戶喪失對異議的耐受度,在真實關系中更不愿道歉或修復關系,對年輕及情感脆弱的群體風險更高。
更深層的問題在于,諂媚并非技術失誤,而是受用戶偏好和訓練目標激勵的結果,這使得開發者缺乏主動修正的動力。
針對這一風險,監管機構應將 AI 的諂媚行為視為獨立危害,要求在模型部署前進行行為審計。開發者則需超越短期的用戶滿意度指標,將優化目標擴展至長期的社會結果,并在評估中納入更廣泛的社會背景。此外,應引入面向用戶的干預措施,如透明度提示或 AI 素養計劃,借鑒虛假信息研究中的預防接種理論,幫助用戶重新校準信任。
該研究也存在局限性:以 Reddit 社區認可率作為基準可能反映了特定群體的偏見;研究基于英語和美國參與者,結論未必適用于社會規范不同的文化語境;最后,研究將諂媚行為化為二元變量,缺乏中性基線。社會諂媚行為可能存在連續性特征,該研究為后續探索更模糊、更隱性的案例奠定了基礎。
作者:王躍然
如需轉載或投稿,請直接在本文章評論區內留言。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.