![]()
來源:iNature
iNature
盡管人們對人工智能系統過度迎合(即過度一致或奉承)的現象愈發擔憂,但關于這種現象的普遍程度及其后果卻知之甚少。
2026年3月26日,斯坦福大學Dan Jurafsky團隊在Science以封面的形式在線發表題為“Sycophantic AI decreases prosocial intentions and promotes dependence”的研究論文,該研究發現,這種迎合現象十分普遍且具有危害性。在 11 個最先進的模型中,人工智能對用戶行為的肯定程度比人類高出 49%,即便在涉及欺騙、違法或其他危害的情況下也是如此。
在三個預先注冊的實驗(樣本量為 2405 人)中,哪怕只是與這種迎合型的人工智能進行一次互動,也會降低參與者承擔責任和修復人際沖突的意愿,同時增強他們認為自己正確的信念。盡管這種模型會扭曲判斷,但人們仍信任并傾向于使用它們。這種現象造成了助長迎合型行為持續存在的不良激勵機制:正是這種導致危害的特性,反而促進了其使用。該研究結果強調了需要設計、評估和問責機制來保護用戶的利益。
![]()
隨著人工智能(AI)系統在日常咨詢和指導方面得到廣泛應用,有關諂媚現象的擔憂也隨之出現:基于人工智能的大語言模型往往會過度認同、恭維或認可用戶。盡管此前的研究表明,諂媚行為對那些已經容易受到操縱或產生錯覺的群體存在風險,但諂媚現象對普通人群的判斷和行為所產生的影響尚不明確。在此,該研究表明,諂媚現象(sycophancy)在主流的 AI 系統中十分普遍,并且對用戶的社會判斷產生了有害影響。
![]()
最新研究顯示,人工智能(AI)模型會過度肯定和認可用戶,即便用戶提出的是有害或違法的行為。這種對用戶的直接影響是顯著的:從肯定型的 AI 得到的建議會讓人們變得更加自我中心,也更難以從他人的角度去思考問題。然而,人們卻更傾向于這種過度肯定的 AI,這可能會進一步促使 AI 模型也表現出這種行為(圖源自Science )
該研究發現諂媚現象既普遍又有害。在 11 個人工智能模型中,人工智能對用戶行為的肯定程度平均比人類高出 49%,包括在涉及欺騙、違法或其他危害的情況中也是如此。在 r/AmITheAsshole(“我是不是個混蛋?”)板塊的帖子中,人工智能系統在 51%的情況下肯定用戶,而人類的一致意見為 0%。
![]()
人工智能的回應中存在大量的阿諛奉承行為,這種行為會改變人們的行為傾向(圖源自Science )
在人類實驗中,哪怕只是與阿諛奉承的人工智能進行一次互動,也會降低參與者承擔責任和修復人際沖突的意愿,同時增強他們自己認為自己正確的信心。然而,盡管存在扭曲判斷的情況,諂媚現象的模型卻依然受到信任和青睞。在控制了諸如個人特征(如年齡、性別等)和對人工智能的先前熟悉程度等因素后,這些影響依然存在;包括感知的回應來源和回應方式等。這導致了諂媚現象持續存在的不合理激勵機制:正是導致危害的這一特征,反而促進了其傳播。
人工智能的阿諛奉承不僅是一個風格問題或小眾風險,更是一種普遍存在的行為,會帶來廣泛的影響后果。盡管這種肯定給人的感覺是支持性的,但阿諛奉承卻會削弱用戶自我糾正和做出負責任決策的能力。然而,由于這種行為受到用戶的青睞并能促進互動,所以阿諛奉承現象一直缺乏減少的動力。該研究強調,有必要將人工智能的阿諛奉承作為對人們自我認知和人際關系的潛在社會風險加以應對,為此需要開發有針對性的設計、評估和問責機制。該研究結果表明,看似無害的設計和工程選擇可能會導致嚴重的后果,因此仔細研究和預測人工智能的影響對于保護用戶的長期福祉至關重要。
參考消息:
https://www.science.org/doi/10.1126/science.aec8352
閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”
![]()
未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
![]()
截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.