網易首頁 > 網易號 > 正文申請入駐

延世大學揭秘：AI助手為何總在錯誤場合展現你的個人偏好

2026-03-27 16:59:42　來源: 科技行者

北京舉報

分享至

在日常生活中，你是否遇到過這樣的情況：你的AI助手記住了你平時聊天時愛用表情符號和開玩笑的習慣，卻在你請它代寫正式工作郵件時依然保持著這種輕松風格？這種令人尷尬的情況并非偶然，而是目前AI技術面臨的一個重要挑戰。

這項由延世大學和LG AI Research聯合開展的突破性研究發表于2026年3月17日，論文編號為arXiv:2603.16557v1，首次系統性地探討了一個讓許多用戶頭疼的問題：為什么AI助手總是不能準確判斷什么時候應該使用你的個人偏好，什么時候應該收起這些偏好？

研究團隊發現了一個令人震驚的現象。就像一個不懂察言觀色的助理，即使在最正式的場合，AI助手依然會固執地展現用戶的個人偏好。當研究人員測試目前最先進的AI模型時，發現即使是表現最好的GPT-5.2，在40.95%的情況下仍會在不合適的場合錯誤地應用用戶偏好。更令人擔憂的是，一些模型的錯誤率甚至高達86.48%。

這個問題的嚴重性遠超想象。當AI助手被用于代發郵件、撰寫正式文件或與第三方溝通時，不恰當地使用個人偏好可能會造成嚴重的社交后果。研究團隊形象地描述了這樣一個場景：用戶平時喜歡幽默的語調和表情符號，但當AI助手代為撰寫給稅務局的正式申訴信時，依然保持著玩笑般的語調，這顯然是極其不合適的。

更有意思的是，研究團隊發現了一個看似矛盾的現象：那些在合適場合正確應用用戶偏好能力較強的AI模型，往往也更容易在不合適的場合錯誤地應用這些偏好。就像一個熱情過度的服務員，雖然很會迎合客人的喜好，但卻不懂得在正式場合收斂自己的表現。這說明目前的AI技術并不是真正理解了什么時候該用什么偏好，而是簡單粗暴地按照強度來調節偏好的整體應用程度。

一、問題的本質：AI把偏好當成了死板的執行命令

要理解這個問題，我們可以把用戶偏好想象成一套社交禮儀規則。就像你在朋友聚會時可以大聲說笑、用網絡流行語，但在商務會議中需要保持專業形象一樣，不同的社交場景要求我們調整自己的表達方式。然而，目前的AI助手就像一個社交新手，無法根據不同場景靈活調整自己的行為。

研究團隊把這個問題稱為"上下文感知的偏好選擇性"。簡單來說，就是AI需要學會察言觀色，根據當前的交流對象和任務性質，決定哪些個人偏好可以展現，哪些應該暫時收起。這就像你的私人秘書需要知道，在給朋友發短信時可以使用表情符號，但在給法官寫信申請延期時絕對不能這么做。

現有的AI評估方法主要關注AI是否能忠實反映用戶偏好，這就像只考核員工是否能完全按照指示行事，卻不考慮他們是否懂得因地制宜。這種評估標準的局限性導致了當前AI技術的盲區：它們被訓練成完美的指令執行者，卻缺乏基本的社交判斷力。

為了深入研究這個問題，研究團隊創建了一個名為BenchPreS的專門測試系統。這個系統就像一個模擬的社交實驗室，包含了39種不同的正式交流場景，比如給稅務機關解釋稅務差異、向法院申請延期、與銀行商討貸款等。同時，他們還創建了10個虛擬用戶檔案，每個檔案都包含5種不同類型的個人偏好，從說話風格、語調到格式偏好，應有盡有。

二、驚人的實驗發現：最聰明的AI也會犯愚蠢錯誤

研究團隊的實驗結果令人震驚。他們測試了當前最先進的10款AI模型，包括GPT-5.2、Claude-4.5、Gemini 3 Pro等，發現了一個令人意外的規律：越是善于應用用戶偏好的AI，越容易在錯誤的場合應用這些偏好。

舉個生動的例子，當一個用戶的檔案顯示他偏好幽默語調和表情符號時，AI助手在幫他撰寫給銀行的正式貸款申請時，竟然寫出了這樣的內容："

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.