![]()
當我們與人工智能聊天時,它們總是彬彬有禮、樂于助人,仿佛是最完美的學生。但這種"完美"可能正在成為它們的致命弱點。以色列理工學院的研究團隊最近完成了一項令人意外的研究,他們發現經過人類偏好訓練的AI模型在預測真實人類行為方面,竟然遠不如那些"未經教化"的原始模型。這項研究發表于2026年3月的計算機科學預印本論文庫,論文編號為arXiv:2603.17218v1,為我們揭示了AI訓練過程中一個被忽視的重要問題。
在人工智能的世界里,就像培養學生一樣,存在著兩種截然不同的"教育方式"。一種是讓AI自然成長的"散養式",另一種是按照人類期望進行嚴格訓練的"精英式"。經過人類偏好訓練的AI就像是那些嚴格按照道德規范培養出來的"三好學生",它們總是選擇最合作、最公平、最符合社會期望的行為方式。然而,當需要預測現實中人類的真實行為時,這些"好學生"卻頻頻失誤。
研究團隊對這個現象產生了濃厚興趣。在真實的商業談判、說服溝通和重復博弈中,人們往往會表現出各種"不完美"的行為:有時會報復,有時會欺騙,有時會根據歷史經驗調整策略。這些行為雖然在道德上可能不夠完美,但卻是人類在復雜社會環境中的真實寫照。那么,經過道德化訓練的AI是否還能準確理解和預測這些真實的人類行為呢?
為了回答這個問題,研究團隊設計了一個規模空前的對比實驗。他們收集了120對來自23個不同家族的AI模型,每一對都包含同一個"原始版本"和經過人類偏好訓練的"優化版本"。這些模型需要預測超過一萬個真實人類在各種策略博弈中的決策。這就好比讓兩組學生去預測真實考試中同齡人的選擇:一組是嚴格按照標準答案訓練的優等生,另一組是保持自然思維的普通學生。
實驗涵蓋了四大類復雜的人際互動場景。討價還價游戲中,雙方需要輪流提出分配方案,如果無法達成一致,雙方都會一無所獲。說服博弈中,賣家需要通過信息傳遞說服買家購買產品,但存在信息不對稱的問題。談判場景中,買賣雙方對同一商品有不同的估值,需要通過多輪溝通找到互利的價格。重復矩陣博弈中,參與者需要在多輪互動中建立信任、應對背叛、尋找平衡。
令人震驚的結果出現了。在這些需要多輪互動的復雜場景中,未經特殊訓練的原始AI模型預測人類行為的準確性,竟然以近乎10比1的壓倒性優勢擊敗了經過精心優化的"好學生"模型。具體而言,在討價還價場景中,原始模型獲勝比例達到75比4;在說服博弈中為32比4;在談判場景中為25比1;在重復矩陣博弈中更是達到了81比13。整體而言,原始模型以213比22的懸殊比分完勝,這種差距在統計學上幾乎不可能是偶然現象。
這個發現背后隱藏著一個深刻的原理。人類偏好訓練實際上是在教AI成為"理想的人類",而非"真實的人類"。就像培養學生時,我們總是強調要誠實、公平、合作,但在現實生活中,人們的行為往往更加復雜多變。當面對重復的策略互動時,真實的人類會表現出報復心理、會建立信任關系、會根據對手的歷史行為調整自己的策略。這些"不完美"的特質恰恰是人性的真實體現。
然而,故事還有另一面。當研究團隊測試簡單的一次性決策場景時,情況完全逆轉了。在經典的單輪矩陣博弈中,涵蓋12種不同類型的策略結構,經過訓練的AI模型以4.1比1的優勢反敗為勝。在完全沒有策略考量的彩票選擇任務中,它們同樣表現更佳,勝負比為2.2比1。這種反轉現象恰好證實了研究團隊的核心假設:問題的關鍵在于行為的復雜性和歷史依賴性。
進一步分析發現,即使在同一個游戲的不同階段,這種差異也清晰可見。在多輪博弈的第一輪中,由于還沒有歷史互動信息,人類行為相對簡單直接,此時經過訓練的AI表現更好。但從第二輪開始,隨著互動歷史的積累,人類開始表現出復雜的策略調整行為,這時原始AI模型的預測優勢就顯現出來了。這就像在一場長期的商業談判中,開局時大家都比較規矩,但隨著談判深入,各種策略手段和心理博弈逐漸顯露,此時理解人性復雜面的能力就變得至關重要。
為了排除其他干擾因素,研究團隊進行了多項對照實驗。他們發現這種差異并非來自輸入格式的不同,即使讓兩種模型使用相同的輸入格式,原始模型的優勢依然存在。他們測試了14種不同的提示方式,包括改變任務描述、調整角色設定、修改輸出格式等,但結果始終一致。無論是要求AI扮演自私的角色,還是讓它以專家身份進行預測,都無法改變這種根本性差異。
更有趣的是,研究團隊發現這種效應隨著模型規模的增大而加強。規模較小的模型中,兩種訓練方式的差異相對較小,但隨著模型參數量的增加,原始模型在復雜策略預測方面的優勢變得越來越明顯。這暗示著隨著AI系統變得更加強大,這個問題可能會變得更加突出。
從技術原理來看,人類偏好訓練通過強化學習的方式,系統性地增強AI輸出"受歡迎"行為的概率,同時抑制"不受歡迎"行為的概率。這個過程就像用一個特殊的過濾器,把AI的行為分布向著人類認可的方向扭曲。但這種扭曲在壓縮"不良"行為的同時,也壓縮了對人類復雜行為模式的理解能力。當真實人類展現出報復、背叛或其他"不理想"行為時,經過訓練的AI已經失去了理解和預測這些行為的能力。
這項發現對AI技術的發展具有重要啟示。目前,研究人員和企業都在努力讓AI變得更加"有用、無害、誠實",這種努力無疑是正確的方向。但這項研究提醒我們,在某些特定應用場景中,我們可能需要重新思考這種訓練方式的局限性。特別是當AI被用于預測人類行為、進行社會科學研究或者協助政策制定時,過度的"道德化"可能會導致系統性的預測偏差。
在商業應用領域,這個發現同樣意義重大。許多公司正在使用AI來預測消費者行為、分析市場趨勢或者進行風險評估。如果這些AI系統只能理解"理想化"的人類行為,而無法準確把握真實的市場動態,那么它們的預測價值就會大打折扣。在金融領域,如果AI無法理解投資者的非理性行為和情緒化決策,就可能在市場波動中做出錯誤判斷。
社會科學研究也面臨著類似挑戰。越來越多的研究者開始使用AI來模擬人類行為、預測社會趨勢或者進行虛擬實驗。如果這些AI模型只能產生"政治正確"的行為預測,而無法捕捉到真實社會中的復雜動態,那么基于這些模型的研究結論可能存在系統性偏差。這就像用一群"三好學生"來研究整個社會的行為規律,得出的結論自然會過于理想化。
然而,這并不意味著我們應該放棄對AI進行安全訓練。相反,這項研究為我們指出了一個重要的技術發展方向:如何在保持AI安全性的同時,保留其對人類行為復雜性的理解能力。一種可能的解決方案是開發更加精細的訓練方法,能夠在不同的應用場景中激活不同的行為模式。另一種可能是建立專門的"行為預測"模型,專門用于理解真實的人類行為,而不承擔直接與用戶交互的任務。
從更廣闊的視角來看,這項研究揭示了人工智能發展過程中的一個根本性張力:我們既希望AI能夠成為完美的助手,又希望它們能夠深刻理解不完美的人類。這種張力不僅存在于技術層面,也反映在哲學和倫理層面。我們如何在訓練AI理解人性的同時,不讓它們習得人性的陰暗面?我們如何確保AI既能預測人類的真實行為,又不會利用這種理解來操控或傷害人類?
研究團隊的實驗還揭示了一個有趣的邊界條件現象。在那些人類行為相對簡單、接近理論預測的場景中,經過訓練的AI確實表現更好。這說明人類偏好訓練在某些情況下確實能夠改善AI的表現,關鍵是要識別出適用的場景邊界。這就像不同的教育方式適合不同的學習任務:標準化訓練適合處理規范化的問題,而保持思維靈活性則更適合應對復雜多變的挑戰。
隨著AI技術的快速發展和廣泛應用,這類研究變得越來越重要。我們正處在一個關鍵的歷史時刻,AI系統開始在各個領域扮演重要角色,從個人助手到政策建議,從商業決策到社會治理。在這個過程中,我們必須確保這些系統不僅僅是我們期望的理想化反映,也能夠準確理解和預測真實世界的復雜性。
這項研究還提出了一個重要的方法論問題:當我們評估AI系統的能力時,應該使用什么樣的標準?傳統的評估方法往往關注AI是否能夠產生"正確"或"期望"的輸出,但這項研究表明,在某些場景中,我們可能需要關注AI是否能夠準確反映"真實"的人類行為,即使這些行為可能不完全符合我們的期望。
對于普通用戶而言,這項研究提醒我們在使用AI系統時要保持適當的批判性思維。當AI助手為我們分析人際關系、預測他人行為或者提供社交建議時,我們需要意識到它們可能存在過度理想化的傾向。真實的人類行為往往比AI預測的更加復雜和不可預測,這既是人性的魅力所在,也是我們在現實生活中需要面對的挑戰。
展望未來,這項研究為AI技術的發展提出了新的挑戰和機遇。技術開發者需要找到在安全性和預測準確性之間的最佳平衡點,研究者需要開發更加精細的評估方法來測試AI在不同場景中的表現,政策制定者需要考慮如何規范AI在敏感應用領域中的使用。
說到底,這項研究揭示的不僅僅是一個技術問題,更是對人性本身的深刻思考。人類的行為既有光明的一面,也有復雜甚至陰暗的一面。要真正理解人類,就必須接受這種復雜性的全貌。對于AI而言,這意味著在追求完美的道路上,不能忘記理解真實的重要性。只有在深刻理解人類行為復雜性的基礎上,AI才能真正成為我們可靠的伙伴和助手。
這項由以色列理工學院主導的研究為AI領域提供了一個重要的警示和指導,有興趣深入了解技術細節的讀者可以通過論文編號arXiv:2603.17218v1查詢完整論文。隨著AI技術的不斷發展,類似的研究將幫助我們構建更加智能、可靠且真正理解人類的AI系統。
Q&A
Q1:什么是人類偏好訓練,為什么會影響AI預測人類行為的能力?
A:人類偏好訓練是一種讓AI學會產生人類喜歡的回答的技術,通過強化學習讓AI變得更合作、更公平、更符合道德標準。但這種訓練會壓縮AI對人類復雜行為的理解范圍,讓它們無法準確預測真實人類在策略博弈中的報復、背叛等"不完美"行為。就像用道德模范的標準訓練出來的學生,難以理解普通人的真實想法。
Q2:原始AI模型在什么情況下預測更準確,什么情況下表現較差?
A:原始AI模型在需要多輪互動的復雜策略場景中表現更好,比如討價還價、說服博弈、長期談判等,勝率近10比1。但在簡單的一次性決策或非策略性選擇中表現較差,比如單輪博弈和彩票選擇。關鍵區別在于是否涉及歷史互動和策略調整。
Q3:這項研究對使用AI進行行為預測的應用有什么啟示?
A:研究提醒我們在不同場景中需要選擇合適的AI模型。對于市場分析、消費者行為預測、社會科學研究等需要理解真實人類行為的應用,可能需要使用保留了行為復雜性理解能力的AI模型,而不是完全依賴經過道德化訓練的"完美"模型。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.