網易首頁 > 網易號 > 正文申請入駐

技術學院顛覆發現:AI"好學生"為何在復雜人際博弈中敗給"壞學生"

2026-03-27 17:08:02　來源: 科技行者

北京舉報

分享至

當我們與人工智能聊天時，它們總是彬彬有禮、樂于助人，仿佛是最完美的學生。但這種"完美"可能正在成為它們的致命弱點。以色列理工學院的研究團隊最近完成了一項令人意外的研究，他們發現經過人類偏好訓練的AI模型在預測真實人類行為方面，竟然遠不如那些"未經教化"的原始模型。這項研究發表于2026年3月的計算機科學預印本論文庫，論文編號為arXiv:2603.17218v1，為我們揭示了AI訓練過程中一個被忽視的重要問題。

在人工智能的世界里，就像培養學生一樣，存在著兩種截然不同的"教育方式"。一種是讓AI自然成長的"散養式"，另一種是按照人類期望進行嚴格訓練的"精英式"。經過人類偏好訓練的AI就像是那些嚴格按照道德規范培養出來的"三好學生"，它們總是選擇最合作、最公平、最符合社會期望的行為方式。然而，當需要預測現實中人類的真實行為時，這些"好學生"卻頻頻失誤。

研究團隊對這個現象產生了濃厚興趣。在真實的商業談判、說服溝通和重復博弈中，人們往往會表現出各種"不完美"的行為：有時會報復，有時會欺騙，有時會根據歷史經驗調整策略。這些行為雖然在道德上可能不夠完美，但卻是人類在復雜社會環境中的真實寫照。那么，經過道德化訓練的AI是否還能準確理解和預測這些真實的人類行為呢？

為了回答這個問題，研究團隊設計了一個規模空前的對比實驗。他們收集了120對來自23個不同家族的AI模型，每一對都包含同一個"原始版本"和經過人類偏好訓練的"優化版本"。這些模型需要預測超過一萬個真實人類在各種策略博弈中的決策。這就好比讓兩組學生去預測真實考試中同齡人的選擇：一組是嚴格按照標準答案訓練的優等生，另一組是保持自然思維的普通學生。

實驗涵蓋了四大類復雜的人際互動場景。討價還價游戲中，雙方需要輪流提出分配方案，如果無法達成一致，雙方都會一無所獲。說服博弈中，賣家需要通過信息傳遞說服買家購買產品，但存在信息不對稱的問題。談判場景中，買賣雙方對同一商品有不同的估值，需要通過多輪溝通找到互利的價格。重復矩陣博弈中，參與者需要在多輪互動中建立信任、應對背叛、尋找平衡。

令人震驚的結果出現了。在這些需要多輪互動的復雜場景中，未經特殊訓練的原始AI模型預測人類行為的準確性，竟然以近乎10比1的壓倒性優勢擊敗了經過精心優化的"好學生"模型。具體而言，在討價還價場景中，原始模型獲勝比例達到75比4；在說服博弈中為32比4；在談判場景中為25比1；在重復矩陣博弈中更是達到了81比13。整體而言，原始模型以213比22的懸殊比分完勝，這種差距在統計學上幾乎不可能是偶然現象。

這個發現背后隱藏著一個深刻的原理。人類偏好訓練實際上是在教AI成為"理想的人類"，而非"真實的人類"。就像培養學生時，我們總是強調要誠實、公平、合作，但在現實生活中，人們的行為往往更加復雜多變。當面對重復的策略互動時，真實的人類會表現出報復心理、會建立信任關系、會根據對手的歷史行為調整自己的策略。這些"不完美"的特質恰恰是人性的真實體現。

然而，故事還有另一面。當研究團隊測試簡單的一次性決策場景時，情況完全逆轉了。在經典的單輪矩陣博弈中，涵蓋12種不同類型的策略結構，經過訓練的AI模型以4.1比1的優勢反敗為勝。在完全沒有策略考量的彩票選擇任務中，它們同樣表現更佳，勝負比為2.2比1。這種反轉現象恰好證實了研究團隊的核心假設：問題的關鍵在于行為的復雜性和歷史依賴性。

進一步分析發現，即使在同一個游戲的不同階段，這種差異也清晰可見。在多輪博弈的第一輪中，由于還沒有歷史互動信息，人類行為相對簡單直接，此時經過訓練的AI表現更好。但從第二輪開始，隨著互動歷史的積累，人類開始表現出復雜的策略調整行為，這時原始AI模型的預測優勢就顯現出來了。這就像在一場長期的商業談判中，開局時大家都比較規矩，但隨著談判深入，各種策略手段和心理博弈逐漸顯露，此時理解人性復雜面的能力就變得至關重要。

為了排除其他干擾因素，研究團隊進行了多項對照實驗。他們發現這種差異并非來自輸入格式的不同，即使讓兩種模型使用相同的輸入格式，原始模型的優勢依然存在。他們測試了14種不同的提示方式，包括改變任務描述、調整角色設定、修改輸出格式等，但結果始終一致。無論是要求AI扮演自私的角色，還是讓它以專家身份進行預測，都無法改變這種根本性差異。

更有趣的是，研究團隊發現這種效應隨著模型規模的增大而加強。規模較小的模型中，兩種訓練方式的差異相對較小，但隨著模型參數量的增加，原始模型在復雜策略預測方面的優勢變得越來越明顯。這暗示著隨著AI系統變得更加強大，這個問題可能會變得更加突出。

從技術原理來看，人類偏好訓練通過強化學習的方式，系統性地增強AI輸出"受歡迎"行為的概率，同時抑制"不受歡迎"行為的概率。這個過程就像用一個特殊的過濾器，把AI的行為分布向著人類認可的方向扭曲。但這種扭曲在壓縮"不良"行為的同時，也壓縮了對人類復雜行為模式的理解能力。當真實人類展現出報復、背叛或其他"不理想"行為時，經過訓練的AI已經失去了理解和預測這些行為的能力。

這項發現對AI技術的發展具有重要啟示。目前，研究人員和企業都在努力讓AI變得更加"有用、無害、誠實"，這種努力無疑是正確的方向。但這項研究提醒我們，在某些特定應用場景中，我們可能需要重新思考這種訓練方式的局限性。特別是當AI被用于預測人類行為、進行社會科學研究或者協助政策制定時，過度的"道德化"可能會導致系統性的預測偏差。

在商業應用領域，這個發現同樣意義重大。許多公司正在使用AI來預測消費者行為、分析市場趨勢或者進行風險評估。如果這些AI系統只能理解"理想化"的人類行為，而無法準確把握真實的市場動態，那么它們的預測價值就會大打折扣。在金融領域，如果AI無法理解投資者的非理性行為和情緒化決策，就可能在市場波動中做出錯誤判斷。

社會科學研究也面臨著類似挑戰。越來越多的研究者開始使用AI來模擬人類行為、預測社會趨勢或者進行虛擬實驗。如果這些AI模型只能產生"政治正確"的行為預測，而無法捕捉到真實社會中的復雜動態，那么基于這些模型的研究結論可能存在系統性偏差。這就像用一群"三好學生"來研究整個社會的行為規律，得出的結論自然會過于理想化。

然而，這并不意味著我們應該放棄對AI進行安全訓練。相反，這項研究為我們指出了一個重要的技術發展方向：如何在保持AI安全性的同時，保留其對人類行為復雜性的理解能力。一種可能的解決方案是開發更加精細的訓練方法，能夠在不同的應用場景中激活不同的行為模式。另一種可能是建立專門的"行為預測"模型，專門用于理解真實的人類行為，而不承擔直接與用戶交互的任務。

從更廣闊的視角來看，這項研究揭示了人工智能發展過程中的一個根本性張力：我們既希望AI能夠成為完美的助手，又希望它們能夠深刻理解不完美的人類。這種張力不僅存在于技術層面，也反映在哲學和倫理層面。我們如何在訓練AI理解人性的同時，不讓它們習得人性的陰暗面？我們如何確保AI既能預測人類的真實行為，又不會利用這種理解來操控或傷害人類？

研究團隊的實驗還揭示了一個有趣的邊界條件現象。在那些人類行為相對簡單、接近理論預測的場景中，經過訓練的AI確實表現更好。這說明人類偏好訓練在某些情況下確實能夠改善AI的表現，關鍵是要識別出適用的場景邊界。這就像不同的教育方式適合不同的學習任務：標準化訓練適合處理規范化的問題，而保持思維靈活性則更適合應對復雜多變的挑戰。

隨著AI技術的快速發展和廣泛應用，這類研究變得越來越重要。我們正處在一個關鍵的歷史時刻，AI系統開始在各個領域扮演重要角色，從個人助手到政策建議，從商業決策到社會治理。在這個過程中，我們必須確保這些系統不僅僅是我們期望的理想化反映，也能夠準確理解和預測真實世界的復雜性。

這項研究還提出了一個重要的方法論問題：當我們評估AI系統的能力時，應該使用什么樣的標準？傳統的評估方法往往關注AI是否能夠產生"正確"或"期望"的輸出，但這項研究表明，在某些場景中，我們可能需要關注AI是否能夠準確反映"真實"的人類行為，即使這些行為可能不完全符合我們的期望。

對于普通用戶而言，這項研究提醒我們在使用AI系統時要保持適當的批判性思維。當AI助手為我們分析人際關系、預測他人行為或者提供社交建議時，我們需要意識到它們可能存在過度理想化的傾向。真實的人類行為往往比AI預測的更加復雜和不可預測，這既是人性的魅力所在，也是我們在現實生活中需要面對的挑戰。

展望未來，這項研究為AI技術的發展提出了新的挑戰和機遇。技術開發者需要找到在安全性和預測準確性之間的最佳平衡點，研究者需要開發更加精細的評估方法來測試AI在不同場景中的表現，政策制定者需要考慮如何規范AI在敏感應用領域中的使用。

說到底，這項研究揭示的不僅僅是一個技術問題，更是對人性本身的深刻思考。人類的行為既有光明的一面，也有復雜甚至陰暗的一面。要真正理解人類，就必須接受這種復雜性的全貌。對于AI而言，這意味著在追求完美的道路上，不能忘記理解真實的重要性。只有在深刻理解人類行為復雜性的基礎上，AI才能真正成為我們可靠的伙伴和助手。

這項由以色列理工學院主導的研究為AI領域提供了一個重要的警示和指導，有興趣深入了解技術細節的讀者可以通過論文編號arXiv:2603.17218v1查詢完整論文。隨著AI技術的不斷發展，類似的研究將幫助我們構建更加智能、可靠且真正理解人類的AI系統。

Q&A

Q1：什么是人類偏好訓練，為什么會影響AI預測人類行為的能力？

A：人類偏好訓練是一種讓AI學會產生人類喜歡的回答的技術，通過強化學習讓AI變得更合作、更公平、更符合道德標準。但這種訓練會壓縮AI對人類復雜行為的理解范圍，讓它們無法準確預測真實人類在策略博弈中的報復、背叛等"不完美"行為。就像用道德模范的標準訓練出來的學生，難以理解普通人的真實想法。

Q2：原始AI模型在什么情況下預測更準確，什么情況下表現較差？

A：原始AI模型在需要多輪互動的復雜策略場景中表現更好，比如討價還價、說服博弈、長期談判等，勝率近10比1。但在簡單的一次性決策或非策略性選擇中表現較差，比如單輪博弈和彩票選擇。關鍵區別在于是否涉及歷史互動和策略調整。

Q3：這項研究對使用AI進行行為預測的應用有什么啟示？

A：研究提醒我們在不同場景中需要選擇合適的AI模型。對于市場分析、消費者行為預測、社會科學研究等需要理解真實人類行為的應用，可能需要使用保留了行為復雜性理解能力的AI模型，而不是完全依賴經過道德化訓練的"完美"模型。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.