網易首頁 > 網易號 > 正文申請入駐

OPeRA Dataset: 首次系統評估LLM的人類行為模擬能力

2026-04-17 11:19:38　來源: 機器之心Pro

河北舉報

分享至

近年來，大語言模型（LLM）正在快速從「語言生成器」走向「行動者」。在越來越多的 agent 系統中，模型已經不僅僅是回答問題，而是開始執行任務：它會搜索、瀏覽網頁、點擊商品、比較選項，甚至在過程中給出一段看似合理的解釋。很多時候，這些行為已經足夠自然，以至于我們會產生一種直覺 —— 它們已經「很像人」。

但一個更關鍵的問題往往被忽略了：這些行為，真的接近人類嗎？

換句話說，我們現在看到的，是一種「看起來合理」的行為；但它是否準確地反映了真實用戶在相同情境下的決策，其實仍然是一個未知數。

為此，來自美國東北大學等機構的研究者提出了OPeRA（Observation, Persona, Rationale, Action）數據集。該數據集采集真實用戶的 step-wise 在線購物行為，并首次支持對 LLM 在個體化行為預測任務中的能力進行系統評測。

論文：https://arxiv.org/pdf/2506.05606
數據：https://huggingface.co/datasets/NEU-HAI/OPeRA

Believable，并不等于 Accurate

隨著越來越多工作嘗試使用 LLM 來模擬人類行為，模型已經能夠生成連貫且情境合理的多步決策過程。在許多場景中，這些行為在直覺上已經「足夠像人」。

然而，現有研究大多停留在看起來「believable」的層面，但對于其與真實人類行為之間的偏差，仍缺乏系統性的量化分析。我們能夠判斷這些行為「看起來像」，卻難以回答它們「到底有多像」。

這一問題的核心瓶頸并不在于建模能力，而在于評估基礎的缺失。過去的大多數數據主要記錄最終結果，例如用戶是否完成任務或購買商品，但這類結果導向的信號無法反映決策是如何逐步產生的。真實的人類行為本質上是一個連續過程：用戶在具體情境中，基于自身背景、當前環境以及歷史交互，不斷做出條件化的選擇。如果缺少 step-wise 的行為軌跡，我們就無法判斷模型是否在關鍵節點上做出了符合人類的決策。

與此同時，現有數據往往并非來自真實用戶，而是由標注者構造或模型生成，這使得「像人」的行為缺乏真實分布作為參照。更進一步，即使具備完整的行為序列，如果缺少用戶身份（persona）以及決策動機（rationale），行為本身仍然是不可判定的：同一情境下，不同個體可能做出不同選擇；而相同的 action，也可能對應完全不同的決策原因。我們關心：在這個具體上下文中，這個具體的人，會不會這樣做？

然而，由于缺乏同時包含行為過程、上下文信息、個體信息以及決策動機的高質量數據，這一問題長期以來難以被量化刻畫。

OPeRA：讓「人類行為」第一次可以被評估

基于上述思考，該工作提出了OPeRA（Observation, Persona, Rationale, Action）dataset，一個面向人類行為模擬的真實數據集及評測框架。OPeRA 選擇在線購物（online shopping）作為研究場景，一方面，這一場景天然包含豐富的多步交互與決策過程（如搜索、篩選、對比與購買），能夠充分體現人類行為的序列性與條件依賴；另一方面，其具有明確的目標驅動，同時又允許個體差異充分體現。

OPeRA 采用了基于瀏覽器插件的真實用戶行為記錄方式。研究者邀請參與者在日常在線購物過程中使用定制插件，自動記錄其在網頁中的交互行為，包括點擊、搜索、頁面跳轉等操作，從而獲取完整的 step-wise 行為軌跡。同時，在關鍵決策節點，系統會以輕量化的彈窗方式提示用戶輸入當前操作的原因，以實時的形式收集對應的 rationale，避免事后回憶帶來的偏差。此外，研究者通過問卷與訪談收集用戶的 persona 信息，包括人口統計特征、購物習慣與偏好等。

基于此，研究者從 51 名真實用戶中收集了近 700 個購物 session。每一個 session 都是一個帶時間戳的行為序列（time-stamped action sequence），用于刻畫用戶在連續交互過程中的逐步決策，累計記錄了 28904 條行為數據。在每一步用戶行為中，數據同時涵蓋了用戶的操作（action）和對應的頁面信息（observation），包括網頁內容、關鍵元素以及截圖等；同時，還收集了用戶在當下做出該操作的原因（rationale）。此外，數據中還包含用戶的基本畫像（persona），如人口統計信息和購物偏好。通過將 persona、observation、rationale 和 action 統一在同一條行為序列中，OPeRA 提供了一個更完整的人類決策過程表示。

基于 OPeRA 的人類行為模擬實驗

為了研究 LLM 模擬人類行為的能力，作者基于 OPeRA 定義了一個「下一步行為預測」（Next Action Prediction）任務。具體來說，給定用戶在當前購物 session 中的歷史行為序列、對應的頁面信息（observation）、已有的決策理由（rationale），以及用戶畫像（persona），模型需要預測用戶在當前時刻的下一步操作。

基于上述任務，研究者對一些主流 LLM 進行了系統評測：

整體來看，當前模型在該任務上的表現仍然有限。以最優的 GPT-4.1 為例，其下一步行為預測的準確率僅在20% 左右，而其他模型普遍低于這一水平。盡管在更粗粒度的指標（如 action type 分類）上，模型可以達到約 40%–50% 的 F1，但在更細粒度的 click type 或具體 action 預測上，性能明顯下降。這表明，模型可以大致判斷「要做什么類型的操作」，但難以精確預測「具體會點哪里、做什么」。

進一步分析發現，不同輸入信息對模型表現的影響具有明顯差異。首先，persona 的引入對性能提升并不穩定：雖然在 action type 等粗粒度任務上有所幫助，但對最終 action 預測準確率影響有限，甚至在部分情況下帶來噪聲。這說明當前模型尚無法有效利用 persona 信息進行細粒度決策建模。相比之下，rationale 對模型更為關鍵。移除歷史 rationale 后，大多數模型在多個指標上均出現明顯下降，尤其是在 session outcome 等高層決策任務上。這表明，rationale 作為中間決策信號，可以幫助模型更好地理解用戶意圖并進行推理。

從錯誤類型來看，模型的主要失敗模式高度集中。超過 60% 的錯誤來自「點擊了錯誤的按鈕」，是最主要的錯誤來源。這說明模型雖然能夠判斷「需要點擊」，但難以準確定位具體交互目標。此外，模型在 input 和 terminate 行為上也存在明顯問題。一方面，模型經常無法正確生成搜索輸入（例如生成錯誤輸入信息，或選擇錯誤輸入框）；另一方面，對于「終止行為」（terminate），模型普遍預測不足。盡管真實用戶在部分情況下會放棄購物，但模型往往傾向于繼續操作。這些現象揭示了一個重要偏差：當前 LLM 更傾向于「完成任務」，而不是「模擬真實人類」。

結語和未來展望

本文提出了 OPeRA 數據集，一個面向人類行為模擬的在線購物行為數據集。通過記錄完整的購物軌跡，包括用戶的操作序列、頁面環境、個體畫像以及顯式的決策理由，OPeRA 為個體化的人類行為建模提供了一個可驗證、可分析的數據基礎。在此基礎上，作者構建了一系列評測任務，并對多種主流 LLM 進行了系統評估。實驗結果表明，當前模型在復雜決策過程建模以及個體化行為刻畫方面仍存在明顯不足。總體來看，OPeRA 不僅提供了一個更貼近真實場景的數據集，也揭示了當前 LLM 在人類行為模擬中的能力邊界。與此同時，近期一系列工作從不同角度探索了改進方向：例如 Shop-R1 通過強化學習對「rationale–action」進行分階段建模與分層獎勵優化，See-Think-Act 框架引入多模態感知以統一「感知–推理–行動」流程，Customer-R1 強調個體化用戶建模與行為對齊，而 Yuxuan 等人的研究則進一步凸顯高質量行為數據與中間推理信號在提升模擬真實性中的關鍵作用。這些工作共同表明，結合強化學習、多模態信息與個體建模，是推動人類行為模擬能力提升的重要路徑。未來，如何更好地建模長程決策過程、利用個體信息進行個性化推理，仍是值得進一步探索的重要方向。

作者介紹

本文由美國東北大學 Human-Centered AI Lab 團隊聯合南加州大學、石溪大學、俄亥俄州立大學、圣母大學及哥倫比亞大學等多家機構研究者合作完成。其中論文一作王子奕為東北大學計算機科學專業二年級博士生，師從王大闊副教授。本科及碩士畢業于清華大學。其研究方向主要聚焦于大語言模型（LLM）Agent，圍繞 LLM 對人類行為的建模能力，以及 tool-calling agent 的數據構建與訓練展開研究，致力于提升 Agent 在復雜真實場景中的行為一致性與決策能力。歡迎相關方向研究者交流探討。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.