網易首頁 > 網易號 > 正文申請入駐

從「知題」到「知人」：UserRL讓智能體學會「以人為本」

2025-10-07 17:13:37　來源: 機器之心Pro

北京舉報

分享至

“知人者智，自知者明。”——《道德經》

古人早已洞見：真正的人類智慧，不僅僅在于公式推演、掌握技藝，更是能理解他人、洞察人心。今天的大語言模型已能在代碼、數學與工具使用上出色地完成任務，然而距離成為真正的用戶伙伴，它們依舊缺少那份 “知人” 的能力。這主要源于現實交互遠比解題更加復雜：

現實交互中，用戶目標常常未在最初完全成形（underspecification）、而是在多輪對話中逐步顯露（incrementality）、并且以含蓄 / 間接的方式表達（indirectness）。
在這種不確定、動態、多目標的語境里，模型不止要會解決用戶需求，更要主動澄清（clarification）、持續適配（adaptation）、善用工具（tool-use）并做出明智的權衡（decision-making）。

這正是智能體面臨的下一個時代課題：從 “會解題” 邁向 “懂用戶”。而要真正回答這一課題，我們需要全新的動態評測框架與訓練機制：不僅能測量模型在交互中的表現，還能驅動其學會在用戶不確定與多目標的世界里，問之有道，斷之有衡，答之有據。為此，來自 UIUC 與 Salesforce 的研究團隊提出了一套系統化方案：

UserBench—— 首次將 “用戶特性” 制度化，構建交互評測環境，用于專門檢驗大模型是否真正 “懂人”；
UserRL—— 在 UserBench 及其他標準化 Gym 環境之上，搭建統一的用戶交互強化學習框架，并系統探索以用戶為驅動的獎勵建模。

二者相輔相成，把 “以用戶為中心” 從理念落地為可復現的流程、接口與評測指標。

UserBench 論文鏈接：https://arxiv.org/pdf/2507.22034
UserBench 代碼倉庫：https://github.com/SalesforceAIResearch/UserBench

UserRL 論文鏈接：https://arxiv.org/pdf/2509.19736
UserRL 代碼倉庫：https://github.com/SalesforceAIResearch/UserRL

UserBench

先把 “用戶價值” 量化，才能倒逼智能體進化

核心思想

UserBench 的核心出發點是：真正的智能體價值不在于完成任務本身，而在于是否能夠理解用戶、服務用戶。不同于傳統評測大多進行的 “做題比賽”，其通過刻畫三類 “用戶特征”，并將它們嵌入到可復現的環境與標準化接口之中，從而把 “用戶價值” 從抽象理念轉化為可量化的研究對象。

1. 設計原則

長期以來，智能體的評測大多集中在工具調用與任務完成，但卻鮮少觸及一個更根本的問題：模型是否真正對齊了用戶的潛在與動態意圖。

UserBench 的設計正是為了解決這一缺口。它把 “用戶真實交互三大特征” 作為評測核心：

模糊性（underspecification）：用戶目標往往并未完整表達；
漸進性（incrementality）：意圖需要在對話中逐步顯露；
間接性（indirectness）：用戶偏好常常通過隱含線索體現。

在這樣的環境里，模型不再是 “照題答題”，而是必須主動追問、澄清約束，并在復雜條件下做出連貫而明智的決策。

UserBench 設計與交互流程示意圖

2. 環境與數據構造

UserBench 的標志性設計是旅行規劃任務，覆蓋五個子場景。每個維度都設置了數十條隱式偏好表述，如 “行程很緊” 暗含 “直飛 / 少中轉”，要求模型在與環境中的模擬用戶進行交互時，需要理解用戶每一句話背后的語義邏輯。同時，環境中內置了穩定數據庫后段，并且搜索返回采用了混合式選項進一步增加了模型認知難度：

正確項：完全滿足全部偏好；
錯誤項：違背至少一條偏好；
噪聲項：與需求不符或信息缺失。

這使得模型必須學會過濾噪聲、權衡約束，而非直接機械化地比對。UserBench 同時也進行了數據難度分層，根據用戶偏好的復雜程度涵蓋了 Easy/Medium/Hard 三檔，這種設計讓其既保有真實性（場景、語言與需求均來自真實語料指導下的 LLM 用戶模擬），又具備實驗可控性。

3. 以工具為界面：標準化交互接口

以往針對模型，用戶以及環境的三方交互接口復雜。而在文章中，這種復雜交互被抽象為了三類原語操作：

Action：與用戶對話（澄清、追問、確認偏好）；
Search：檢索數據庫（返回混合候選集，模擬真實世界的不完美檢索）；
Answer：提交推薦（直接完成用戶需求）。

這三類操作高度濃縮了 “理解 — 檢索 — 決策” 的鏈路，使不同任務可以在同一坐標系下被評估與比較。在 UserRL 訓練框架中，這個標準化接口被保留并得以進一步拓展，使模型訓練也變得可以自由定制化和拓展。

UserBench 上不同模型主要評測結果以及分析指標

4. 評價指標與關鍵發現

UserBench 的評分體系兼顧結果與過程：

核心指標：歸一化得分。對于每一項旅行需求，在數據庫中選到最優解記 1.0；選到正確但次優解記 0.8；其余記 0。在一個問題中用戶需求可能會涵蓋多個場景（例如交通和酒店住宿），需要被測試模型深入挖掘，理解偏好，再進行判斷和抉擇。
除此之外，文章還提出了若干過程指標以進行綜合分析：
Valid Search / Action Attempt：搜索與用戶對話操作的有效率；
Preference Elicited：偏好在用戶交互是否被主動 / 被動引出。

主要結論：模型并非輸在 “不會算”，而是常常沒能問對問題、沒能挖出關鍵信息。換言之，真正的挑戰不是推理鏈，而是智能體與人的交互中進行有效的 “用戶價值” 提煉與捕捉。

關鍵發現

單選比多選難很多：對于每一項旅行需求，如果把模型可回答的次數限制為一次，平均分數下滑約 40%，暴露了 “只能給一次答案” 時的抉擇困難
用戶偏好揭示率普遍偏低：主流模型僅～20% 的答案完全貼合全部用戶意圖，即便是強模型，通過主動互動挖掘到的偏好不到 30%，顯示了當下模型 “主動問對問題” 能力仍然欠缺。
會用工具 ≠ 真懂用戶：模型普遍有效搜索 > 80%，但有效對話顯著更低，說明 “循證澄清” 的難度更高。
難點在 “單一維度的偏好多而復雜”：當總偏好數固定時，把偏好更平均地分散到多個旅行需求中更容易，而集中在少數需求上會顯著拉低分數，這揭示了本質挑戰來自局部約束的組合復雜度
更多對話輪數≠更好表現：盲目拉長交互輪數并不能帶來收益；同時，命中答案的 “時效性”（更早給出有效答案）與整體模型對話質量也并不總是正相關：小模型 “早早猜中” 整體也不如大模型的 “穩扎穩打”。

盲目增加交互輪數并不能增強交互質量

UserRL

把 “能測試” 擴展為 “會訓練”

核心思想

UserRL 的出發點相比更加直接：在 UserBench 抽象出的三個原語接口之上，構建一個統一的 gym 環境，把 User-in-th-Loop 的多輪交互轉化為一個可訓練的強化學習問題。這意味著，智能體不再只是完成一次問答，而是要在一個有明確定義的交互環境中，通過多輪對話和工具調用來優化回報。

UserRL 中進行訓練的八個用戶中心場景設計

1. 八大 Gym Environments：能力光譜的全覆蓋

UserRL 對接了八類環境，覆蓋從個性化推薦到復雜推理的多維能力：

TravelGym：側重個性化偏好挖掘與多目標權衡；
TauGym：強調工具編排與用戶任務實現；
PersuadeGym：模擬論證與說服場景，關注對抗式對話能力；
TurtleGym：創造性推理環境（“海龜湯” 游戲）；
TelepathyGym：意圖猜測與假設檢驗；
FunctionGym：數理模式識別與規律發現；
IntentionGym：針對真實場景的意圖澄清；
SearchGym：外部知識檢索與基于檢索的問答。

所有環境都統一在Action / Search / Answer的接口下，但考察指標有所差異。這種統一接口 + 多元任務的設計，使得 UserRL 既能橫向比較不同方法，又能縱向推動能力遷移。

UserRL 完整訓練框架示意圖

2. 用戶模擬與多輪 Rollout

在每個環境中，用戶同樣由 LLM 進行模擬，并且可以更換不同用戶模擬模型，以實現交互的多樣性。UserRL 框架的核心特點包括：

確定性任務狀態 + 可驗證獎勵函數
自然語言互動，保留了動態模擬用戶對話的開放性；
多輪 rollout，讓模型在交中做出策略性的交互選擇。

3. 獎勵建模：讓過程價值變成可學信號

在 UserRL 中，我們重點探索了雙層獎勵設計：回合層（Turn-level）以及軌跡層（Trajectory-level）。在回合層中，我們重新映射 Gym 環境在每一輪中反饋的獎勵信號，探索了多種方法以區分不同層的重要性：

Naive：直接用環境獎勵，但往往非常稀疏，在實際環境中并不適合訓練。
Equalized：為所有回合賦予同樣的獎勵，確保所有鋪墊性動作不被忽視。
Reward-to-Go (R2G)：把未來的預期獎勵收益折扣回流，以體現當前輪次對于未來獎勵的價值。

Exponential Mapping (EM)：對原始獎勵做非線性映射，讓某些小進展也能帶來正反饋獎勵信號。

在軌跡層中，我們將每一輪的獎勵反饋整合成與用戶多輪交互的總體得分，以便于后續適配 GRPO 等下游各種 RL 算法，其中我們主要探索了兩種整合方式：

Sum：直接累積每回合的獎勵，以衡量整體任務完成度。
R2G：對早期進展賦予更高價值，更強調任務完成效率。

在實際訓練中這兩層獎勵可以靈活組合以適配不同交互任務。

UserRL 訓練主要試驗結果

4. 評價指標與關鍵發現

文章主要采用了GRPO算法進行優化：在同一 query 下采樣多條軌跡，組內歸一化優勢，再結合回合與軌跡獎勵進行聯合優化。同時，在 RL 訓練之前，模型預先進行了 SFT 小規模優化，實驗發現 SFT 冷啟動能夠有效幫助后續 RL 訓練。

UserRL 用其中的五個 Gym 的訓練集數據進行訓練，另外三個 Gym 則作為 OOD 環境進行測試。所有主實驗均采用 Qwen3-32B 作為用戶模擬。不同任務的測試指標不盡相同，但是都是以準確度作為衡量基礎。

主要結論：模型的提升并非來自更復雜的算力堆疊，而是得益于對過程價值的刻畫與利用。換言之，真正的突破點不在于 “終局答案對不對”，而在于能否在多輪交互中持續累積小進展、盡早對齊用戶意圖，并把這種過程性價值轉化為學習信號。

關鍵總結果

回合均等 + 軌跡 Reward-to-Go 在 4B/8B 模型上最穩健、平均最好；反觀回合均等 + 軌跡 Sum最弱，說明軌跡級計分比回合級細分更具有決定性價值。
經過 UserRL 訓練的 Qwen3 在 TravelGym、PersuadeGym、IntentionGym 等交互型任務上超過強閉源模型；跨 8 個 gym 的平均也領先閉源對照，體現出 “針對用戶交互的 RL 訓練” 能實打實提升能力。
SFT 冷啟動是必要條件：先做 SFT 再 RL，能顯著避免早期坍塌，部分任務收益超 100%。
用戶模擬器選擇很關鍵：用 GPT-4o 做模擬用戶訓練的模型下游更強；但 Qwen3-32B 作為開源模擬器具備性價比高且可遷移的優勢。

SFT 冷啟動（左側對照）與 GPT-4o 作為模擬用戶（右側對照）均能帶來更好的 RL 效果

結語：從 “完成任務” 到 “成就用戶”

UserBench 提供了一面 “明鏡”，讓我們得以量化模型是否真正理解用戶；UserRL 則把這面鏡子變成 “磨刀石”，推動模型在交互中不斷迭代，學會在模糊與多目標之間提煉價值。

《論語》有云：“君子和而不同。” 未來的通用智能體，也應當在理解用戶多元價值的同時，學會和而不同：既能尊重偏好，又能提供建設性選擇；既能滿足需求，又能引導更優解。這，才是通向真正通用智能的必要一課。

所有環境、數據以及訓練框架已開源，歡迎研究人員探索。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.