337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

DPO「只看總分不看細節」?TI-DPO用Token重要性重塑大模型對齊

0
分享至



在當今的大模型后訓練(Post-training)階段,DPO(直接偏好優化) 憑借其無需訓練獨立 Reward Model 的優雅設計和高效性,成功取代 PPO 成為業界的 「版本之子」,被廣泛應用于 Llama-3、Mistral 等頂流開源模型的對齊中。

然而,隨著對模型能力要求的日益嚴苛,DPO 的缺陷逐漸浮出水面。

究竟該如何讓 DPO 學會「去偽存真」,精準識別出那些真正決定勝負的 Critical Tokens

針對這一問題,來自中國科學院自動化研究所、字節跳動、微軟亞洲研究院和北京科技大學的研究者們在被選為 ICLR 2026 Oral 的新工作中聯合提出了一種全新的 TI-DPO 框架。



  • 論文:《Token-Importance Guided Direct Preference Optimization》
  • 論文地址:https://arxiv.org/abs/2505.19653
  • 開源地址:https://github.com/gracefulning/TIDPO

研究背景與意義

主流方法正面臨兩個核心難題,這使得模型難以實現真正精細化的語義控制:

  • 痛點一:序列級的「二元對立」陷阱。傳統方法依然停留在序列級別(Sequence-level)的粗粒度優化上,簡單粗暴地將數據劃分為好與壞。這種二元監督信號極度匱乏,因為它掩蓋高質量回復中可能混雜著瑕疵 Token 的事實,導致了模型在連續語義空間中微調效果差,甚至引發采樣分布偏移(Distribution Shift)。
  • 痛點二:被偏差綁架的「偽」重要性。即使試圖下沉到 Token 級別,現有的重要性評估手段也存在問題。許多方法依賴概率預測或簡單加權,這導致它們直接繼承了模型架構的固有缺陷 ——「U 型注意力偏差」(Lost in the Middle),模型天生傾向于過度關注首尾 Token 而忽略中間的核心語義。

TI-DPO 的核心機制

TI-DPO 的核心思想是:既然 Token 生而不同,那就給它們「加權」。 通過引入混合加權機制和三元組損失,TI-DPO 能夠精準識別并放大「關鍵 Token」的信號,同時抑制噪聲,從而實現比傳統 DPO 更準、更穩的對齊效果。它主要包含兩大核心機制:

1. 混合加權機制 (Hybrid Weighting)

為了找出誰才是決定回復質量的「勝負手」,TI-DPO 設計了一套數據驅動與先驗結構相結合的權重計算法:

  • 梯度歸因:計算 Loss 對每個 Token Embedding 的梯度范數。簡單來說,誰對最終輸出貢獻大,誰的權重就高。
  • 高斯先驗:針對 LLM 常見的「U 型注意力偏差」(過度關注開頭結尾),引入高斯分布強制模型關注中間的語義核心。

最終的 Token 權重 ,是這兩者的凸組合:



新的 Token 級 DPO 加權損失函數如下:



2. 三元組損失 (Triplet Loss)

TI-DPO 不再滿足于非黑即白的二元對比,而是引入了度量學習中的神器Triplet Loss。它在訓練過程中構建了三個角色:







TI-DPO 損失函數:TI-DPO 的最終優化目標便是兩者的加權和:



實驗結果

為了驗證 TI-DPO 的實際戰力,研究團隊在 Llama-3 (8B/3B) 和 Mistral-7B 等多個主流基座模型上進行了測試,對比了包括 DPO、SimPO 以及最近大火的 GRPO 等 10+ 種對齊算法。

1. 綜合能力評估

如圖 1,在 Llama-3.1-8B-Instruct 基座上,TI-DPO 的綜合平均分達到 62.3,超過 GRPO (62.1) 和 DPO (60.8) 。



2. 細分領域表現優秀

在 IFEval(指令遵循)、TruthfulQA(真實性)和 HumanEval(代碼生成) 這三大最考驗細節把握的任務上,TI-DPO 的表現大幅超越了 DPO、SimPO 以及 GRPO。





3. 消融實驗:核心組件缺一不可

Table 2 的消融實驗結果表明,TI-DPO 的所有核心組件(包括混合加權機制、高斯先驗和三元組損失)對于模型性能都至關重要,移除任意模塊均會導致在通用能力、數學推理及代碼生成等各項指標上的顯著下降。



4. 案例展示:一眼看懂「關鍵 Token」

為了驗證 TI-DPO 是否真的學會了「抓重點」,作者展示了一個醫療咨詢案例(「頭痛該怎么辦?」)的權重可視化熱力圖。

  • 在 Preferred 回復中(左):模型給「seek medical attention」和「promptly」分配了極高的權重(紅色深色區域),抓住了「安全第一」的核心。
  • 在 Non-Preferred 回復中(右):模型精準「抓包」了「painkillers casually」這種潛在的高風險建議,并賦予高權重加以懲罰。
  • Intermediate Response是模型當前的自我水平:「建議多休息,如果惡化再看醫生」。TI-DPO 引導模型在生成過程中,不斷向 Preferred 的價值觀靠攏,同時規避 Non-preferred 的陷阱,從而完成從粗放向精細的進化。



這種有力地證明 TI-DPO 不是在死記硬背,而是真的讀懂了人類價值觀。

總結與貢獻

TI-DPO 的提出,為大模型對齊從粗放的序列級優化向更精細的 Token 級控制轉變提供了一個有力的嘗試。它不再滿足于籠統地判斷回答的「好壞」,而是試圖厘清每一個 Token 在價值對齊中的真實貢獻。

實驗結果表明,TI-DPO 在指令遵循、真實性與代碼生成等任務上,相比 GRPO 等基線取得了穩定的性能提升,驗證了提升數據利用的「顆粒度」是增強模型能力的有效路徑。

TI-DPO 以其在去噪和細節控制上的特性,為后續的 RLHF 研究提供了一個值得關注的新方向。我們期待看到更多圍繞「細粒度價值對齊」的探索,推動大模型向著更精準、更可控的方向進化。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
張雪峰公司員工曝現狀:辦公室錦旗被打包,家長擔心卷錢跑路

張雪峰公司員工曝現狀:辦公室錦旗被打包,家長擔心卷錢跑路

一盅情懷
2026-03-27 16:19:26
“考研6年,輸給一條黑褲襪”,女大學生啃老式考研,被嘲研王爺

“考研6年,輸給一條黑褲襪”,女大學生啃老式考研,被嘲研王爺

妍妍教育日記
2026-03-28 07:45:03
張雪峰追悼會再度被看哭!現場人山人海,萬束鮮花,凌晨三點奔赴

張雪峰追悼會再度被看哭!現場人山人海,萬束鮮花,凌晨三點奔赴

裕豐娛間說
2026-03-28 08:03:03
江蘇一市紀委監委通報:張國光、顧峰、李軍、史肇源被查

江蘇一市紀委監委通報:張國光、顧峰、李軍、史肇源被查

揚子晚報
2026-03-28 08:07:08
娃哈哈停產了?知情人士回應

娃哈哈停產了?知情人士回應

第一財經資訊
2026-03-27 20:12:41
李昌鈺與原配相伴56載,曾舉行兩次婚禮,79歲喪偶后與揚州女商人再婚,晚年多次到訪中國,去年6月獲聘復旦名譽教授

李昌鈺與原配相伴56載,曾舉行兩次婚禮,79歲喪偶后與揚州女商人再婚,晚年多次到訪中國,去年6月獲聘復旦名譽教授

極目新聞
2026-03-28 07:54:17
廣東省委:堅決擁護黨中央決定

廣東省委:堅決擁護黨中央決定

觀察者網
2026-03-28 08:45:14
網紅“留幾手”評論張雪峰去世言論引眾怒:“死者又不是我爹,憑什么為大...”

網紅“留幾手”評論張雪峰去世言論引眾怒:“死者又不是我爹,憑什么為大...”

品牌新
2026-03-27 14:06:12
小鵬汽車宣布更名

小鵬汽車宣布更名

大象新聞
2026-03-27 19:45:02
結束二連敗!火箭6人上雙穩更衣室氛圍?休媒仍不滿烏度卡用人

結束二連敗!火箭6人上雙穩更衣室氛圍?休媒仍不滿烏度卡用人

顏小白的籃球夢
2026-03-28 10:20:22
張雪峰追悼會定于本周六,喪事從簡不搞排場,11歲女兒成全家心病

張雪峰追悼會定于本周六,喪事從簡不搞排場,11歲女兒成全家心病

未曾青梅
2026-03-26 22:48:49
萬斯批評內塔尼亞胡!伊朗議長:美軍士兵只能藏在酒店和公園,何談對伊地面戰!德國、加拿大、英國、法國、意大利、日本集體呼吁

萬斯批評內塔尼亞胡!伊朗議長:美軍士兵只能藏在酒店和公園,何談對伊地面戰!德國、加拿大、英國、法國、意大利、日本集體呼吁

每日經濟新聞
2026-03-27 23:57:25
看了觀眾對何潤東的評價,我才明白當年陳道明那番話的含金量

看了觀眾對何潤東的評價,我才明白當年陳道明那番話的含金量

糊咖娛樂
2026-03-26 17:22:19
同學聚會,班長讓我給遲到的鎮長讓座,下一秒,縣長向我道歉

同學聚會,班長讓我給遲到的鎮長讓座,下一秒,縣長向我道歉

農村情感故事
2026-03-23 07:31:39
“斬首術”應該獲諾貝爾獎?如此“讓領導先走”,真是偉大創造嗎

“斬首術”應該獲諾貝爾獎?如此“讓領導先走”,真是偉大創造嗎

瑜說還休
2026-03-27 17:31:33
特朗普稱霍爾木茲為特朗普海峽

特朗普稱霍爾木茲為特朗普海峽

界面新聞
2026-03-28 09:36:19
吉格斯:坎通納干啥弗格森都不罵他;曼聯有些教練團隊爛透了

吉格斯:坎通納干啥弗格森都不罵他;曼聯有些教練團隊爛透了

懂球帝
2026-03-28 05:45:32
此刻蘇州堵了!張雪峰追悼會現場一公里的人,通道布滿上萬束鮮花

此刻蘇州堵了!張雪峰追悼會現場一公里的人,通道布滿上萬束鮮花

火山詩話
2026-03-28 07:57:56
暴跌95%,裁員5萬人,全球第二大車企爆大雷

暴跌95%,裁員5萬人,全球第二大車企爆大雷

蔣東文
2026-03-27 21:09:47
恐怖!昨晚差點跟著張雪峰一起走了,上海女網友哭訴自己驚魂經歷

恐怖!昨晚差點跟著張雪峰一起走了,上海女網友哭訴自己驚魂經歷

火山詩話
2026-03-28 08:24:26
2026-03-28 11:04:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12619文章數 142596關注度
往期回顧 全部

科技要聞

遭中國學界"拉黑"后,這家AI頂會低頭道歉

頭條要聞

前大廠員工開"網絡賭場" 三個月吸金1900萬

頭條要聞

前大廠員工開"網絡賭場" 三個月吸金1900萬

體育要聞

“我是全家最差勁的運動員”

娛樂要聞

范瑋琪加盟,官宣《浪姐7》遭全網抵制

財經要聞

我在小吃培訓機構學習“科技與狠活”

汽車要聞

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態度原創

本地
健康
時尚
數碼
公開課

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

干細胞抗衰4大誤區,90%的人都中招

推廣中獎名單-更新至2026年3月11日推廣

數碼要聞

全球存儲芯片短缺,索尼宣布暫停CFexpress及SD卡訂單

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版