網易首頁 > 網易號 > 正文申請入駐

上科大何旭明團隊新作：克服簡單樣本偏置，讓多模態模型學會「難題優先」

2026-01-14 18:56:41　來源: AI科技評論

廣東舉報

分享至

DA-DPO 不依賴額外標注，通過難度感知訓練提升模型可靠性。

作者丨鄭佳美

編輯丨岑峰

多模態模型在感知、理解與生成等方面的能力持續提升，但其輸出中仍普遍存在與客觀事實不一致的內容，即多模態幻覺現象。

當模型面對信息缺失、語義含混或視覺細節復雜的場景時，往往會通過臆測進行補全，從而捏造并不存在的病灶、物體或情節。這類問題并非偶發失誤，而是偏好優化訓練過程中逐漸積累的結構性偏差所致：模型更容易從數量龐大、差異明顯的簡單樣本中獲得學習收益，卻對真正困難、歧義性強的樣本關注不足，結果是在復雜真實場景中的可靠性受到限制。

圍繞這一問題，上海科技大學信息科學與技術學院何旭明教授帶領團隊在論文《DA-DPO: Cost-efficient Difficulty-aware Preference Optimization for Reducing MLLM Hallucinations》中開展了系統研究。這項工作指出，現有偏好優化方法的核心癥結不在于數據規模的不足，而在于樣本難度分布失衡。

為此，團隊提出了DA-DPO 框架，通過預訓練模型對樣本難度進行估計，并在訓練過程中動態調整樣本權重，使模型的學習重點自適應地轉向復雜且更易出錯的樣本，從而緩解簡單樣本主導訓練所帶來的偏置。

值得注意的是，DA-DPO 不依賴額外人工標注，也無需訓練獨立的獎勵模型或引入復雜的強化學習流程，因而具有顯著的成本效率。在多項多模態評測基準上，該方法不僅顯著降低了幻覺發生頻率，同時在很大程度上保持甚至提升了模型的整體理解與推理能力。

論文地址：https://arxiv.org/pdf/2601.00623v1

01
抑制幻覺，但不抑制能力

最終的實驗結果表明，研究團隊提出的DA-DPO 方法在降低多模態大語言模型幻覺現象方面實現了穩定而顯著的改進，同時在保持甚至提升模型綜合能力方面也展現出明顯優勢。

研究人員首先在多個幻覺評測基準上開展了充分實驗，包括 AMBER、MMHalBench、Object HalBench 和 POPE 等，這些基準覆蓋圖像描述、開放式視覺問答以及目標級別幻覺識別等不同任務類型，所采用的評價指標涵蓋幻覺率、覆蓋率、F1 分數及一致性得分等多個維度。

在這些評測中，與原始模型和傳統 DPO 方法相比，DA-DPO 在降低幻覺率和提升事實一致性兩方面均表現出顯著提升。例如，在針對物體幻覺的測試中，模型明顯減少了對圖像中并不存在物體或屬性的臆造描述，尤其在復雜場景和存在遮擋的情況下，DA-DPO 對隨意性、想象式回答的抑制效果更加突出。

同時，在綜合能力評估方面，包括 LLaVA-Bench、SeedBench、GQA 和 MME 等基準測試顯示，傳統 DPO 方法雖然能夠一定程度上抑制幻覺，但往往伴隨總體推理與理解能力的下降，相比之下，DA-DPO 在減少幻覺的同時，能夠基本保持甚至提升模型的通用多模態能力，尤其在多輪對話、復雜視覺推理以及多選視覺問答等任務上表現更為穩健。

這表明，DA-DPO 并非以保守輸出或減少表達為代價來控制幻覺，而是通過改進偏好學習機制，使模型在忠實性與綜合能力之間達成更合理的平衡。

此外，實驗還通過訓練過程中的獎勵信號動態分析進一步揭示了上述結果背后的機制。研究團隊將驗證集樣本按照難度劃分為四個等級后發現，在普通 DPO 訓練中，簡單樣本的獎勵提升速度明顯快于困難樣本，并在訓練后期形成較大差距。

而 DA-DPO 的訓練曲線則顯示困難樣本的獎勵提升更加顯著，簡單樣本的增長趨緩，從而有效縮小不同難度樣本之間的獎勵差距。通過對最簡單與最困難樣本獎勵差距進行積分所得到的 AUG 指標，研究人員定量證明 DA-DPO 在整個訓練過程中維持了更小的難易差異，這表明訓練權重確實由簡單樣本向困難樣本轉移，最終轉化為對細粒度幻覺的顯著抑制以及綜合能力的穩定保持。

02
把權重交給難樣本

實驗設計圍繞一個核心出發點展開：在多模態偏好數據中，大量樣本屬于簡單偏好對，而傳統 DPO 在訓練過程中更容易擬合這類易于區分的樣本，從而削弱了對困難樣本的學習力度，導致模型在真實而復雜的應用場景中仍然容易產生幻覺。

為驗證這一判斷并提出相應改進方案，研究團隊從模型選擇、數據構建、難度估計方法、訓練策略以及消融實驗五個方面開展了系統而嚴密的實驗布局。

在模型選擇方面，研究人員采用了 LLaVA v1.5 7B、LLaVA v1.5 13B 以及 LLaVA-OneVision 7B 等多種具有代表性的多模態大語言模型，覆蓋不同參數規模和感知能力，以避免方法僅對特定模型結構有效。

在數據層面，團隊并未依賴單一偏好數據集，而是綜合使用了三類來源不同的數據：BPO 自動構造數據（通過弱化圖像與注入錯誤生成負樣本）、VLFeedback 自動偏好數據（由多模型生成回答并經 GPT-4V 評分篩選）以及 LLaVA-RLHF 人工標注數據。跨數據源的實驗設計旨在驗證樣本難度不平衡是偏好數據中的普遍現象，而非個別數據集的偶然結果。

在此基礎上，實驗提出了一種無需額外訓練的難度估計機制。研究人員同時引入兩類預訓練視覺語言模型：以 CLIP 為代表的對比式模型，從圖像與文本相關性的角度評估樣本，以及以 LLaVA 為代表的生成式模型，從問題與回答語義一致性的角度衡量樣本。

針對每一對偏好數據，分別計算被選回答與被拒回答的得分，并以分數差值作為難易程度的依據：差值較大表示樣本容易區分，差值較小則表明樣本更為困難。隨后，研究團隊通過高斯歸一化與分布感知投票策略對兩類模型的輸出進行融合，使難度估計在穩定性與魯棒性方面得到兼顧。

而在訓練階段，團隊將難度評分引入 DPO 框架中的 β 參數，使該參數不再固定，而是隨樣本難度自適應變化，從而形成難度感知訓練機制：困難樣本被賦予更高的優化權重，而簡單樣本的過擬合趨勢則受到抑制。

為驗證方法的真實有效性而非偶然現象，研究人員開展了大規模消融實驗。例如，他們分別考察僅使用對比式模型、僅使用生成式模型以及兩者聯合進行難度估計的效果，結果表明聯合方式明顯優于單一來源，同時還構建了直接刪除簡單樣本的過濾策略進行對照，發現這一做法破壞數據多樣性并導致結果波動，而 DA-DPO 的軟加權方式則能夠持續帶來穩定提升。

此外，研究團隊還通過難度分桶訓練進一步表明，當訓練數據集中以中等難度樣本為主時，幻覺抑制效果最為顯著，從而進一步支持了這樣一個關鍵觀點：相較于單純擴大數據規模，樣本難度結構的合理性對模型性能提升具有更為關鍵的作用。

03
從「數據更多」到「難度更準」

整體來看，這項研究具有重要的學術意義和實際應用價值。首先，從理論層面看，研究團隊通過對訓練動態、獎勵變化軌跡以及樣本難度分布的系統分析，揭示了一個此前在多模態偏好優化領域未被充分重視的問題：傳統 DPO 雖然在形式上實現了偏好對的優化，但在訓練過程中存在明顯的難度偏置，模型更傾向于學習簡單、差異明顯的樣本，而對語義復雜、區分細微、貼近真實應用情境的困難樣本學習不足。

正是這種偏置，使得即便在大量偏好數據訓練之后，幻覺問題仍然難以得到有效抑制。DA-DPO 的提出并非單純的工程技巧，而是將樣本難度作為顯式因素引入偏好優化目標之中，從根本上重構了偏好學習問題的視角，強調提升模型對齊能力的關鍵不在于一味擴大數據規模，而在于合理設計樣本難度結構與權重分配。

這一理念對后續研究具有明顯啟發意義，自適應采樣、困難樣本挖掘以及在線難度建模等方向都可在此基礎上進一步發展。

其次，從方法和工程實現角度看，DA-DPO 具有成本低、效率高、可落地性強的特點。該方法不依賴新增人工標注，也無需額外訓練完整的獎勵模型，更不需要引入復雜的強化學習流程，而是利用現有預訓練模型對樣本難度進行評估，并在原有 DPO 框架中加入簡潔有效的 β 動態調節機制，即可獲得穩定的性能提升。這種低成本與高收益并存的特點，使其非常適合在工業級多模態系統中部署與推廣。

最后，從應用層面來看，多模態模型的幻覺問題直接影響其在安全關鍵任務中的實用性與可靠性。例如，醫療影像描述中若憑空捏造病灶，自動駕駛系統若誤判道路要素，或法律輔助系統若臆測事實細節，都可能帶來嚴重后果。

DA-DPO 在不顯著削弱模型能力的前提下有效降低幻覺發生頻率，從而顯著提升模型在此類高風險領域中的可信度與安全性。當然，研究團隊也指出該方法的局限性：難度評估依賴于當前預訓練模型的判斷能力，當目標領域與預訓練語料存在較大差異時，難度評估可能不夠準確。因此，未來工作有必要探索領域自適應的難度估計方法以及自監督式難度建模機制。

總體而言，這項研究不僅提供了一條切實可行的技術路線，更提出了一個對多模態偏好學習方式產生重要影響的核心觀點，這也是其最為關鍵的學術意義所在。

04
在多模態世界里尋找答案的人

本文的第一作者是Longtian Qiu。他是上海科技大學信息科學與技術學院 PLUS Group 的碩士研究生，師從何旭明教授，目前攻讀人工智能方向的碩士學位。

本科階段同樣就讀于上海科技大學計算機科學專業，Longtian Qiu 的主要研究興趣涵蓋少樣本/低樣本學習、視覺—語言預訓練以及提示學習等領域，而這些方向也是當前多模態學習與視覺語言理解研究中的重要議題。

參考鏈接：https://faculty.sist.shanghaitech.edu.cn/plus/author/longtian-qiu/

這篇文章的通訊作者是何旭明。他是上海科技大學信息科學與技術學院的副教授、研究員和博士生導師，同時擔任學院副院長和學位委員會主任。

他于 2008 年在加拿大多倫多大學獲得計算機科學博士學位，隨后在加州大學洛杉磯分校（UCLA）從事博士后研究。此后，他先后在澳大利亞國家信息通信技術研究院（NICTA）和澳大利亞國立大學擔任研究員及高級研究員，積累了豐富的國際科研與合作經驗。自 2016 年起加入上海科技大學，并于 2017 年起任副教授，長期在 PLUS Lab 領銜團隊開展前沿研究工作。

何旭明教授的研究興趣主要集中在計算機視覺、機器學習與科學智能等領域，尤其關注開放世界場景理解、多模態數據的理解與生成、少樣本與非均衡數據學習、終身學習以及新類別發現等具有挑戰性的科學問題。在這些方向上，他已發表一百余篇學術論文，涵蓋 Nature Communications、IEEE TPAMI、Nano Letters、NeurIPS、ICLR、CVPR、ICCV 等國際頂級期刊與會議，在學術界產生了廣泛影響。

其科研成果被廣泛引用，并指導學生多次獲得重要學術獎勵，包括 IEEE CVPR Workshop 最佳論文獎、IEEE FG 最佳學生論文獎及 ICCV OOD-CV 競賽冠軍等。除此之外，何旭明教授還曾獲上海市優秀教學成果一等獎，多次擔任 ICCV、ECCV、CVPR、NeurIPS 等國際頂級會議的領域主席，并擔任國際期刊 TMLR 副主編，現任上海市智能視覺與影像工程技術研究中心主任。

https://faculty.sist.shanghaitech.edu.cn/faculty/hexm/index.html

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.