網易首頁 > 網易號 > 正文申請入駐

騰訊混元團隊最新研究：讓 AI 從「固定模型」走向「實時適配系統」

2026-03-20 18:29:18　來源: 雷峰網

北京舉報

分享至

很多機器學習系統在設計時都默認一個前提：模型一旦訓練完成，其參數基本是固定的。無論輸入是什么樣的數據，模型都會依賴同一套參數完成推理。這種范式在過去十多年里非常成功，模型能力的提升主要依賴更大的模型規模、更多的數據以及更長時間的訓練。但當人工智能逐漸進入更加復雜的應用環境時，這種“固定參數”的方式也開始顯現出局限。

現實任務往往具有高度多樣性，不同用戶需求、不同任務目標甚至可能彼此沖突。例如在圖像編輯場景中，同一張圖片可能會對應完全不同的修改要求。有的任務需要增強細節，例如去模糊或圖像修復，而另一些任務則需要弱化細節，例如增加模糊效果或模擬老照片的老化過程。如果模型始終依賴同一套參數，它往往只能在不同目標之間做出折中，從而影響最終效果。

過去，研究人員通常通過 domain adaptation 或模型微調來緩解這一問題。當模型進入新的領域時，需要重新訓練或調整參數，使其適應新的數據分布。然而這種方式往往意味著額外訓練成本，同時也增加了系統部署和維護的復雜度。那么有沒有機會做到實時adaptation？

在這樣的背景下，騰訊混元團隊提出了論文《HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing》。

這項研究嘗試改變模型適應任務的方式：讓模型在推理階段根據當前輸入實時動態生成適合該任務的參數，而不是始終依賴一套固定參數。通過這種機制，同一個基礎模型在面對不同任務時可以表現出不同的行為模式，從而實現更加靈活的實時適配能力。

論文地址：https://arxiv.org/pdf/2603.07236

一個模型，多種行為

研究通過多種實驗驗證了一個核心觀點：如果模型能夠針對每個輸入動態生成參數，而不是始終使用一套固定參數，那么在復雜任務中會表現得更好。為驗證這一點，研究人員設計并開展了四類實驗。

首先是人類評測實驗。研究團隊進行了大規模人工評測。評測流程是：在同一輸入圖片和編輯指令的條件下，讓不同模型分別生成編輯結果，然后由人類評審在兩個結果之間選擇更好的一個，并統計最終的勝率。

結果顯示，HY-WU 在多個主流模型對比中具有明顯優勢。例如，對 Step1X-Edit 的勝率約為 78.4%，對 Qwen-Image-Edit 的勝率約為 70.5%，對 LongCat-Image-Edit 的勝率約為 68.3%，對 FLUX.2 的勝率約為 55.5%。在與部分閉源商業系統比較時，對 Seedream 4.5 的勝率約為 55.6%，對 GPT Image 1.5 的勝率約為 55.5%。與最先進的商業系統 Nano Banana 系列相比，HY-WU 的表現略微落后，但整體差距不大。這些結果表明，通過動態生成參數的方式，在視覺編輯效果上具有明顯優勢。

其次是自動評測實驗。除了人工評測，研究人員還設計了自動評估系統 WU-Eval。該系統從四個維度對圖像結果進行評價，包括指令對齊、內容一致性、結構合理性以及圖像質量。

實驗結果顯示，HY-WU 在這些指標上取得了最高的總體得分 4.27，其中 consistency 為 4.13，structure 為 4.30，quality 為 3.98。與最強的開源模型相比，consistency 提高約 0.27，structure 提高約 0.23。這些結果說明，通過動態生成參數的機制，可以顯著提升圖像編輯過程中的穩定性以及結構保持能力。

第三類實驗是在公開 benchmark 上的評測。研究團隊在兩個公開圖像編輯評測數據集上進行了測試。在 GEdit-Bench 上，HY-WU 在所有開源模型中排名第一；在 ImgEdit-Bench 上，HY-WU 的總體得分為 4.05，在開源模型中排名第二。這說明該方法不僅在內部實驗中有效，在公開評測環境中同樣具有較強競爭力。

第四類實驗是沖突任務實驗。研究人員設計了一組互相矛盾的編輯任務，用來測試模型在復雜條件下的表現。例如圖像去模糊與圖像模糊、圖像恢復與圖像老化等任務，這些任務在本質上具有相反的目標。

實驗比較了三種不同策略。第一種是 Single LoRA，即為每個任務分別訓練獨立模型。實驗結果顯示，這種方法在對應任務上表現很好，但無法處理其他任務，說明模型出現過度專門化的問題。第二種是 Shared LoRA，即多個任務共享一個模型。實驗結果顯示，這種方式雖然可以處理所有任務，但效果明顯被折中，例如在去模糊和模糊之間出現一種“半模糊”的結果。第三種是 HY-WU 方法，即針對每個輸入動態生成不同參數。實驗結果表明，在這種機制下，每個任務都能夠被正確執行，而且不同任務之間不會互相干擾，這說明動態參數生成可以有效避免任務沖突問題。

一個模型，多套參數

在實驗過程中，研究團隊提出的 HY-WU 系統本質上是一種動態參數生成框架，其核心思想是讓模型在推理階段根據當前輸入動態生成適合該任務的參數，而不再始終依賴一套固定參數來處理所有問題。傳統模型在部署后通常使用同一組參數處理所有輸入，而 HY-WU 的設計思路則不同，它通過一個額外的參數生成模塊，使模型在面對不同輸入時能夠產生不同的參數配置，從而形成針對當前任務更加合適的計算方式。

在任務設置方面，研究人員將實驗任務設定為文本指導圖像編輯。在這一任務中，系統的輸入包括兩部分信息，一部分是一張原始圖片，另一部分是一條描述編輯需求的文本指令。模型需要根據這兩部分信息生成一張新的編輯結果圖像。

為了保證編輯結果具有良好的可用性，任務目標包括三個方面。首先，模型必須正確執行文本指令中所描述的編輯操作，例如改變某個物體的屬性或替換某個區域。其次，在執行編輯時需要保留與指令無關的重要內容，也就是說只修改需要改變的部分，而盡量保持其他區域不發生變化。

第三，生成圖像需要保持整體結構的一致性，例如人物的姿態、空間關系或背景結構不能出現明顯破壞。例如在一個典型場景中，輸入是一張人物圖片，同時給出一條指令要求將人物的衣服替換為另一張圖中的衣服。在這種情況下，系統需要在改變衣服外觀的同時保持人物身份特征、姿態以及背景環境不發生變化，使最終生成的圖像看起來真實且自然。

在系統結構方面，HY-WU 系統可以分為三個主要階段。第一階段是條件信息提取階段。在這一階段中，系統分別從輸入圖像和文本指令中提取特征信息，并將兩種模態的信息融合形成一個統一的條件表示。

這一條件表示描述了當前輸入中包含的視覺內容以及用戶所提出的編輯需求，是后續參數生成過程的重要依據。通過這種方式，系統能夠理解當前圖像中包含的對象、結構以及文本指令所要求的變化方向。

第二階段是模型參數生成階段。在這一階段中，提取到的條件信息會被輸入到一個基于 Transformer 架構的參數生成網絡中。該網絡的任務不是直接生成圖像，而是根據輸入條件生成一組新的模型參數，這些參數以 LoRA adapter 的形式存在。

LoRA adapter 是一種常見的參數高效更新方式，可以在不修改原始模型主體結構的情況下改變模型行為。通過這一機制，參數生成網絡能夠根據當前輸入條件生成適合該任務的參數更新，從而使基礎模型在執行推理時具備針對當前任務的能力。

第三階段是執行圖像編輯階段。在這一階段中，系統會將生成的 LoRA adapter 參數插入到基礎模型中，使模型在當前輸入條件下以新的參數結構運行。隨后基礎模型在這些參數的作用下完成圖像生成或編輯過程，并輸出最終結果。由于參數生成網絡會針對每一個輸入生成不同的參數，因此即使使用同一個基礎模型，不同輸入也會對應不同的參數配置。這意味著模型在處理不同任務時能夠表現出不同的行為模式，從而提升整體適應能力。

在訓練方式方面，HY-WU 采用了一種與傳統方法明顯不同的訓練策略。傳統方法在進行參數生成或適配研究時，通常需要先預先訓練大量模型，然后再通過學習過程重建這些模型參數，從而訓練一個能夠生成參數的網絡。這種方式不僅需要存儲大量模型，還會帶來較高的訓練和數據管理成本。雷峰網

與之相比，研究團隊在 HY-WU 中采用了更加直接的訓練方式。在訓練過程中，系統首先輸入圖像和編輯指令，然后由參數生成網絡根據輸入條件生成對應的模型參數。接著系統利用這些參數在基礎模型中生成編輯后的圖像。隨后根據生成結果與目標之間的差異計算損失，并根據損失結果更新參數生成網絡。

整個訓練流程可以概括為五個步驟，即輸入圖像和指令、生成模型參數、生成編輯圖像、根據編輯效果計算損失以及更新參數生成網絡。通過這種方式，系統能夠直接圍繞最終任務目標進行優化，同時避免存儲和管理大量模型參數，從而降低訓練過程中的復雜度，并使參數生成機制更加靈活。

一個模型，應對無限變化的任務

從技術層面來看，這項研究可以被理解為一種新的圖像編輯方法，但如果從更宏觀的角度進行分析，它實際上提出了一種新的模型適應方式。

傳統模型通常依賴一套固定參數來處理所有任務，而現實世界的問題往往是多樣且不斷變化的。例如，不同用戶需求可能完全不同，不同任務目標之間也可能存在明顯差異，同時數據分布在不同場景中也會發生變化。在這種情況下，一套固定參數很難同時適應所有情況，因此模型在復雜環境中的表現往往受到限制。

在過去十幾年中，機器學習領域通常通過 domain adaptation 來解決這一問題。當模型進入新的領域時，研究人員往往需要重新訓練模型，或者通過微調的方式使模型適應新的數據分布。雷峰網

這種方法確實可以在一定程度上提升模型在新領域中的表現，但其成本也相對較高。每進入一個新的領域通常都需要重新進行訓練，系統部署過程會變得更加復雜，同時模型更新的周期也會變得較長。

隨著模型規模的不斷發展，研究人員開始探索另一種新的思路，即是否可以讓模型在運行過程中自動適應任務，而不需要重新訓練模型。在這一背景下，HY-WU 可以被看作這種思路的一種具體實現方式。與傳統方法不同，這一方法學習的并不是一組固定的模型參數，而是學習如何根據當前輸入生成合適的參數更新，從而讓同一個基礎模型在面對不同任務時能夠表現出不同的行為模式。

從更抽象的角度來看，一個真正強大的模型需要具備兩個關鍵能力。首先，模型必須具備 adaptation 能力，也就是說模型能夠根據不同任務改變自己的行為方式，而不是始終使用同一種處理策略。

其次，這種 adaptation 必須是實時發生的。如果每一次適應都需要重新訓練模型，那么系統在真實環境中的使用就會受到很大限制。因此，一個真正智能的系統不僅需要具備適應能力，還需要能夠實現實時適應。

在這樣的框架下，在這樣的框架下，HY-WU 的核心意義不僅在于提升圖像編輯任務中的性能，更重要的是，它實現了一種推理階段的實時適應機制（real-time adaptation）。具體來說，模型在處理每一次輸入時，都會根據當前圖像和指令動態生成一組新的參數，使模型能夠針對當前任務調整自身行為。

在這一機制下，模型在面對每一個輸入時都會生成一組新的參數調整，從而使同一個基礎模型能夠在不同任務之間靈活切換，并表現出不同的行為模式。

從更長遠的角度來看，這項研究也為未來人工智能系統的發展提供了一種新的方向。未來的 AI 系統可能不再依賴單一的固定模型，而是需要在運行過程中實時調整自身的參數結構，從而持續適應不斷變化的任務環境和應用場景。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.