網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

多模態(tài)預訓練，才是大模型的下一條路？Yann LeCun、謝賽寧參與

2026-03-09 11:53:58　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

基礎模型時代，大模型能力的爆發(fā)，很大程度上源于在海量文本上的預訓練。然而問題在于，文本本質(zhì)上只是人類對現(xiàn)實世界的一種抽象表達，是對真實世界信息的有損壓縮。

借用柏拉圖《洞穴寓言》的比喻：語言模型已經(jīng)非常擅長描述洞穴墻壁上的影子，卻從未真正看到投射這些影子的實體。它們能夠很好地捕捉符號，但卻難以理解物理世界中高保真的物理規(guī)律、幾何結構以及因果關系。

在這種哲學層面的局限之外，還存在一個更現(xiàn)實的天花板：高質(zhì)量的文本數(shù)據(jù)是有限的，而且正逐漸接近枯竭。

相比之下，視覺世界擁有幾乎無限的信號來源，那些洞穴之外的信息，記錄著現(xiàn)實世界最原始的動態(tài)變化，而這些恰恰是語言所無法完整表達的。

因此，未來的發(fā)展路徑需要走出影子的世界，直接去建模現(xiàn)實本身。

為此，來自 Meta、紐約大學的研究者轉向統(tǒng)一的多模態(tài)預訓練（unified multimodal pretraining）：不再把視覺信號當作一種輔助輸入，而是將其與語言一樣，視為模型中的一等公民（first-class citizen）。

論文地址：https://arxiv.org/pdf/2603.03276v1
論文標題：Beyond Language Modeling: An Exploration of Multimodal Pretraining

本文一作為 Shengbang Tong（童晟邦）、Divid Fan 和 John Nguyen。著名研究者 Yann LeCun 和謝賽寧亦有參與。

當前，統(tǒng)一多模態(tài)預訓練的科學研究版圖仍然相當不清晰。盡管近期的一些研究已經(jīng)開始嘗試超越純語言預訓練，但整個設計空間仍充滿了各種相互干擾的變量。

與從零開始同時學習視覺和語言不同，目前大多數(shù)方法仍然依賴以預訓練語言模型為初始化。這種范式的核心目標，是盡量保留原有的語言能力，同時逐步讓模型適應多模態(tài)任務。

然而，這些預訓練語言模型中已經(jīng)包含的大量知識，會對實驗結果產(chǎn)生干擾，使研究者難以判斷模型能力究竟來自統(tǒng)一多模態(tài)訓練本身，還是來自語言預訓練階段繼承的能力。因此，視覺與語言之間最基礎的學習機制以及它們的擴展關系（scaling relationship）至今仍缺乏清晰理解。

本文試圖為這一領域提供更清晰的實證認識，將研究重點放在預訓練階段，因為模型的大部分核心能力正是在這一階段形成的。

在實現(xiàn)方法上，他們從零開始訓練一個統(tǒng)一模型，并采用 Transfusion 框架：

對語言使用 next-token 預測；
對視覺使用擴散建模。

訓練數(shù)據(jù)涵蓋文本、視頻、圖文對，以及帶有動作條件的視頻數(shù)據(jù)。

同時，本文還設計了一系列可控實驗來逐一隔離關鍵變量，并在一個全面的任務體系上進行評估，任務范圍從語言能力評測、視覺理解與生成，一直延伸到世界模型中的規(guī)劃能力（planning）。

具體而言，本文從以下幾個維度展開研究：

視覺表示：論文評估了多種視覺表示方式，范圍從變分自編碼器（VAE）、語義表示（semantic representations）到原始像素。研究結果表明，表示自編碼器（Representation Autoencoder，RAE）是最優(yōu)的視覺表示方式。（第 3 節(jié)）

數(shù)據(jù)：論文研究了多種數(shù)據(jù)組合方式，從純文本和視頻數(shù)據(jù)到圖文對數(shù)據(jù)以及帶動作條件的視頻數(shù)據(jù)。實驗發(fā)現(xiàn)，不同模態(tài)之間的相互干擾非常小，在某些情況下甚至會產(chǎn)生正向協(xié)同效應。（第 4 節(jié)）

世界建模：論文將評測擴展到導航世界模型（Navigation World Model, NWM）場景，并將動作直接表示為文本 token。實驗表明，模型的物理預測能力主要來自通用的多模態(tài)預訓練（如視頻數(shù)據(jù)），而不是依賴特定領域的數(shù)據(jù)。（第 5 節(jié)）

架構設計：他們在統(tǒng)一多模態(tài)框架下研究了 MoE 架構的設計選擇，并觀察到模型在訓練過程中會自然形成模態(tài)分離與統(tǒng)一并存的結構。（第 6 節(jié)）

擴展規(guī)律（Scaling Properties）：通過 IsoFLOP 實驗推導了統(tǒng)一預訓練過程中視覺與語言的擴展規(guī)律（scaling laws）。結果發(fā)現(xiàn)存在一種擴展不對稱性：視覺任務對數(shù)據(jù)規(guī)模的需求明顯高于語言。同時發(fā)現(xiàn) MoE 架構能夠有效彌合這種差距。（第 7 節(jié)）

統(tǒng)一多模態(tài)預訓練中的視覺表示

這一小節(jié)研究了三類視覺編碼器：

VAE 系列，包括 Stable Diffusion 的 SD-VAE 以及 FLUX.1；

語義編碼器，既包括語言監(jiān)督訓練的編碼器，也包括自監(jiān)督編碼器；

最后，本文還研究了直接使用原始像素作為輸入的方案。相關實驗結果見圖 4。

文本性能。無論使用哪種視覺表示，模型的文本困惑度（perplexity）都與純文本訓練的基線模型相當，有時甚至略好，其中原始像素輸入表現(xiàn)最好。不過，這種差異非常有限，說明多模態(tài)預訓練并不會顯著影響模型的語言能力，無論使用哪種視覺表示，其語言能力都與僅使用文本訓練的模型基本一致。

視覺生成與理解。語義編碼器在視覺理解和視覺生成兩類任務上都持續(xù)優(yōu)于基于 VAE 的編碼器。例如，SigLIP 2 不僅在 VQA 上優(yōu)于 FLUX.1，在圖像生成基準測試（如 DPGBench 和 GenEval）上也表現(xiàn)更好。

這一結果呼應了 RAE 的研究發(fā)現(xiàn)：高維視覺表示在生成任務上的效果至少與低維 VAE 潛表示相當，甚至更好。這說明，一個統(tǒng)一的視覺編碼器就足以同時支持視覺理解和生成任務。后續(xù)實驗中將 SigLIP 2 作為默認視覺編碼器。

建議 1：采用單一的基于 RAE 的視覺編碼器（例如 SigLIP 2），可以同時在視覺理解和視覺生成任務上取得優(yōu)異表現(xiàn)，從而簡化模型架構，并且不會損害模型的文本性能。

理解數(shù)據(jù)的影響

預訓練數(shù)據(jù)組成統(tǒng)一多模態(tài)預訓練的前提是利用所有可用數(shù)據(jù)。然而，目前尚不清楚每種數(shù)據(jù)類型對最終模型是起到貢獻作用還是干擾作用。為了更好地理解這一點，團隊研究了三種具有代表性的混合數(shù)據(jù)：

文本 + 視頻（不帶文本注釋的原始視頻）；
文本 + MetaCLIP（圖像 - 文本對）；
文本 + 視頻 + MetaCLIP + 動作（上述所有內(nèi)容 + 動作條件視頻）。

所有多模態(tài)模型均在約 1 萬億個 token 上進行訓練（5200 億文本 + 5200 億多模態(tài)數(shù)據(jù)），并與在 5200 億文本 token 上訓練的純文本基準模型進行比較。

結果如下圖所示，團隊發(fā)現(xiàn)「文本 + 視頻」組合在 DCLM 驗證集和內(nèi)部 Notes 語料庫上均取得了所有混合數(shù)據(jù)中最佳的困惑度。在 DCLM 上，「文本 + 視頻」甚至超越了純文本基準模型，這表明：視頻數(shù)據(jù)與語言建模至少是兼容的，甚至可能是有益的。這也意味著視覺本身并不是導致模態(tài)競爭的主要原因。

另一方面，「文本 + MetaCLIP」在所有混合數(shù)據(jù)中表現(xiàn)出的困惑度最差。而「文本 + 視頻 + MetaCLIP + 動作」相比純文本基準模型僅有輕微退化，這表明：視頻 + 動作軌跡與文本也是互補的。

團隊推測，文本性能的退化源于引入圖像說明導致的文本分布偏移。

其次，團隊還觀察到，在所有混合數(shù)據(jù)中，相對于純文本基準模型，在分布外（OOD）程度更高的 Notes 語料庫上困惑度均有所下降，但相對趨勢保持一致。這表明多模態(tài)預訓練可能會在文本泛化能力上引入微小的權衡（Trade-off）。

建議 2：在訓練中使用多模態(tài)數(shù)據(jù)（例如視頻、圖文對等）。視覺數(shù)據(jù)不會降低語言建模能力，而多樣化的預訓練數(shù)據(jù)還能為下游任務帶來協(xié)同效應，例如世界建模（world modeling）和 VQA 等任務。

邁向統(tǒng)一多模態(tài)模型中的世界建模

基于這樣一個觀察：語言與視覺是互補的，且多模態(tài)預訓練能夠顯著提升視覺問答（VQA）能力，團隊進一步探索：在不對模型架構做任何修改的情況下，多模態(tài)模型是否可以擴展到「世界建模（world modeling）」任務。

團隊采用 Navigation World Model（NWM）的設定，其中任務是：在給定當前上下文狀態(tài)和導航動作的條件下，預測下一視覺狀態(tài)：

不過，與 NWM 將導航動作（如平移與旋轉增量）編碼為專門設計的連續(xù)向量不同，團隊直接將動作表示為標準文本 token。

這樣一來，該任務就可以被統(tǒng)一表述為：

即「圖像 + 文本 → 圖像」的預測任務，并在統(tǒng)一多模態(tài)模型中完成。如下圖所示，與 NWM 不同，團隊沒有引入任何動作專用適配器，也沒有修改模型架構。

世界建模能力來自多模態(tài)預訓練

團隊一直在思考一個問題：有效的世界建模能力，究竟主要來自特定領域的導航數(shù)據(jù)，還是來自更廣泛的多模態(tài)能力？

為了驗證這一點，團隊對以下模型進行了比較：

模型 A：基于 500 億（50B）NWMtoken 和 500 億多模態(tài)數(shù)據(jù)（文本、MetaCLIP、帶文本注釋的視頻或純視頻）訓練的多模態(tài)模型；
模型 B：僅基于 500 億 NWM 數(shù)據(jù)訓練的基準模型。

結果如下圖所示，將特定領域的 NWM 數(shù)據(jù)從 500 億擴展到 1000 億 token 時，雖然在 ATE 和 RPE 上帶來了一定的改善，但多模態(tài)預訓練的效果更好。

具體而言，添加純視頻數(shù)據(jù)帶來的提升最大，但包括 MetaCLIP 和文本在內(nèi)的所有其他模態(tài)也都有所幫助。這表明，世界建模更多地依賴于從多模態(tài)預訓練中獲得的能力，而非特定領域的數(shù)據(jù)。這與早期研究的發(fā)現(xiàn)相吻合。

世界建模能力可從通用訓練中遷移

另外，為了進一步分析世界建模能力的來源，團隊進行了消融實驗，在保持總訓練預算固定為 2000 億 token 的情況下，改變 NWM 數(shù)據(jù)的比例。

結果如下圖所示，性能相對于領域數(shù)據(jù)量的增加迅速達到飽和。團隊觀察到，模型僅需 1% 的域內(nèi)數(shù)據(jù)即可達到極具競爭力的性能，比例更高時觀察到的收益微乎其微。

總的來說，這一發(fā)現(xiàn)加強了假設：導航和 VQA 等能力主要來自通用多模態(tài)預訓練，僅需要極少的域內(nèi)數(shù)據(jù)即可激活。

建議 3：統(tǒng)一的多模態(tài)預訓練能夠解鎖世界建模（World Modeling）能力。只需將動作表示為文本 token，無需對模型架構進行額外修改；相關能力可以通過通用訓練自然涌現(xiàn)，并且只需要極少的領域特定數(shù)據(jù)。

統(tǒng)一多模態(tài)架構設計

在前面的實驗中，團隊僅僅將共享的 FFN（前饋網(wǎng)絡）替換為模態(tài)專屬 FFN，就發(fā)現(xiàn)能取得顯著效果，這證明了適度的容量分離（capacity separation）具有很大潛力。

然而，模態(tài)專屬 FFN 會在兩種模態(tài)之間平均分配模型容量，而這種平均分配未必是理想的容量配置方式。

為此，團隊進一步探索 MoE 是否能夠通過解耦總容量與實際計算量，從而動態(tài)學習這種容量分離。

團隊研究了 MoE 在統(tǒng)一多模態(tài)預訓練中的設計空間，主要是希望了解 MoE 是否能夠自動學習不同模態(tài)所需的容量分配，以及 MoE 是否能夠在多模態(tài)訓練中形成專家專門化。

而實驗結果表明，模型確實會形成明顯的「專家專門化」現(xiàn)象，具體來說：一部分專家主要處理文本 token，另一部分專家主要處理視覺 token，而且這種分工是自動形成的，并不需要任何顯式的模態(tài)標簽或約束。

進一步統(tǒng)計結果顯示，隨著訓練進行，專家之間的分工逐漸穩(wěn)定。某些專家?guī)缀踔唤邮瘴谋?token，而另一些專家則主要處理圖像 token，還有少數(shù)專家保持跨模態(tài)能力，能夠同時處理多種模態(tài)輸入。

這種現(xiàn)象說明：MoE 可以在不顯式設計模態(tài)結構的情況下，自然形成功能分化。換句話說，模型會自動學習到不同模態(tài)所需的不同計算路徑。

而相比固定的模態(tài)專屬 FFN，MoE 具有兩個優(yōu)勢：

動態(tài)容量分配：不同模態(tài)可以使用不同數(shù)量的專家。
靈活的專家共享：一些專家可以同時服務于多種模態(tài)。

因此，MoE 為統(tǒng)一多模態(tài)模型提供了一種更加靈活的架構方案。

建議 4：在統(tǒng)一模型中采用 MoE 架構。它的效果優(yōu)于人為設計的模態(tài)分離策略，并且能夠從數(shù)據(jù)中自然學習出針對不同模態(tài)的專門化能力。

統(tǒng)一多模態(tài)模型的擴展律

本文同時推導了視覺與語言兩種模態(tài)的擴展規(guī)律（scaling laws），并進一步研究模型架構如何影響這些擴展趨勢。

圖 23 展示了 Dense IsoFLOP 的結果。

圖 24 顯示統(tǒng)一模型的性能可以達到甚至超過單模態(tài)基線。

圖 25 展示了 MoE IsoFLOP 結果：

圖 26 比較了 MoE Multimodal + RAE（SigLIP 2）與單模態(tài) MoE 基線在整個計算范圍內(nèi)的表現(xiàn)。結果表明 MoE 使得單一模型可以在兩種模態(tài)上同時達到接近單模態(tài)模型的性能，而且只需要極小的額外開銷。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.