網易首頁 > 網易號 > 正文申請入駐

石溪大學：狀態空間模型挑戰Transformer視覺語言領域主導地位

2026-03-31 16:31:34　來源: 科技行者

天津舉報

分享至

這項由Stony Brook大學研究團隊開展的前沿研究發表于2026年3月，論文編號為arXiv:2603.19209v1，為我們重新審視視覺語言模型的設計理念提供了全新視角。當我們談到讓計算機同時理解圖片和文字的技術時，就像是在討論如何讓機器擁有人類般的視覺與語言協調能力。

近年來，視覺語言模型已經成為人工智能領域的明星技術，它們能夠看懂圖片、理解文字，甚至回答關于圖像內容的復雜問題。這就好比讓計算機擁有了一雙"慧眼"，不僅能看到圖片中有什么，還能用文字準確描述出來，甚至回答我們提出的各種問題。

然而，目前幾乎所有的視覺語言模型都依賴于一種叫做Vision Transformer（ViT）的視覺編碼器，這就像所有的廚師都在使用同一種烹飪工具。Stony Brook大學的研究團隊開始思考：是否還有其他更好的"工具"可以勝任這項工作？他們將目光投向了一種相對較新的架構——狀態空間模型（State Space Model，SSM），特別是其中的VMamba模型。

這項研究的獨特之處在于，它首次在嚴格控制的實驗環境下系統比較了不同視覺編碼器的表現。研究團隊就像是在進行一場公平的烹飪比賽，讓所有參賽選手使用相同的食材、相同的廚房設備，唯一不同的就是他們手中的烹飪工具，這樣才能真正看出哪種工具更優秀。

研究團隊發現，VMamba這種基于狀態空間模型的視覺編碼器在多項任務中表現出色，特別是在需要精確定位圖像中特定物體的任務上，它的表現甚至超過了規模更大的Transformer模型。這就像發現了一種新的烹飪工具，不僅使用起來更加高效，而且在某些菜系上的表現還要優于傳統工具。

一、重新思考視覺編碼器的選擇

當我們討論視覺語言模型時，可以把它想象成一個翻譯官的工作流程。首先，翻譯官需要"看懂"圖片（視覺編碼器的工作），然后將看到的內容轉換成一種中間語言（連接器的工作），最后用自然語言表達出來（語言模型的工作）。在這個過程中，視覺編碼器就像翻譯官的"眼睛"，它的好壞直接決定了整個翻譯質量。

長期以來，幾乎所有的研究團隊都選擇使用Vision Transformer作為這雙"眼睛"。這種選擇就像大家都默認使用同一個牌子的相機，雖然這個牌子確實不錯，但人們很少去嘗試其他可能更優秀的選擇。Stony Brook大學的研究團隊意識到這種現狀存在問題：如果大家都只用一種工具，怎么知道是否還有更好的選擇呢？

Vision Transformer的工作原理類似于將一張圖片切成許多小塊，然后通過注意力機制來理解這些小塊之間的關系。這種方法確實有效，但它有一個潛在的問題：它對圖像中物體的精確位置信息處理得不夠好。這就像一個人能認出照片中有一只貓，但很難準確指出貓的具體位置。

相比之下，狀態空間模型采用了一種完全不同的策略。VMamba這種模型會沿著圖像的行和列進行掃描，就像我們閱讀文字時從左到右、從上到下的順序一樣。這種掃描方式讓它能更好地保持對空間位置的敏感性，就像一個偵探仔細檢查現場的每一個角落，不會遺漏任何重要的位置線索。

研究團隊設計了一個嚴格的對比實驗。他們讓不同的視覺編碼器在完全相同的條件下工作，就像讓不同的選手使用相同的跑道、相同的起跑條件，這樣才能公平地比較他們的實際能力。實驗結果顯示，VMamba在許多任務上的表現都令人印象深刻，特別是在需要精確定位的任務中。

二、令人意外的發現：小而美的力量

在這項研究中，最令人驚訝的發現之一是，模型的大小和在ImageNet數據集上的準確率并不能可靠地預測它在視覺語言任務中的表現。這個發現就像發現了一個反直覺的事實：最昂貴的跑車不一定在城市道路上跑得最快。

傳統觀念認為，模型越大、在標準視覺任務上表現越好的編碼器，在視覺語言任務中也應該表現更出色。然而，研究結果卻顯示了相反的情況。一些規模較大、在ImageNet上準確率更高的模型，在實際的視覺語言任務中反而表現不如較小的模型。

這種現象的背后原因很有趣。研究團隊發現，那些在分類任務上表現突出的大型模型，往往過度專注于識別圖像中的主要物體類別，而忽略了空間位置信息的保持。這就像一個人變得過于專注于識別物體的名稱，卻忘記了記住這些物體在哪里。

以MaxViT模型為例，隨著模型規模從T增長到L，雖然它們在ImageNet上的準確率不斷提高，但在視覺語言任務中的定位表現卻逐漸下降。這種現象被研究團隊稱為"分類目標過擬合"，意思是模型變得過于專注于分類任務，反而損害了其他能力。

相比之下，VMamba模型展現出了更好的平衡性。即使是較小規模的VMamba-T和VMamba-S模型，也能在保持良好分類能力的同時，維持出色的空間定位能力。這種特性讓它們在視覺語言任務中表現更加穩定和可靠。

更有趣的是，研究團隊還發現了一些模型在高分辨率檢測任務中出現的"定位崩潰"現象。某些在標準設置下表現正常的模型，一旦應用到高分辨率的目標檢測任務中，就會突然失去定位能力，就像一個平時表現良好的GPS導航系統在復雜路況下突然失靈。

三、密集任務預訓練的神奇效果

研究團隊還探索了一個重要問題：如果讓視覺編碼器先學習一些需要精確空間定位的任務，比如目標檢測或圖像分割，它們在視覺語言任務中的表現會有所改善嗎？這就像讓一個翻譯官先接受專門的地圖閱讀訓練，然后再去描述風景照片。

實驗結果證實了這種猜想。無論是基于Transformer的ViTDet模型，還是基于狀態空間模型的VMamba，在經過檢測或分割任務的預訓練后，它們在視覺語言任務中的定位能力都得到了顯著提升。這種改善就像給翻譯官的大腦裝上了一個專門處理空間信息的模塊。

特別值得注意的是，分割任務的預訓練效果比檢測任務更加穩定。檢測任務的預訓練雖然能在某些情況下帶來顯著改善，但在另一些情況下卻可能導致性能崩潰。相比之下，分割任務的預訓練幾乎總是能帶來穩定的性能提升，而且很少出現失敗案例。

這種差異的原因在于兩種任務的特點不同。檢測任務主要關注找出物體的大概位置和類別，而分割任務則需要精確地為圖像中的每個像素分配標簽，這要求模型對空間細節有更深入的理解。因此，經過分割任務訓練的模型在處理需要精確定位的視覺語言任務時表現更加出色。

有趣的是，VMamba模型從這種密集任務預訓練中獲得的收益相對較小，但這恰恰說明了它本身就具備了良好的空間處理能力。這就像一個天生具有空間感知天賦的人，即使不經過特殊訓練，也能在需要空間定位的任務中表現出色。

四、診斷和解決定位崩潰問題

在研究過程中，團隊遇到了一個令人困惑的現象：某些本來表現良好的模型在特定條件下會突然失去定位能力，這種現象被稱為"定位崩潰"。就像一臺平時運行正常的機器突然出現故障，需要找出故障原因并提出解決方案。

研究團隊通過細致的分析發現，定位崩潰主要源于兩個方面的問題。第一個問題是"傳輸瓶頸"，即連接器的容量不足以完整傳遞視覺編碼器提取的空間信息，就像一條過窄的管道無法讓足夠的水流通過。第二個問題是"利用瓶頸"，即語言模型無法有效利用傳遞過來的空間信息，特別是當輸入圖像的幾何形狀（如分辨率或長寬比）與預訓練時的設置不匹配時。

為了解決這些問題，研究團隊提出了兩種簡單而有效的穩定化策略。第一種策略是增強連接器的能力，將原來的兩層神經網絡連接器升級為三層，這就像將管道加寬，讓更多的信息能夠通過。第二種策略是調整輸入圖像的幾何形狀，特別是使用正方形輸入而不是矩形輸入，這樣可以減少語言模型在處理空間信息時的困難。

實驗結果顯示，這兩種策略都能有效緩解定位崩潰問題，而且它們的效果是互補的。當同時應用這兩種策略時，幾乎所有的崩潰案例都得到了解決，模型的定位能力也得到了顯著恢復。

更重要的是，這些穩定化策略的效果是跨架構的，不僅對Transformer模型有效，對狀態空間模型也同樣適用。這說明定位崩潰問題的根源在于視覺-語言接口的設計，而不是特定的視覺編碼器架構。

五、深入理解VMamba的優勢

為了更好地理解VMamba為什么在定位任務中表現出色，研究團隊進行了詳細的分析和可視化研究。他們發現，VMamba的優勢主要來源于其獨特的架構設計。

VMamba采用了一種稱為"2D選擇性掃描"的機制，它會沿著圖像的行和列方向進行四次不同的掃描，每個位置的像素都能接收到來自四個方向的狀態更新。這種設計讓VMamba能夠在整個網絡的處理過程中持續保持對空間結構的敏感性，就像一個有經驗的偵探會從多個角度仔細觀察現場，確保不遺漏任何重要細節。

相比之下，傳統的Vision Transformer對于圖像塊的處理順序是無關緊要的，它主要依靠位置編碼來保持空間信息。然而，在標準的分類預訓練過程中，這些位置信息往往會被逐漸弱化，因為模型發現僅僅識別物體類別就足以完成分類任務，不需要精確的位置信息。

研究團隊通過可視化分析展示了這種差異的具體表現。在處理同一張圖像時，VMamba能夠產生更加集中、更加精確的注意力分布，準確地聚焦在查詢對象上。而ViT的注意力往往比較分散，容易被圖像中的多個區域分散注意力，導致定位不夠精確。

這種差異在實際應用中的表現是顯著的。在處理"圖像中左邊的長頸鹿"這樣的查詢時，VMamba能夠準確地將注意力集中在左側的長頸鹿上，而ViT可能會同時關注圖像中的多只長頸鹿，導致定位模糊。

六、全面的性能比較和分析

研究團隊進行了極其全面的性能比較，涵蓋了從基礎的圖像問答到復雜的目標定位等多種任務。這種全面比較就像對不同品牌的汽車進行各種路況下的測試，包括城市道路、高速公路、山地路況等，以全面評估它們的性能。

在標準的ImageNet預訓練設置下，VMamba的各個版本（從小型的VMamba-T到中型的VMamba-S）都展現出了優秀的整體性能。特別是在定位相關的任務中，VMamba的表現始終保持在領先地位。這種一致性表明，VMamba的優勢不是偶然的，而是其架構特性帶來的系統性優勢。

更令人印象深刻的是，即使是最小的VMamba-T模型（只有3000萬參數），在許多定位任務中的表現也能超越規模大得多的Transformer模型。這種現象說明，在設計視覺編碼器時，架構的選擇比單純的規模擴大更加重要。

研究還發現，不同架構對于密集任務預訓練的響應也有所不同。對于缺乏內置空間偏置的Transformer模型，密集任務預訓練帶來的改善更加顯著。而對于已經具有良好空間處理能力的VMamba，雖然密集任務預訓練仍然有幫助，但改善幅度相對較小。

在效率分析方面，VMamba也表現出了良好的特性。雖然在極小規模下，ViT可能在某些方面略有優勢，但隨著輸入分辨率的提高，VMamba的效率優勢逐漸顯現。特別是在處理高分辨率圖像時，VMamba能夠更加優雅地擴展，而不會出現內存或計算資源的急劇增長。

七、對未來發展的啟示

這項研究的意義遠不止于證明VMamba在當前任務中的優勢，它更重要的價值在于為整個領域的發展提供了新的思路和方向。

首先，這項研究表明，視覺編碼器的架構選擇對于視覺語言模型的最終性能有著決定性的影響。這提醒研究者們不應該盲目跟隨主流選擇，而應該更加開放地探索不同的架構可能性。就像在烹飪界，最好的廚師往往不是那些盲目跟隨流行趨勢的人，而是那些勇于嘗試新工具、新方法的創新者。

其次，研究揭示了視覺-語言接口設計的重要性。許多以前被歸咎于視覺編碼器本身的問題，實際上可能源于接口設計的不當。通過簡單的接口優化，就能顯著改善模型的性能和穩定性。這個發現對于實際應用具有重要價值，因為它提供了一種成本較低、效果顯著的性能改善方法。

研究還強調了評估指標選擇的重要性。傳統的ImageNet準確率雖然是一個重要指標，但它并不能完全反映模型在下游任務中的表現。研究者們需要開發更加全面、更加貼近實際應用的評估框架，以更好地指導模型的設計和選擇。

對于實際應用而言，這項研究提供了寶貴的指導原則。在選擇視覺編碼器時，應該優先考慮任務的具體需求，而不是盲目追求更大的模型規?；蚋叩臉藴蕼蚀_率。特別是對于需要精確空間定位的應用場景，VMamba這樣的架構可能是更好的選擇。

八、技術實現和實用建議

對于希望在自己的項目中應用這些發現的技術人員，研究團隊提供了詳細的實現指導和實用建議。

在模型選擇方面，研究建議根據具體的應用場景來選擇合適的架構。如果應用主要涉及圖像分類或簡單的圖像理解任務，傳統的ViT仍然是一個可靠的選擇。但如果應用需要精確的物體定位或復雜的空間推理，VMamba則可能提供更好的性能。

在訓練策略方面，研究強調了密集任務預訓練的價值。即使是在資源有限的情況下，對視覺編碼器進行簡單的檢測或分割任務微調，也能顯著改善其在視覺語言任務中的表現。這種方法的成本相對較低，但收益卻很明顯。

對于接口設計，研究提供了幾個簡單但有效的優化建議。首先是適當增強連接器的容量，這通常只需要增加一層神經網絡，計算開銷很小但效果明顯。其次是注意輸入圖像的幾何形狀，盡可能使用正方形輸入以提高模型的穩定性。

在部署和監控方面，研究建議開發者密切關注模型在不同輸入條件下的表現，特別是當輸入圖像的分辨率或長寬比發生變化時。如果發現性能突然下降，應該首先檢查是否出現了定位崩潰問題，然后應用相應的穩定化策略。

說到底，這項來自Stony Brook大學的研究為我們打開了視覺語言模型設計的新視角。它告訴我們，在人工智能的世界里，最流行的選擇不一定是最好的選擇，有時候跳出傳統思維框架，反而能發現更優秀的解決方案。VMamba的成功證明了狀態空間模型在視覺任務中的巨大潛力，也為整個領域的發展指明了新的方向。

這項研究的價值不僅在于提供了一個更好的工具選擇，更在于它展示了科學研究中保持開放心態的重要性。正如研究團隊所證明的，通過嚴格的對比實驗和深入的分析，我們能夠發現那些隱藏在表面現象背后的真相，從而推動整個領域向前發展。

對于普通人而言，這項研究的意義在于，它讓我們看到了人工智能技術不斷進步的可能性。隨著像VMamba這樣的新技術的發展，未來的AI系統將能夠更好地理解我們的世界，更準確地回答我們的問題，也更可靠地幫助我們解決實際問題。這樣的進步最終會讓每個人都受益，讓我們的生活變得更加便利和美好。

Q&A

Q1：VMamba相比傳統Vision Transformer有什么優勢？

A：VMamba最大的優勢是在空間定位任務中表現更出色。它采用2D選擇性掃描機制，能夠沿著圖像的行列方向進行四次掃描，更好地保持空間位置信息。就像一個仔細的偵探從多個角度觀察現場，VMamba能夠更準確地定位圖像中的特定物體，而傳統ViT容易在定位時產生模糊或分散的注意力。

Q2：為什么模型規模越大在視覺語言任務中表現反而可能更差？

A：研究發現了"分類目標過擬合"現象。大模型雖然在ImageNet分類任務上準確率更高，但過度專注于識別物體類別，反而忽略了空間位置信息的保持。就像一個人變得過于專注于識別物體名稱，卻忘記了記住這些物體在哪里。因此在需要精確定位的視覺語言任務中，大模型可能表現不如小模型。

Q3：什么是定位崩潰現象，如何解決？

A：定位崩潰是指某些本來表現良好的模型在特定條件下突然失去定位能力的現象，主要由傳輸瓶頸和利用瓶頸兩個問題造成。解決方法有兩種：一是增強連接器容量，將兩層神經網絡升級為三層；二是調整輸入圖像幾何形狀，使用正方形輸入替代矩形輸入。這兩種策略可以互補使用，有效恢復模型的定位能力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.