網易首頁 > 網易號 > 正文申請入駐

最新、最全大模型Latent Space綜述，NUS、復旦、清華等聯合出品

2026-04-13 15:52:56　來源: 機器之心Pro

河北舉報

分享至

從 2024 年底的關于潛在空間的早期探索，再到 2025 年底和 2026 年初的相關研究爆發，潛空間范式正在徹底重塑大模型 (LLMs, VLMs, VLAs 等延伸模型) 的底層設計邏輯。

當大部分大模型還在依靠顯式空間 (Explicit Space) 或者說語言空間 (Verbal Space) 完成時，一場底層的范式革命已經悄然發生：大模型的核心計算和操作，正在從人類可讀的離散符號空間，轉向機器原生的連續潛在空間 (Latent Space)。

這種轉變是由顯式空間計算的結構性局限性驅動的，包括語言冗余、離散化瓶頸、序列效率低下和語義損失等問題。越來越多的研究指出，許多關鍵的內部過程在 Latent Space 中執行比在人類可讀的詞元中執行更為自然且有效。然而，現有文獻在機制、能力等方面仍然分散，缺乏對潛在空間的定義、分類和研究的統一視角，這阻礙了該領域的進一步發展和進步。

基于此，來自新加坡國立大學、復旦大學、清華大學、浙江大學等國內外頂級學術機構系統性地梳理了大模型潛空間研究的重磅綜述《The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook》，嘗試通過 “基礎 — 演進 — 機制 — 能力 — 展望” 五大核心視角，構建起清晰的研究框架，為社區和后續的研究者提供了潛在空間的全景視角。

論文標題：The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook
論文地址: https://arxiv.org/pdf/2604.02029
Github 地址: https://github.com/YU-deep/Awesome-Latent-Space

綜述首先指出，當前針對潛在空間的綜述研究仍存在明顯局限：一方面，現有綜述要么僅聚焦潛在推理 (Latent Reasoning) 這一細分分支展開探討，要么僅將潛在空間作為附屬小節簡略闡述，未形成系統性的研究梳理；另一方面，多數綜述對潛在空間的技術實現僅開展碎片化、不完整的分類，其分類框架已難以適配當前日益豐富的技術范式與多元化的應用場景。

基于此，該綜述首先提出了五大核心問題:

Foundation: What is Latent Space? (基礎)———— 什么是潛在空間？
Evolution: How Did Latent Space Develop? (演進)———— 對潛在空間的研究是如何發展？
Mechanism: How Does Latent Space Work? (機制)———— 潛在空間是如何作用的？
Ability: What Does Latent Space Enable? (能力)———— 潛在空間能實現什么能力？
Outlook: What is Next? (展望)———— 潛在空間的未來可能是什么樣的？

基礎：什么是大模型的潛在空間？

概念:

大模型的潛在空間，是模型內部通過學習形成的連續非離散的表征空間：在其中編碼、處理文字背后的語義、語法、上下文關聯等沒有直接用文字 (token) 顯式表達的隱含信息；這個空間還能拓展為統一的空間，用來處理多模態信息。

與顯式空間的區別:

綜述從兩個角度進行對比，四大表征屬性 (Representational Properties) :

可讀性(human-readable v.s. machine-native): 顯式空間是人類能直接看懂的文字、分詞符號；潛在空間是模型原生的高維向量，人類無法直接理解但包含更豐富表征。
存在形式(discrete & sybolic v.s. Continuous & flexible): 顯式空間是離散、固定的語言符號，有大量語法、銜接類冗余信息；潛在空間是連續、靈活的向量，只保留核心語義，剔除了語言冗余。
效率(inefficient v.s. efficient): 顯式空間需要逐詞生成、反復轉碼，計算冗余高、速度慢；潛在空間直接在內部做向量運算，無額外轉換開銷，效率更高。
語義保留程度(semantically lossy v.s. high fidelity): 顯式空間把內部信息轉成文字時，會丟失細粒度語義、模糊細節；潛在空間能完整保留高保真信息，還能承載文字無法表達的內容。

四大功能能力 (Functional Capabilities) :

可操作性(Operability): 顯式空間非連續不可微分，依賴詞元級計算；潛在空間連續可微分，支持向量運算、語義精準操控等復雜操作。
表達能力(Expressiveness): 顯式空間僅能表達文字可描述的內容；潛在空間可處理高維 / 非語言信息，不受詞匯語法限制，表達更全面。
可擴展性(Scalability): 顯式空間受文字序列限制，擴展性差；潛在空間依托向量特性，易適配長推理、多交互并拓展操作。
泛化能力(Generalization): 顯式空間受語言形式束縛，泛化能力較弱；潛在空間捕捉抽象語義規律，跨領域泛化性強。

演進：對潛在空間的研究是如何發展？

大模型潛在空間的研究發展，隨大語言模型能力提升分為四個遞進階段，整體從 “驗證想法” 逐步走向 “成熟落地、全面爆發”:

原型階段(2025 年 3 月前): 首次驗證推理不必依賴自然語言，可改用模型內部連續向量完成。誕生了初代潛在推理框架，證明潛在空間能壓縮冗余推理信息，但無系統理論、無統一評估標準，僅停留在概念驗證。
形成階段(2025 年 4-7 月): 搭建理論根基，用數學證明潛在空間的表達與計算優勢，優化技術方案；同時開始初步試水多模態領域，包括視覺、機器人具身等多模態方向，但仍以文本推理為主，應用場景單一、跨領域整合能力弱。
拓展階段(2025 年 8-11 月): 從純文本全面拓展到多模態、多領域：視覺潛在推理、多智能體潛在通信、機器人行動規劃全面鋪開，技術走向成熟；隨著研究的多樣化，不同方向、領域、范式和應用不斷拓展。
爆發階段(2025 年 12 月至今): 開始全面爆發，出現潛在模型專屬模型架構，優化策略等方法，文本、視覺、行動、多智能體實現統一融合；潛在空間成為核心計算范式，各種潛在空間的技術范式和應用場景開始爆發。

機制：潛在空間是如何作用的？

潛空間的機制 (Mechanism) 是大模型將潛空間從理論概念落地為實際功能的底層技術框架，它圍繞架構、表征、計算、優化四個相互協同的核心維度，完整拆解了潛空間在大模型中的全流程運作邏輯，分別解決潛空間如何嵌入模型結構、以何種形式承載信息、怎樣開展信息運算、如何通過調優提升效果四大關鍵問題，是連接潛空間基礎定義與實際能力的核心技術紐帶，也是大模型實現潛空間高效運作、發揮各類進階能力的底層技術支撐。

架構 (Architecture):

架構是潛空間在大模型中的結構集成方案，核心解決 “潛空間如何嵌入模型” 的問題，決定了潛計算的底層載體。它不改變模型核心邏輯，而是通過三種方式將潛空間融入結構：直接改造模型主干實現原生潛計算、加裝插件模塊實現潛功能擴展、借助外部輔助模型提供潛信號支持，最終讓模型具備原生的潛空間運算基礎，是潛空間落地的結構根基。

主干內置(Backbone) : 直接改造模型主干，用參數共享、循環迭代、增強結構，讓模型原生支持潛空間計算；
插件組件(Component) : 不改動主干，加裝生成、投影、對齊、控制、存儲插件模塊，實現潛空間功能；
輔助模型(Auxiliary Model) : 用外部獨立模型，給主模型提供監督信號 / 中間特征，輔助潛空間生成。

表征 (Representation):

表征是潛空間的信息承載形式，核心解決 “潛空間用何種載體處理信息” 的問題，定義了潛信息的表達范式。它依托模型內部激活、外部模塊、可學習模塊或混合方式生成潛載體，將離散的文本 token 轉化為連續高維向量，既能復用模型原生隱狀態、也能自定義可學習潛表示，是潛空間實現高保真、高效率信息表達的核心載體。

內部表征(Internal) : 直接利用基礎模型前向過程中產生的內部激活，包括隱狀態、詞嵌入、KV 緩存等，無需引入額外參數；
外部表征(External) : 由預訓練的外部模型生成潛信息，再注入基礎模型，過程中外部模型保持凍結；
可學習表征(Learnable) : 由嵌入的可訓練模塊 (如可學習 token、輕量適配器等) 生成潛信息，與基礎模型端到端優化；
混合表征(Hybrid) : 先由可學習模塊構造潛信息，再作為外部信號注入基礎模型，兼顧靈活與穩定。

計算 (Computation):

計算是潛空間的信息處理邏輯，核心解決 “潛空間如何運算和處理信息” 的問題，決定了潛計算的效率與能力上限。它通過壓縮、擴展、自適應、交叉四種模式處理信息：壓縮冗余信息降低算力、擴展算力提升表達、動態分配算力平衡效率、交錯信息融合優勢，讓潛空間擺脫離散 token 的限制，實現靈活、高效、高帶寬的內部運算。

壓縮計算(Compressed) : 壓縮推理軌跡、緩存、多模態特征，減少信息，保留核心語義；
擴展計算(Expanded) : 通過深度循環、寬度并行、結構拓展，增加潛空間算力，提升表達能力；
自適應計算(Adaptive) : 按輸入難度動態分配算力和計算進程，平衡效率和性能；
交錯計算(Interleaved) : 讓顯式 token 與潛信息交錯、多模態交錯、任務模塊交錯運算，混合發揮優勢。

優化 (Optimization):

優化是潛空間的效果調優手段，核心解決 “如何優化潛空間運算” 的問題，覆蓋模型全生命周期。它在預訓練階段讓模型習得潛計算能力、后訓練階段精調潛空間適配任務、推理階段實時修正潛狀態，通過監督學習、蒸餾、強化學習等方式規范潛空間的幾何結構與運算邏輯，持續提升潛空間的可靠性、可控性與泛化性。

預訓練階段(Pre-training) : 模型隨機初始化從頭訓，用自回歸、輔助監督、強化學習，讓模型天生具備潛計算能力；
后訓練階段(Post-training) : 在預訓練模型基礎上，用顯式輸出監督、隱式蒸餾監督、強化學習，精調潛空間效果；
推理階段(Inference) : 在推理階段直接縮放、調優、引導潛狀態，實時優化潛在空間效果。

能力：潛在空間能實現什么能力？

潛在空間作為大模型機器原生的連續表征載體，突破了傳統離散文本 token 的表達局限與計算瓶頸，不再局限于單一的文本推理，而是從能力 (Ability) 上全面解鎖了覆蓋推理、規劃、建模、感知、記憶、協作、具身的七大核心智能能力，讓模型在邏輯思考、多步決策、多模態理解、知識存儲、智能體協同與實體交互等全場景中，實現效率、表達力與泛化性的全方位升級。

推理能力 (Reasoning):

潛在空間推理是指大型模型能夠通過內部連續的表征，而非通過逐個詞元的顯式語言表達，來進行邏輯演繹、關系計算和結論生成。從顯式 CoT 推理到潛在推理的轉變代表著一種根本性的范式轉變：模型不再需要用自然語言表達每一個中間步驟，而是學習在一個連續的高維潛在流形中思考。

這種范式在推理的能力方面具有顯著優勢，該綜述將其歸納為六種能力：無需完全語言表達的隱式推理 (Implicit Inference)、將長鏈壓縮成緊湊狀態的緊湊軌跡 (Compact Trace)、以潛在形式維持和修正思維的連續迭代 (Continuous Refinement)、跨多個候選路徑的分支路徑 (Branching Path)，以及超越純文本設置的模態泛化 (Modal Generalization)。

規劃能力 (Planning):

規劃關注的是在解空間中尋找最優軌跡，其中潛在流形的連續性和可微性允許基于梯度的策略優化和迭代軌跡改進。

與側重于在給定上下文中進行邏輯推理的推理不同，規劃強調計算的前瞻性組織，確定資源的分配位置、探索解空間的方式以及何時終止搜索。

基于潛在空間的方法從四個方面優化了潛在規劃：對內部解路徑的可控探索 (Controllable Exploration)、在潛在流形中導航的高效搜索 (Efficient Search)、根據難度匹配計算資源的自適應算力 (Adaptive Budget)，以及在下游交互式任務中的順序決策 (Sequential Decision)。

建模能力 (Modeling):

建模涵蓋了對大型語言模型中潛在表征進行刻畫、檢查和塑造的能力。推理和規劃關注的是模型在潛在空間中計算的內容，而建模則側重于潛在表征如何幫助我們理解和控制計算本身。

該綜述將這一維度構建為四種能力的提升：用于編碼復雜計算的豐富表達 (Rich Expression)、使內部狀態可分析的自我檢視 (Self Inspection)、針對風險或不穩定行為的魯棒控制 (Robust Control)，以及通過潛在遞歸擴展容量的可擴展計算 (Scalable Computation)。

感知能力 (Perception):

潛在空間感知旨在解決視覺語言模型的理解、表示和處理連續、高保真潛在空間中的視覺信息的根本挑戰。當前的視覺語言模型仍然面臨一個關鍵瓶頸：將豐富的視覺內容轉換為離散的文本標記不可避免地會丟失空間結構、精細細節和關系幾何信息。潛在感知通過保留離散標記化必然會破壞的密集空間結構信息來克服這一限制，使模型能夠像人類感知一樣，以豐富而微妙的方式對視覺內容進行推理。

潛在空間賦予了感知三個逐漸深入的高級能力：基于內部視覺表征的多模態推理 (Multimodal Inference)、用于生成式操作和三維理解的啟發式想象 (Heuristic Imagination)，以及通過表征層面的干預來提高輸出保真度的忠實定位 (Faithful Grounding)。

記憶能力 (Memory):

記憶已成為大模型的必要補充，無狀態架構需要外部機制來跨推理步驟保留知識。然而，基于標記的記憶也存在自身的瓶頸：將累積的上下文表示為離散序列會增加提示長度，降低檢索保真度，并阻礙自適應記憶鞏固所需的基于梯度的優化。潛在記憶通過將持久知識編碼為連續向量來解決這一問題，從而實現緊湊的跨上下文保留，并具有更高的保真度和適應性。

在記憶層面，潛在空間的三種擴展能力有力地支撐了其成為記憶的媒介：用于緩存干預的工作記憶留存 (Working Retention)、用于自我演化知識存儲的持久記憶演化 (Persistent Mind)，以及跨視覺和具身模態的多模態記憶調取 (Multimodal Recall)。

協作能力 (Collaboration):

傳統上，多智能體系統中的集體智能是通過自然語言來傳遞的。然而，語言本身就是一個固有的瓶頸：將內部表征壓縮成離散的詞元會丟失語義細微差別，增加通信延遲，并破壞聯合優化所需的梯度路徑。潛在協作通過使智能體能夠交換連續表征來解決這些限制，從而保留更豐富的內部狀態并支持更具表現力的集體協作形式。

潛在空間協作組織成三個遞增的能力：用于通過潛在通道實現智能體間的無損狀態傳輸的語義保真 (Semantic Fidelity)，用于識別和演化跨智能體的共享思維結構的共享認知 (Shared Cognition)，以及用于將協作擴展到不同的模型族和模態的異構互通 (Heterogeneous Interoperability)。

具身能力 (Embodiment):

具身智能體面臨著一種數據瓶頸，這是任何純粹語言領域都無法比擬的：物理多樣性的每一次增加，例如新的硬件形態、視角和任務環境，都會使現有的標記演示失效，并迫使用戶進行平臺特定的重新訓練，而這種模式無法直接遷移。潛在表征可以同時消除這些失效模式，使行為語義能夠從未標記的視頻中涌現，并使空間先驗信息能夠直接提煉成策略骨架，而無需額外的工具或重新標注。

潛在空間在具身領域的潛力可以歸納為五種遞進的能力：用于從無標簽視頻中導出可遷移的動作表示無需具身化特定標簽的無監督落地 (Unsupervised Grounding)，用于將多步驟規劃內化為連續的潛在計算而無需顯式生成思維鏈的內隱思考 (Implicit Thinking)，用于模擬未來狀態以生成密集的訓練信號并指導實時決策的預測前瞻 (Predictive Foresight)，用于從 2D 觀察重建 3D/4D 幾何結構的空間認知 (Spatial Cognition)，以及用于通過共享的與身體無關的基質來連接異構硬件形態的泛化遷移 (Generalized Transfer)。

展望：潛在空間的未來可能是什么樣的？

核心定位：

潛空間是大模型的原生核心計算空間，并非附屬功能，已從文本推理拓展到多模態、記憶、協作、具身智能等全場景，是下一代通用 AI 的核心范式。

現存挑戰：

潛空間存在三大短板：難評估（中間計算過程不可見，無法驗證推理合理性）、難控制（無法精準操控內部連續表征）、難解釋（高維向量無直觀語義，模型行為不可追溯）。

未來方向:

搭建統一理論：明確潛空間計算原理、與顯式空間的協作規則，建立標準評估體系；
深耕多模態：打造文本、視覺、動作統一的原生潛計算空間；
落地下游任務：用潛空間支撐推理、規劃、機器人控制等下游場景；
實現可控治理：讓潛空間可觀測、可管控，解決可信性與安全性問題。

結語

綜上，該綜述系統性填補了大模型潛在空間研究的碎片化空白，以 “基礎 — 演進 — 機制 — 能力 — 展望” 五大視角構建完整研究框架，清晰剖析了潛空間從概念驗證到全面爆發的演進路徑與底層邏輯。作為大模型從顯式符號向機器原生連續表征跨越的核心范式，潛空間已解鎖多維度智能能力，雖仍面臨挑戰，但仍然具有極大潛力，該綜述為后續研究奠定堅實基礎。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.