網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

最新、最全大模型Latent Space綜述，NUS、復(fù)旦、清華等聯(lián)合出品

2026-04-13 15:52:56　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

從 2024 年底的關(guān)于潛在空間的早期探索，再到 2025 年底和 2026 年初的相關(guān)研究爆發(fā)，潛空間范式正在徹底重塑大模型 (LLMs, VLMs, VLAs 等延伸模型) 的底層設(shè)計(jì)邏輯。

當(dāng)大部分大模型還在依靠顯式空間 (Explicit Space) 或者說(shuō)語(yǔ)言空間 (Verbal Space) 完成時(shí)，一場(chǎng)底層的范式革命已經(jīng)悄然發(fā)生：大模型的核心計(jì)算和操作，正在從人類可讀的離散符號(hào)空間，轉(zhuǎn)向機(jī)器原生的連續(xù)潛在空間 (Latent Space)。

這種轉(zhuǎn)變是由顯式空間計(jì)算的結(jié)構(gòu)性局限性驅(qū)動(dòng)的，包括語(yǔ)言冗余、離散化瓶頸、序列效率低下和語(yǔ)義損失等問(wèn)題。越來(lái)越多的研究指出，許多關(guān)鍵的內(nèi)部過(guò)程在 Latent Space 中執(zhí)行比在人類可讀的詞元中執(zhí)行更為自然且有效。然而，現(xiàn)有文獻(xiàn)在機(jī)制、能力等方面仍然分散，缺乏對(duì)潛在空間的定義、分類和研究的統(tǒng)一視角，這阻礙了該領(lǐng)域的進(jìn)一步發(fā)展和進(jìn)步。

基于此，來(lái)自新加坡國(guó)立大學(xué)、復(fù)旦大學(xué)、清華大學(xué)、浙江大學(xué)等國(guó)內(nèi)外頂級(jí)學(xué)術(shù)機(jī)構(gòu)系統(tǒng)性地梳理了大模型潛空間研究的重磅綜述《The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook》，嘗試通過(guò) “基礎(chǔ) — 演進(jìn) — 機(jī)制 — 能力 — 展望” 五大核心視角，構(gòu)建起清晰的研究框架，為社區(qū)和后續(xù)的研究者提供了潛在空間的全景視角。

論文標(biāo)題：The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook
論文地址: https://arxiv.org/pdf/2604.02029
Github 地址: https://github.com/YU-deep/Awesome-Latent-Space

綜述首先指出，當(dāng)前針對(duì)潛在空間的綜述研究仍存在明顯局限：一方面，現(xiàn)有綜述要么僅聚焦?jié)撛谕评?(Latent Reasoning) 這一細(xì)分分支展開(kāi)探討，要么僅將潛在空間作為附屬小節(jié)簡(jiǎn)略闡述，未形成系統(tǒng)性的研究梳理；另一方面，多數(shù)綜述對(duì)潛在空間的技術(shù)實(shí)現(xiàn)僅開(kāi)展碎片化、不完整的分類，其分類框架已難以適配當(dāng)前日益豐富的技術(shù)范式與多元化的應(yīng)用場(chǎng)景。

基于此，該綜述首先提出了五大核心問(wèn)題:

Foundation: What is Latent Space? (基礎(chǔ))———— 什么是潛在空間？
Evolution: How Did Latent Space Develop? (演進(jìn))———— 對(duì)潛在空間的研究是如何發(fā)展？
Mechanism: How Does Latent Space Work? (機(jī)制)———— 潛在空間是如何作用的？
Ability: What Does Latent Space Enable? (能力)———— 潛在空間能實(shí)現(xiàn)什么能力？
Outlook: What is Next? (展望)———— 潛在空間的未來(lái)可能是什么樣的？

基礎(chǔ)：什么是大模型的潛在空間？

概念:

大模型的潛在空間，是模型內(nèi)部通過(guò)學(xué)習(xí)形成的連續(xù)非離散的表征空間：在其中編碼、處理文字背后的語(yǔ)義、語(yǔ)法、上下文關(guān)聯(lián)等沒(méi)有直接用文字 (token) 顯式表達(dá)的隱含信息；這個(gè)空間還能拓展為統(tǒng)一的空間，用來(lái)處理多模態(tài)信息。

與顯式空間的區(qū)別:

綜述從兩個(gè)角度進(jìn)行對(duì)比，四大表征屬性 (Representational Properties) :

可讀性(human-readable v.s. machine-native): 顯式空間是人類能直接看懂的文字、分詞符號(hào)；潛在空間是模型原生的高維向量，人類無(wú)法直接理解但包含更豐富表征。
存在形式(discrete & sybolic v.s. Continuous & flexible): 顯式空間是離散、固定的語(yǔ)言符號(hào)，有大量語(yǔ)法、銜接類冗余信息；潛在空間是連續(xù)、靈活的向量，只保留核心語(yǔ)義，剔除了語(yǔ)言冗余。
效率(inefficient v.s. efficient): 顯式空間需要逐詞生成、反復(fù)轉(zhuǎn)碼，計(jì)算冗余高、速度慢；潛在空間直接在內(nèi)部做向量運(yùn)算，無(wú)額外轉(zhuǎn)換開(kāi)銷，效率更高。
語(yǔ)義保留程度(semantically lossy v.s. high fidelity): 顯式空間把內(nèi)部信息轉(zhuǎn)成文字時(shí)，會(huì)丟失細(xì)粒度語(yǔ)義、模糊細(xì)節(jié)；潛在空間能完整保留高保真信息，還能承載文字無(wú)法表達(dá)的內(nèi)容。

四大功能能力 (Functional Capabilities) :

可操作性(Operability): 顯式空間非連續(xù)不可微分，依賴詞元級(jí)計(jì)算；潛在空間連續(xù)可微分，支持向量運(yùn)算、語(yǔ)義精準(zhǔn)操控等復(fù)雜操作。
表達(dá)能力(Expressiveness): 顯式空間僅能表達(dá)文字可描述的內(nèi)容；潛在空間可處理高維 / 非語(yǔ)言信息，不受詞匯語(yǔ)法限制，表達(dá)更全面。
可擴(kuò)展性(Scalability): 顯式空間受文字序列限制，擴(kuò)展性差；潛在空間依托向量特性，易適配長(zhǎng)推理、多交互并拓展操作。
泛化能力(Generalization): 顯式空間受語(yǔ)言形式束縛，泛化能力較弱；潛在空間捕捉抽象語(yǔ)義規(guī)律，跨領(lǐng)域泛化性強(qiáng)。

演進(jìn)：對(duì)潛在空間的研究是如何發(fā)展？

大模型潛在空間的研究發(fā)展，隨大語(yǔ)言模型能力提升分為四個(gè)遞進(jìn)階段，整體從 “驗(yàn)證想法” 逐步走向 “成熟落地、全面爆發(fā)”:

原型階段(2025 年 3 月前): 首次驗(yàn)證推理不必依賴自然語(yǔ)言，可改用模型內(nèi)部連續(xù)向量完成。誕生了初代潛在推理框架，證明潛在空間能壓縮冗余推理信息，但無(wú)系統(tǒng)理論、無(wú)統(tǒng)一評(píng)估標(biāo)準(zhǔn)，僅停留在概念驗(yàn)證。
形成階段(2025 年 4-7 月): 搭建理論根基，用數(shù)學(xué)證明潛在空間的表達(dá)與計(jì)算優(yōu)勢(shì)，優(yōu)化技術(shù)方案；同時(shí)開(kāi)始初步試水多模態(tài)領(lǐng)域，包括視覺(jué)、機(jī)器人具身等多模態(tài)方向，但仍以文本推理為主，應(yīng)用場(chǎng)景單一、跨領(lǐng)域整合能力弱。
拓展階段(2025 年 8-11 月): 從純文本全面拓展到多模態(tài)、多領(lǐng)域：視覺(jué)潛在推理、多智能體潛在通信、機(jī)器人行動(dòng)規(guī)劃全面鋪開(kāi)，技術(shù)走向成熟；隨著研究的多樣化，不同方向、領(lǐng)域、范式和應(yīng)用不斷拓展。
爆發(fā)階段(2025 年 12 月至今): 開(kāi)始全面爆發(fā)，出現(xiàn)潛在模型專屬模型架構(gòu)，優(yōu)化策略等方法，文本、視覺(jué)、行動(dòng)、多智能體實(shí)現(xiàn)統(tǒng)一融合；潛在空間成為核心計(jì)算范式，各種潛在空間的技術(shù)范式和應(yīng)用場(chǎng)景開(kāi)始爆發(fā)。

機(jī)制：潛在空間是如何作用的？

潛空間的機(jī)制 (Mechanism) 是大模型將潛空間從理論概念落地為實(shí)際功能的底層技術(shù)框架，它圍繞架構(gòu)、表征、計(jì)算、優(yōu)化四個(gè)相互協(xié)同的核心維度，完整拆解了潛空間在大模型中的全流程運(yùn)作邏輯，分別解決潛空間如何嵌入模型結(jié)構(gòu)、以何種形式承載信息、怎樣開(kāi)展信息運(yùn)算、如何通過(guò)調(diào)優(yōu)提升效果四大關(guān)鍵問(wèn)題，是連接潛空間基礎(chǔ)定義與實(shí)際能力的核心技術(shù)紐帶，也是大模型實(shí)現(xiàn)潛空間高效運(yùn)作、發(fā)揮各類進(jìn)階能力的底層技術(shù)支撐。

架構(gòu) (Architecture):

架構(gòu)是潛空間在大模型中的結(jié)構(gòu)集成方案，核心解決 “潛空間如何嵌入模型” 的問(wèn)題，決定了潛計(jì)算的底層載體。它不改變模型核心邏輯，而是通過(guò)三種方式將潛空間融入結(jié)構(gòu)：直接改造模型主干實(shí)現(xiàn)原生潛計(jì)算、加裝插件模塊實(shí)現(xiàn)潛功能擴(kuò)展、借助外部輔助模型提供潛信號(hào)支持，最終讓模型具備原生的潛空間運(yùn)算基礎(chǔ)，是潛空間落地的結(jié)構(gòu)根基。

主干內(nèi)置(Backbone) : 直接改造模型主干，用參數(shù)共享、循環(huán)迭代、增強(qiáng)結(jié)構(gòu)，讓模型原生支持潛空間計(jì)算；
插件組件(Component) : 不改動(dòng)主干，加裝生成、投影、對(duì)齊、控制、存儲(chǔ)插件模塊，實(shí)現(xiàn)潛空間功能；
輔助模型(Auxiliary Model) : 用外部獨(dú)立模型，給主模型提供監(jiān)督信號(hào) / 中間特征，輔助潛空間生成。

表征 (Representation):

表征是潛空間的信息承載形式，核心解決 “潛空間用何種載體處理信息” 的問(wèn)題，定義了潛信息的表達(dá)范式。它依托模型內(nèi)部激活、外部模塊、可學(xué)習(xí)模塊或混合方式生成潛載體，將離散的文本 token 轉(zhuǎn)化為連續(xù)高維向量，既能復(fù)用模型原生隱狀態(tài)、也能自定義可學(xué)習(xí)潛表示，是潛空間實(shí)現(xiàn)高保真、高效率信息表達(dá)的核心載體。

內(nèi)部表征(Internal) : 直接利用基礎(chǔ)模型前向過(guò)程中產(chǎn)生的內(nèi)部激活，包括隱狀態(tài)、詞嵌入、KV 緩存等，無(wú)需引入額外參數(shù)；
外部表征(External) : 由預(yù)訓(xùn)練的外部模型生成潛信息，再注入基礎(chǔ)模型，過(guò)程中外部模型保持凍結(jié)；
可學(xué)習(xí)表征(Learnable) : 由嵌入的可訓(xùn)練模塊 (如可學(xué)習(xí) token、輕量適配器等) 生成潛信息，與基礎(chǔ)模型端到端優(yōu)化；
混合表征(Hybrid) : 先由可學(xué)習(xí)模塊構(gòu)造潛信息，再作為外部信號(hào)注入基礎(chǔ)模型，兼顧靈活與穩(wěn)定。

計(jì)算 (Computation):

計(jì)算是潛空間的信息處理邏輯，核心解決 “潛空間如何運(yùn)算和處理信息” 的問(wèn)題，決定了潛計(jì)算的效率與能力上限。它通過(guò)壓縮、擴(kuò)展、自適應(yīng)、交叉四種模式處理信息：壓縮冗余信息降低算力、擴(kuò)展算力提升表達(dá)、動(dòng)態(tài)分配算力平衡效率、交錯(cuò)信息融合優(yōu)勢(shì)，讓潛空間擺脫離散 token 的限制，實(shí)現(xiàn)靈活、高效、高帶寬的內(nèi)部運(yùn)算。

壓縮計(jì)算(Compressed) : 壓縮推理軌跡、緩存、多模態(tài)特征，減少信息，保留核心語(yǔ)義；
擴(kuò)展計(jì)算(Expanded) : 通過(guò)深度循環(huán)、寬度并行、結(jié)構(gòu)拓展，增加潛空間算力，提升表達(dá)能力；
自適應(yīng)計(jì)算(Adaptive) : 按輸入難度動(dòng)態(tài)分配算力和計(jì)算進(jìn)程，平衡效率和性能；
交錯(cuò)計(jì)算(Interleaved) : 讓顯式 token 與潛信息交錯(cuò)、多模態(tài)交錯(cuò)、任務(wù)模塊交錯(cuò)運(yùn)算，混合發(fā)揮優(yōu)勢(shì)。

優(yōu)化 (Optimization):

優(yōu)化是潛空間的效果調(diào)優(yōu)手段，核心解決 “如何優(yōu)化潛空間運(yùn)算” 的問(wèn)題，覆蓋模型全生命周期。它在預(yù)訓(xùn)練階段讓模型習(xí)得潛計(jì)算能力、后訓(xùn)練階段精調(diào)潛空間適配任務(wù)、推理階段實(shí)時(shí)修正潛狀態(tài)，通過(guò)監(jiān)督學(xué)習(xí)、蒸餾、強(qiáng)化學(xué)習(xí)等方式規(guī)范潛空間的幾何結(jié)構(gòu)與運(yùn)算邏輯，持續(xù)提升潛空間的可靠性、可控性與泛化性。

預(yù)訓(xùn)練階段(Pre-training) : 模型隨機(jī)初始化從頭訓(xùn)，用自回歸、輔助監(jiān)督、強(qiáng)化學(xué)習(xí)，讓模型天生具備潛計(jì)算能力；
后訓(xùn)練階段(Post-training) : 在預(yù)訓(xùn)練模型基礎(chǔ)上，用顯式輸出監(jiān)督、隱式蒸餾監(jiān)督、強(qiáng)化學(xué)習(xí)，精調(diào)潛空間效果；
推理階段(Inference) : 在推理階段直接縮放、調(diào)優(yōu)、引導(dǎo)潛狀態(tài)，實(shí)時(shí)優(yōu)化潛在空間效果。

能力：潛在空間能實(shí)現(xiàn)什么能力？

潛在空間作為大模型機(jī)器原生的連續(xù)表征載體，突破了傳統(tǒng)離散文本 token 的表達(dá)局限與計(jì)算瓶頸，不再局限于單一的文本推理，而是從能力 (Ability) 上全面解鎖了覆蓋推理、規(guī)劃、建模、感知、記憶、協(xié)作、具身的七大核心智能能力，讓模型在邏輯思考、多步?jīng)Q策、多模態(tài)理解、知識(shí)存儲(chǔ)、智能體協(xié)同與實(shí)體交互等全場(chǎng)景中，實(shí)現(xiàn)效率、表達(dá)力與泛化性的全方位升級(jí)。

推理能力 (Reasoning):

潛在空間推理是指大型模型能夠通過(guò)內(nèi)部連續(xù)的表征，而非通過(guò)逐個(gè)詞元的顯式語(yǔ)言表達(dá)，來(lái)進(jìn)行邏輯演繹、關(guān)系計(jì)算和結(jié)論生成。從顯式 CoT 推理到潛在推理的轉(zhuǎn)變代表著一種根本性的范式轉(zhuǎn)變：模型不再需要用自然語(yǔ)言表達(dá)每一個(gè)中間步驟，而是學(xué)習(xí)在一個(gè)連續(xù)的高維潛在流形中思考。

這種范式在推理的能力方面具有顯著優(yōu)勢(shì)，該綜述將其歸納為六種能力：無(wú)需完全語(yǔ)言表達(dá)的隱式推理 (Implicit Inference)、將長(zhǎng)鏈壓縮成緊湊狀態(tài)的緊湊軌跡 (Compact Trace)、以潛在形式維持和修正思維的連續(xù)迭代 (Continuous Refinement)、跨多個(gè)候選路徑的分支路徑 (Branching Path)，以及超越純文本設(shè)置的模態(tài)泛化 (Modal Generalization)。

規(guī)劃能力 (Planning):

規(guī)劃關(guān)注的是在解空間中尋找最優(yōu)軌跡，其中潛在流形的連續(xù)性和可微性允許基于梯度的策略優(yōu)化和迭代軌跡改進(jìn)。

與側(cè)重于在給定上下文中進(jìn)行邏輯推理的推理不同，規(guī)劃強(qiáng)調(diào)計(jì)算的前瞻性組織，確定資源的分配位置、探索解空間的方式以及何時(shí)終止搜索。

基于潛在空間的方法從四個(gè)方面優(yōu)化了潛在規(guī)劃：對(duì)內(nèi)部解路徑的可控探索 (Controllable Exploration)、在潛在流形中導(dǎo)航的高效搜索 (Efficient Search)、根據(jù)難度匹配計(jì)算資源的自適應(yīng)算力 (Adaptive Budget)，以及在下游交互式任務(wù)中的順序決策 (Sequential Decision)。

建模能力 (Modeling):

建模涵蓋了對(duì)大型語(yǔ)言模型中潛在表征進(jìn)行刻畫、檢查和塑造的能力。推理和規(guī)劃關(guān)注的是模型在潛在空間中計(jì)算的內(nèi)容，而建模則側(cè)重于潛在表征如何幫助我們理解和控制計(jì)算本身。

該綜述將這一維度構(gòu)建為四種能力的提升：用于編碼復(fù)雜計(jì)算的豐富表達(dá) (Rich Expression)、使內(nèi)部狀態(tài)可分析的自我檢視 (Self Inspection)、針對(duì)風(fēng)險(xiǎn)或不穩(wěn)定行為的魯棒控制 (Robust Control)，以及通過(guò)潛在遞歸擴(kuò)展容量的可擴(kuò)展計(jì)算 (Scalable Computation)。

感知能力 (Perception):

潛在空間感知旨在解決視覺(jué)語(yǔ)言模型的理解、表示和處理連續(xù)、高保真潛在空間中的視覺(jué)信息的根本挑戰(zhàn)。當(dāng)前的視覺(jué)語(yǔ)言模型仍然面臨一個(gè)關(guān)鍵瓶頸：將豐富的視覺(jué)內(nèi)容轉(zhuǎn)換為離散的文本標(biāo)記不可避免地會(huì)丟失空間結(jié)構(gòu)、精細(xì)細(xì)節(jié)和關(guān)系幾何信息。潛在感知通過(guò)保留離散標(biāo)記化必然會(huì)破壞的密集空間結(jié)構(gòu)信息來(lái)克服這一限制，使模型能夠像人類感知一樣，以豐富而微妙的方式對(duì)視覺(jué)內(nèi)容進(jìn)行推理。

潛在空間賦予了感知三個(gè)逐漸深入的高級(jí)能力：基于內(nèi)部視覺(jué)表征的多模態(tài)推理 (Multimodal Inference)、用于生成式操作和三維理解的啟發(fā)式想象 (Heuristic Imagination)，以及通過(guò)表征層面的干預(yù)來(lái)提高輸出保真度的忠實(shí)定位 (Faithful Grounding)。

記憶能力 (Memory):

記憶已成為大模型的必要補(bǔ)充，無(wú)狀態(tài)架構(gòu)需要外部機(jī)制來(lái)跨推理步驟保留知識(shí)。然而，基于標(biāo)記的記憶也存在自身的瓶頸：將累積的上下文表示為離散序列會(huì)增加提示長(zhǎng)度，降低檢索保真度，并阻礙自適應(yīng)記憶鞏固所需的基于梯度的優(yōu)化。潛在記憶通過(guò)將持久知識(shí)編碼為連續(xù)向量來(lái)解決這一問(wèn)題，從而實(shí)現(xiàn)緊湊的跨上下文保留，并具有更高的保真度和適應(yīng)性。

在記憶層面，潛在空間的三種擴(kuò)展能力有力地支撐了其成為記憶的媒介：用于緩存干預(yù)的工作記憶留存 (Working Retention)、用于自我演化知識(shí)存儲(chǔ)的持久記憶演化 (Persistent Mind)，以及跨視覺(jué)和具身模態(tài)的多模態(tài)記憶調(diào)取 (Multimodal Recall)。

協(xié)作能力 (Collaboration):

傳統(tǒng)上，多智能體系統(tǒng)中的集體智能是通過(guò)自然語(yǔ)言來(lái)傳遞的。然而，語(yǔ)言本身就是一個(gè)固有的瓶頸：將內(nèi)部表征壓縮成離散的詞元會(huì)丟失語(yǔ)義細(xì)微差別，增加通信延遲，并破壞聯(lián)合優(yōu)化所需的梯度路徑。潛在協(xié)作通過(guò)使智能體能夠交換連續(xù)表征來(lái)解決這些限制，從而保留更豐富的內(nèi)部狀態(tài)并支持更具表現(xiàn)力的集體協(xié)作形式。

潛在空間協(xié)作組織成三個(gè)遞增的能力：用于通過(guò)潛在通道實(shí)現(xiàn)智能體間的無(wú)損狀態(tài)傳輸?shù)恼Z(yǔ)義保真 (Semantic Fidelity)，用于識(shí)別和演化跨智能體的共享思維結(jié)構(gòu)的共享認(rèn)知 (Shared Cognition)，以及用于將協(xié)作擴(kuò)展到不同的模型族和模態(tài)的異構(gòu)互通 (Heterogeneous Interoperability)。

具身能力 (Embodiment):

具身智能體面臨著一種數(shù)據(jù)瓶頸，這是任何純粹語(yǔ)言領(lǐng)域都無(wú)法比擬的：物理多樣性的每一次增加，例如新的硬件形態(tài)、視角和任務(wù)環(huán)境，都會(huì)使現(xiàn)有的標(biāo)記演示失效，并迫使用戶進(jìn)行平臺(tái)特定的重新訓(xùn)練，而這種模式無(wú)法直接遷移。潛在表征可以同時(shí)消除這些失效模式，使行為語(yǔ)義能夠從未標(biāo)記的視頻中涌現(xiàn)，并使空間先驗(yàn)信息能夠直接提煉成策略骨架，而無(wú)需額外的工具或重新標(biāo)注。

潛在空間在具身領(lǐng)域的潛力可以歸納為五種遞進(jìn)的能力：用于從無(wú)標(biāo)簽視頻中導(dǎo)出可遷移的動(dòng)作表示無(wú)需具身化特定標(biāo)簽的無(wú)監(jiān)督落地 (Unsupervised Grounding)，用于將多步驟規(guī)劃內(nèi)化為連續(xù)的潛在計(jì)算而無(wú)需顯式生成思維鏈的內(nèi)隱思考 (Implicit Thinking)，用于模擬未來(lái)狀態(tài)以生成密集的訓(xùn)練信號(hào)并指導(dǎo)實(shí)時(shí)決策的預(yù)測(cè)前瞻 (Predictive Foresight)，用于從 2D 觀察重建 3D/4D 幾何結(jié)構(gòu)的空間認(rèn)知 (Spatial Cognition)，以及用于通過(guò)共享的與身體無(wú)關(guān)的基質(zhì)來(lái)連接異構(gòu)硬件形態(tài)的泛化遷移 (Generalized Transfer)。

展望：潛在空間的未來(lái)可能是什么樣的？

核心定位：

潛空間是大模型的原生核心計(jì)算空間，并非附屬功能，已從文本推理拓展到多模態(tài)、記憶、協(xié)作、具身智能等全場(chǎng)景，是下一代通用 AI 的核心范式。

現(xiàn)存挑戰(zhàn)：

潛空間存在三大短板：難評(píng)估（中間計(jì)算過(guò)程不可見(jiàn)，無(wú)法驗(yàn)證推理合理性）、難控制（無(wú)法精準(zhǔn)操控內(nèi)部連續(xù)表征）、難解釋（高維向量無(wú)直觀語(yǔ)義，模型行為不可追溯）。

未來(lái)方向:

搭建統(tǒng)一理論：明確潛空間計(jì)算原理、與顯式空間的協(xié)作規(guī)則，建立標(biāo)準(zhǔn)評(píng)估體系；
深耕多模態(tài)：打造文本、視覺(jué)、動(dòng)作統(tǒng)一的原生潛計(jì)算空間；
落地下游任務(wù)：用潛空間支撐推理、規(guī)劃、機(jī)器人控制等下游場(chǎng)景；
實(shí)現(xiàn)可控治理：讓潛空間可觀測(cè)、可管控，解決可信性與安全性問(wèn)題。

結(jié)語(yǔ)

綜上，該綜述系統(tǒng)性填補(bǔ)了大模型潛在空間研究的碎片化空白，以 “基礎(chǔ) — 演進(jìn) — 機(jī)制 — 能力 — 展望” 五大視角構(gòu)建完整研究框架，清晰剖析了潛空間從概念驗(yàn)證到全面爆發(fā)的演進(jìn)路徑與底層邏輯。作為大模型從顯式符號(hào)向機(jī)器原生連續(xù)表征跨越的核心范式，潛空間已解鎖多維度智能能力，雖仍面臨挑戰(zhàn)，但仍然具有極大潛力，該綜述為后續(xù)研究奠定堅(jiān)實(shí)基礎(chǔ)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.