337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

上交大提出LatentUM:UnifiedModel真正戰(zhàn)場(chǎng)在視覺(jué)推理與世界模型

0
分享至



本文作者團(tuán)隊(duì)來(lái)自上海交通大學(xué) DENG Lab 與清華大學(xué)、加州大學(xué)圣地亞哥分校(UCSD)。該研究由博士生金佳純、準(zhǔn)博士生周澤同共同完成,指導(dǎo)教師為鄧志杰、朱軍、劉鵬飛、張昊、楊嘯老師。DENG Lab 隸屬上海交通大學(xué),致力于高效、跨模態(tài)生成模型的研究。

過(guò)去一段時(shí)間,生成理解統(tǒng)一模型(Unified Model)經(jīng)常被理解成一種「既能看懂圖、又能生成圖」的多模態(tài)通用系統(tǒng)。

但如果統(tǒng)一模型的價(jià)值只停留在「會(huì)看會(huì)畫(huà)」,那它和把 VLM、T2I 簡(jiǎn)單拼在一起并沒(méi)有本質(zhì)區(qū)別。真正更值得追問(wèn)的問(wèn)題是:模型能不能把自己生成出的視覺(jué)內(nèi)容直接納入推理閉環(huán),讓圖像不只是輸出結(jié)果,而是推理、規(guī)劃乃至世界建模過(guò)程中的中間思維狀態(tài)?

近期,上海交通大學(xué) DENG Lab 提出的 LatentUM嘗試去回答上述問(wèn)題。

從結(jié)果上看,這條路線確實(shí)帶來(lái)了實(shí)際性能收益:LatentUM 在 GenEval 上最高達(dá)到 0.92,在 Visual Spatial Planning 任務(wù)上準(zhǔn)確率最高達(dá)到 0.99,在導(dǎo)航世界模型任務(wù)上,LatentUM 在 NWM 評(píng)測(cè)上取得 ATE 1.34、RPE 0.34,超過(guò)近期 Transfusion-RAE 等統(tǒng)一世界模型基線。

這說(shuō)明,共享語(yǔ)義 latent space 并不只是一個(gè)更「統(tǒng)一」的建模方案,它確實(shí)有機(jī)會(huì)把視覺(jué)生成變成推理與建模過(guò)程中的有效中間變量。



  • 論文地址:https://arxiv.org/pdf/2604.02097
  • 代碼地址:https://github.com/SJTU-DENG-Lab/LatentUM
  • 模型倉(cāng)庫(kù):https://huggingface.co/collections/SJTU-DENG-Lab/latentum

重新思考 Unified Model 的價(jià)值與存在的問(wèn)題

現(xiàn)有多數(shù)生成理解統(tǒng)一模型 (Unified Model) 的目標(biāo),仍然停留在打造一個(gè)「能看又能畫(huà)」的多模態(tài)六邊形戰(zhàn)士,但它們往往在理解和生成兩端都不及最好的 specific model。

LatentUM 想推動(dòng)大家重新思考這個(gè)方向的目標(biāo)函數(shù):Unified Model 的真正潛力,并不只是把視覺(jué)理解和視覺(jué)生成裝進(jìn)同一個(gè)框架里,而是在模態(tài)交錯(cuò)生成中把生成出的視覺(jué)內(nèi)容真正納入 reasoning loop,形成 cross-modal chain-of-thought,進(jìn)一步服務(wù)于復(fù)雜視覺(jué)推理、規(guī)劃乃至世界建模。

換句話說(shuō),Unified Model 最值得做的事,是讓模型在推理過(guò)程中真的把圖像當(dāng)作中間思維載體來(lái)使用,而不是把「會(huì)看會(huì)畫(huà)」本身當(dāng)作終點(diǎn)。



圖 1:LatentUM 在帶有自我反思的文生圖任務(wù)、視覺(jué)空間規(guī)劃任務(wù)、世界建模任務(wù)上都超越了基線模型。

基于這一觀察,LatentUM 給出的核心思路是:不再讓視覺(jué)生成服務(wù)于像素空間,而是讓模型直接生成與語(yǔ)言共享語(yǔ)義空間的離散 visual semantic tokens。這樣一來(lái),模型生成出來(lái)的視覺(jué)內(nèi)容,就可以被模型自己直接讀取、繼續(xù)推理,而不必再經(jīng)過(guò)「像素中轉(zhuǎn)」。

換句話說(shuō),LatentUM 想實(shí)現(xiàn)的,不是一個(gè)簡(jiǎn)單把理解和生成拼在一起的 Unified Model,而是一個(gè)真正基于 shared semantic latent space 運(yùn)作的 latent-space unified model。

當(dāng)前大部分 Unified Model 通常把理解和生成建立在兩套不同的視覺(jué)表示上:理解側(cè)使用與語(yǔ)言對(duì)齊的語(yǔ)義特征,生成側(cè)使用面向像素重建的 VAE 特征。結(jié)果就是,模型一旦想基于自己生成的圖繼續(xù)思考,就不得不先把生成特征解碼成像素,再重新編碼回理解特征。這個(gè)過(guò)程不僅低效,也會(huì)引入額外的 codec bias,造成跨模態(tài)錯(cuò)位,限制圖文交錯(cuò)推理能力。

也正因?yàn)槿绱?,很多現(xiàn)有統(tǒng)一模型雖然「既能看又能畫(huà)」,但在真正需要視覺(jué)中間態(tài)參與推理的任務(wù)上,并沒(méi)有把 unified 的優(yōu)勢(shì)發(fā)揮出來(lái)。

LatentUM 的模型設(shè)計(jì)



圖 2:LatentUM 架構(gòu)的三個(gè)關(guān)鍵設(shè)計(jì)。

圍繞這一目標(biāo),LatentUM 主要包含三個(gè)關(guān)鍵設(shè)計(jì)。

首先是 Model Behavior Aligned Quantization(MBAQ)。由于連續(xù)語(yǔ)義特征維度高,難以直接進(jìn)行生成建模。LatentUM 選擇先將其量化為可自回歸預(yù)測(cè)的離散 visual semantic tokens。傳統(tǒng)視覺(jué)離散化方法通常追求還原像素或原始特征,但對(duì) Unified Model 來(lái)說(shuō),更關(guān)鍵的是量化后的 token 能否繼續(xù)支撐視覺(jué)理解與語(yǔ)言推理。

因此,MBAQ 不是優(yōu)化重建誤差,而是讓量化后的視覺(jué)特征盡可能保留原始視覺(jué)特征所對(duì)應(yīng)的 VLM 的理解行為。

這意味著量化器會(huì)優(yōu)先保留那些真正影響視覺(jué)理解結(jié)果的語(yǔ)義信息,主動(dòng)舍棄對(duì)預(yù)測(cè)貢獻(xiàn)有限的低層像素細(xì)節(jié)。相比關(guān)注特征還原,MBAQ 更關(guān)注量化后的 token 是否仍然能夠支持原有的視覺(jué)問(wèn)答與語(yǔ)言推理能力。

這對(duì)于 Unified Model 尤其關(guān)鍵,因?yàn)橹挥挟?dāng)生成出的 visual token 仍然能夠被模型自己穩(wěn)定理解時(shí),它們才能真正作為中間思維狀態(tài)參與后續(xù)的跨模態(tài)推理。

第二是 Mixture-of-Modal Experts(MoME)。統(tǒng)一建模并不意味著所有模態(tài)都必須完全走同一套參數(shù)路徑。為降低視覺(jué)理解與視覺(jué)生成之間的訓(xùn)練干擾,LatentUM 將理解和生成分成兩條并行分支,它們共享 self-attention,但在其余部分適度解耦。

這樣既保留圖文之間的信息流動(dòng),也減少了不同目標(biāo)之間的負(fù)遷移。雖然生成理解兩套參數(shù)解耦,但模型生成的視覺(jué) token 可以重新被理解分支直接讀取并緩存進(jìn)上下文,從而繼續(xù)參與后續(xù)推理。

第三是 Decoupled Pixel Decoder。雖然 LatentUM 的離散語(yǔ)義特征不再圍繞像素重建來(lái)訓(xùn)練,但作者們發(fā)現(xiàn)離散語(yǔ)義特征中仍然保有大部分的像素信息,可以通過(guò)一個(gè)獨(dú)立的 diffusion decoder 將其恢復(fù)成像素。

這樣一來(lái),像素空間在 LatentUM 中不再是內(nèi)部推理的必經(jīng)橋梁,而只是一個(gè)按需調(diào)用的可視化接口,從而避免模型為了像素保真而犧牲統(tǒng)一語(yǔ)義空間本身的表達(dá)能力。

實(shí)驗(yàn)結(jié)果

基于上述設(shè)計(jì),論文實(shí)現(xiàn)了 LatentUM-Base。模型以 InternVL3.5-4B 為初始化底座,直接繼承其成熟的視覺(jué)理解能力,并在圖文數(shù)據(jù)上進(jìn)行訓(xùn)練來(lái)補(bǔ)足視覺(jué)生成分支,總訓(xùn)練成本大約是 6000 GPU hours。

實(shí)驗(yàn)結(jié)果首先驗(yàn)證了這種 shared semantic latent space 不會(huì)顯著損害視覺(jué)理解能力。論文在多項(xiàng)理解基準(zhǔn)上評(píng)估 LatentUM-Base,發(fā)現(xiàn)當(dāng)輸入圖像被量化成離散語(yǔ)義 token 后,視覺(jué)理解的能力依舊在線。

這說(shuō)明MBAQ 學(xué)到的 token 并不是簡(jiǎn)單壓縮結(jié)果,而是真的保留了足夠支撐視覺(jué)理解的語(yǔ)義結(jié)構(gòu)。



圖 3:LatentUM-Base 的視覺(jué)理解能力與基線方法的對(duì)比。

在視覺(jué)生成方面,得益于視覺(jué) token 的語(yǔ)義對(duì)齊,LatentUM-Base 同樣展現(xiàn)出了很強(qiáng)的 instruction-following 能力。在 GenEval 上,LatentUM-Base 達(dá)到 0.85,已經(jīng)超過(guò)大多數(shù)已有 Unified Model,而且這一結(jié)果是在相對(duì)有限的數(shù)據(jù)規(guī)模下取得的。

這說(shuō)明共享語(yǔ)義空間讓模型更容易把文本條件中的語(yǔ)義約束真正落實(shí)到視覺(jué) token 上。



圖 4:LatentUM-Base 的文生圖樣例展示。

除了基本的 text-to-image generation,LatentUM 還能利用自己的理解能力反過(guò)來(lái)提升生成。

論文在 post-training 階段探索了 generate-then-reflect 的范式:先生成,再讓模型基于自己的理解分支對(duì)結(jié)果做「自檢」,并通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化。僅基于自我理解 reward,LatentUM-Vis-Gen 在 GenEval 上從 0.85 提升到 0.87;如果進(jìn)一步使用外部 pixel-level reward,最終可以達(dá)到 0.92,在統(tǒng)一模型中取得新的最好結(jié)果。

在更強(qiáng)調(diào)語(yǔ)義判斷穩(wěn)健性的 GenEval2 上,LatentUM 也顯著領(lǐng)先已有 Unified Model。



圖 5:LatentUM 在 GenEval bench 上超越了 Unified Model 的基線。

為了驗(yàn)證共享語(yǔ)義 latent space 是否真的能支撐復(fù)雜的圖文交錯(cuò)推理,論文進(jìn)一步在 Visual Spatial Planning 任務(wù)上做了系統(tǒng)評(píng)測(cè)。

這個(gè)任務(wù)要求模型在迷宮環(huán)境中進(jìn)行規(guī)劃,不僅要讀懂當(dāng)前視覺(jué)狀態(tài),還要在推理過(guò)程中基于采取的 action 持續(xù)更新下一個(gè)未來(lái)狀態(tài)。

結(jié)果上,LatentUM-Vis-Plan 在粗粒度中間狀態(tài)的設(shè)定下平均準(zhǔn)確率達(dá)到 0.85,在細(xì)粒度中間狀態(tài)的逐步交錯(cuò)推理的設(shè)定下達(dá)到 0.99,顯著超過(guò) ThinkMorph 等需要經(jīng)過(guò)像素空間中轉(zhuǎn)的方法。

這說(shuō)明,如果視覺(jué)內(nèi)容本身就處在統(tǒng)一語(yǔ)義空間里,那么「邊想邊看、邊看邊想」并不是概念展示,而是可以帶來(lái)性能增益的實(shí)際能力。



LatentUM 在 VSP 任務(wù)上的 demo。



圖 6:LatentUM 在 Visual Spatial Planning bench 上大幅超越了各類跨模態(tài)推理基線。

最后,論文還進(jìn)一步探索了 LatentUM 在 world modeling 中的潛力。

在導(dǎo)航世界模型設(shè)定下,LatentUM-WM 在 NWM 評(píng)測(cè)上取得 ATE 1.34、RPE 0.34,超過(guò)了近期 Transfusion-RAE 這類統(tǒng)一世界模型基線。

這說(shuō)明shared semantic latent space 也許不僅是連接理解和生成的一種方法,也可能是連接推理與世界建模的一條自然路徑。



LatentUM 在 navigation world modeling 任務(wù)上的 demo。

從更大的角度看,LatentUM 想推動(dòng)大家重新思考 Unified Model 的目標(biāo)。它不應(yīng)該只是把「看」和「畫(huà)」放進(jìn)同一個(gè)模型里,而應(yīng)該成為一個(gè)能夠在共享語(yǔ)義空間中進(jìn)行交錯(cuò)生成、反思、規(guī)劃與預(yù)測(cè)的通用多模態(tài)系統(tǒng)。

對(duì) Unified Model 來(lái)說(shuō),真正重要的,也許從來(lái)不是「既會(huì)看又會(huì)畫(huà)」,而是能不能在共享語(yǔ)義空間中用各種模態(tài)持續(xù)地生成、推理。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

拳擊時(shí)空
2026-04-16 06:04:48
八國(guó)聯(lián)軍中,有七國(guó)主動(dòng)退還賠款,唯獨(dú)一國(guó)分文不退,是哪個(gè)?

八國(guó)聯(lián)軍中,有七國(guó)主動(dòng)退還賠款,唯獨(dú)一國(guó)分文不退,是哪個(gè)?

千秋文化
2025-03-28 10:37:53
重現(xiàn)死亡之瞳!詹姆斯19+8+13單核制勝 創(chuàng)8項(xiàng)紀(jì)錄+4項(xiàng)歷史第一

重現(xiàn)死亡之瞳!詹姆斯19+8+13單核制勝 創(chuàng)8項(xiàng)紀(jì)錄+4項(xiàng)歷史第一

醉臥浮生
2026-04-19 11:20:27
腸道是否長(zhǎng)息肉,會(huì)有4個(gè)提示,上廁所時(shí)要記的多看一眼!

腸道是否長(zhǎng)息肉,會(huì)有4個(gè)提示,上廁所時(shí)要記的多看一眼!

芹姐說(shuō)生活
2026-04-19 23:32:30
好消息!浙江車主最高補(bǔ)貼2萬(wàn)元

好消息!浙江車主最高補(bǔ)貼2萬(wàn)元

環(huán)球網(wǎng)資訊
2026-04-19 15:42:16
2000噸英國(guó)潛艇消失,我國(guó)暗中打撈拆解研究,39年后首相卻上門(mén)討要

2000噸英國(guó)潛艇消失,我國(guó)暗中打撈拆解研究,39年后首相卻上門(mén)討要

睡前講故事
2026-03-30 13:48:58
東部第1爆冷轟然倒地!班凱羅23+9,虎將末節(jié)暴走,坎寧安39+5

東部第1爆冷轟然倒地!班凱羅23+9,虎將末節(jié)暴走,坎寧安39+5

一將籃球
2026-04-20 10:26:46
你做初一,我做十五!日艦過(guò)航臺(tái)海三天后,052D沖向橫當(dāng)水道

你做初一,我做十五!日艦過(guò)航臺(tái)海三天后,052D沖向橫當(dāng)水道

毛豆新鮮
2026-04-20 08:13:46
17場(chǎng)造13球,恩德里克超德佩成為里昂隊(duì)史最高產(chǎn)的冬窗新援

17場(chǎng)造13球,恩德里克超德佩成為里昂隊(duì)史最高產(chǎn)的冬窗新援

懂球帝
2026-04-20 04:27:13
麥當(dāng)娜:睡過(guò)100+猛男,2段婚姻全敗,如今又戀上兒子29歲教練

麥當(dāng)娜:睡過(guò)100+猛男,2段婚姻全敗,如今又戀上兒子29歲教練

七阿姨愛(ài)八卦
2026-04-15 17:12:30
絕不向中國(guó)低頭!寧愿裁員9000人公司破產(chǎn),也不接受中國(guó)的幫助?

絕不向中國(guó)低頭!寧愿裁員9000人公司破產(chǎn),也不接受中國(guó)的幫助?

混沌錄
2026-04-11 15:18:05
比恒大還慘!中國(guó)第二大民企倒了,負(fù)債7500億,創(chuàng)始人被帶走

比恒大還慘!中國(guó)第二大民企倒了,負(fù)債7500億,創(chuàng)始人被帶走

芳芳?xì)v史燴
2025-12-25 20:32:52
【深圳故事】龍崗業(yè)主:千萬(wàn)身家,被小區(qū)熟人4個(gè)月騙走3200萬(wàn)。

【深圳故事】龍崗業(yè)主:千萬(wàn)身家,被小區(qū)熟人4個(gè)月騙走3200萬(wàn)。

美中融合
2026-04-19 17:49:50
商業(yè)航天頂級(jí)教科書(shū)!“猛禽之父”離開(kāi)馬斯克10年,沒(méi)造火箭——但選的賽道入口比火箭值錢多了

商業(yè)航天頂級(jí)教科書(shū)!“猛禽之父”離開(kāi)馬斯克10年,沒(méi)造火箭——但選的賽道入口比火箭值錢多了

翔說(shuō)航天
2026-04-19 00:02:47
沈伯洋若出馬,五個(gè)綠營(yíng)縣市岌岌可危? 臺(tái)網(wǎng)紅揭賴清德力挺的原因

沈伯洋若出馬,五個(gè)綠營(yíng)縣市岌岌可危? 臺(tái)網(wǎng)紅揭賴清德力挺的原因

海峽導(dǎo)報(bào)社
2026-04-20 10:13:03
每吃一次,血管就堵一截?醫(yī)生:這5種水果是腦?!凹铀倨鳌?>
    </a>
        <h3>
      <a href=荊醫(yī)生科普
2026-04-02 17:35:43
一臺(tái)價(jià)值20萬(wàn)的幾乎全新的新能源車,換個(gè)卡扣報(bào)價(jià)13萬(wàn),輿論炸了

一臺(tái)價(jià)值20萬(wàn)的幾乎全新的新能源車,換個(gè)卡扣報(bào)價(jià)13萬(wàn),輿論炸了

胡侃社會(huì)百態(tài)
2026-04-18 10:53:42
江蘇人又在悶聲干大事!一張業(yè)余聯(lián)賽贊助單,比肩歐洲杯?

江蘇人又在悶聲干大事!一張業(yè)余聯(lián)賽贊助單,比肩歐洲杯?

老曁科普
2026-04-19 19:01:33
鯰魚(yú)須之后,“水母頭”又在小學(xué)生中流行,顏值低的剪了很尷尬

鯰魚(yú)須之后,“水母頭”又在小學(xué)生中流行,顏值低的剪了很尷尬

蝴蝶花雨話教育
2026-04-19 00:50:03
全家“社會(huì)性死亡”!昆明機(jī)場(chǎng)一家五口強(qiáng)行登機(jī),最丟臉的竟是他

全家“社會(huì)性死亡”!昆明機(jī)場(chǎng)一家五口強(qiáng)行登機(jī),最丟臉的竟是他

離離言幾許
2026-04-19 09:12:39
2026-04-20 10:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12798文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

藍(lán)色起源一級(jí)火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

失蹤女老板被找到 嫌犯曾改名整容還催警察"還我清白"

頭條要聞

失蹤女老板被找到 嫌犯曾改名整容還催警察"還我清白"

體育要聞

七大獎(jiǎng)項(xiàng)候選官宣!文班或全票DPOY

娛樂(lè)要聞

章子怡!增重20斤素顏拍新片

財(cái)經(jīng)要聞

月之暗面IPO迷局

汽車要聞

外觀非常驚艷 全新一代寶馬6系有望回歸

態(tài)度原創(chuàng)

教育
手機(jī)
旅游
本地
健康

教育要聞

給孩子最深的滋養(yǎng):一半愛(ài)護(hù),一半需要

手機(jī)要聞

上市還沒(méi)半年!三星三折疊屏手機(jī)面臨退市 友商跟華為差距太遠(yuǎn)

旅游要聞

去藝術(shù)現(xiàn)場(chǎng),赴一次深度游

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版