網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

亞馬遜發(fā)布Perceptio：讓AI擁有"立體視覺(jué)"的突破性技術(shù)

2026-03-31 16:16:47　來(lái)源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由亞馬遜團(tuán)隊(duì)領(lǐng)導(dǎo)的研究發(fā)表于2026年3月19日的計(jì)算機(jī)視覺(jué)會(huì)議論文集，論文編號(hào)為arXiv:2603.18795v1。感興趣的讀者可以通過(guò)該編號(hào)查詢(xún)完整論文。這項(xiàng)突破性研究首次讓大型視覺(jué)語(yǔ)言模型擁有了類(lèi)似人類(lèi)的"立體視覺(jué)"能力，能夠同時(shí)理解圖片中"是什么"和"在哪里"的問(wèn)題。

當(dāng)我們看到一張照片時(shí)，大腦會(huì)自動(dòng)分析出畫(huà)面中有什么物體，這些物體分別在什么位置，哪個(gè)離我們更近，哪個(gè)更遠(yuǎn)。這種能力對(duì)人類(lèi)來(lái)說(shuō)輕而易舉，但對(duì)AI來(lái)說(shuō)卻一直是個(gè)巨大挑戰(zhàn)。目前的AI視覺(jué)模型雖然能夠準(zhǔn)確識(shí)別出照片中有什么東西，卻很難判斷這些物體的空間位置關(guān)系。

亞馬遜研究團(tuán)隊(duì)開(kāi)發(fā)的Perceptio模型就像給AI安裝了一套全新的"視覺(jué)系統(tǒng)"。這套系統(tǒng)不僅能識(shí)別物體，還能生成詳細(xì)的深度圖和分割圖，告訴我們每個(gè)物體的精確輪廓和距離信息。這就好比給AI戴上了特殊的眼鏡，讓它既能看清楚"這是什么"，又能判斷"這在哪里"，甚至能回答"哪個(gè)更近"這樣的問(wèn)題。

研究團(tuán)隊(duì)的創(chuàng)新在于讓AI學(xué)會(huì)了一種特殊的"思考方式"。當(dāng)AI看到一張圖片并收到問(wèn)題時(shí)，它不再直接回答，而是先在內(nèi)部生成一系列特殊的"感知標(biāo)記"——包括物體輪廓標(biāo)記和深度標(biāo)記。這些標(biāo)記就像是AI的"內(nèi)心獨(dú)白"，幫助它理解空間關(guān)系后再給出答案。這種方法被稱(chēng)為"感知增強(qiáng)的思維鏈"，讓AI的推理過(guò)程更加接近人類(lèi)的視覺(jué)認(rèn)知過(guò)程。

一、AI視覺(jué)的"近視眼"問(wèn)題

現(xiàn)代的大型視覺(jué)語(yǔ)言模型就像是非常聰明但有些"近視"的學(xué)生。它們?cè)谡Z(yǔ)義理解方面表現(xiàn)出色，能夠準(zhǔn)確識(shí)別圖片中的各種物體，描述復(fù)雜的場(chǎng)景，甚至進(jìn)行深入的對(duì)話。然而，一旦涉及到空間關(guān)系的判斷，這些模型就顯得力不從心。

亞馬遜研究團(tuán)隊(duì)通過(guò)一個(gè)名為BLINK的測(cè)試發(fā)現(xiàn)了這個(gè)問(wèn)題的嚴(yán)重性。BLINK測(cè)試包含一些人類(lèi)"眨眼間"就能完成的簡(jiǎn)單空間判斷任務(wù)，比如指出照片中哪個(gè)物體離相機(jī)更近。令人驚訝的是，即使是目前最先進(jìn)的AI模型，在這些測(cè)試中的表現(xiàn)也僅僅比隨機(jī)猜測(cè)稍好一些。這就像讓一個(gè)博學(xué)的教授去判斷桌子上哪個(gè)杯子離他更近，結(jié)果他卻答不上來(lái)一樣尷尬。

這種"語(yǔ)義強(qiáng)、空間弱"的現(xiàn)象其實(shí)有其深層原因。傳統(tǒng)的AI訓(xùn)練主要依靠互聯(lián)網(wǎng)上的圖片和文字描述，這些描述往往關(guān)注的是"是什么"而不是"在哪里"。模型學(xué)會(huì)了將視覺(jué)特征轉(zhuǎn)換為語(yǔ)言描述，但在這個(gè)過(guò)程中，精確的空間信息往往被壓縮或丟失了。

更具體來(lái)說(shuō)，目前的模型架構(gòu)通常將圖片編碼成固定長(zhǎng)度的特征向量，然后直接用這些向量來(lái)生成文字回答。這個(gè)過(guò)程就像把一幅立體的油畫(huà)壓縮成一行文字描述一樣，雖然能保留主要內(nèi)容，但空間層次信息卻被抹平了。研究發(fā)現(xiàn)，即使是擁有260億參數(shù)的InternVL2.5模型，在HardBLINK的"距離判斷"任務(wù)中也只能達(dá)到33.1%的準(zhǔn)確率，遠(yuǎn)低于人類(lèi)的表現(xiàn)水平。

二、給AI裝上"立體眼鏡"

Perceptio的核心創(chuàng)新就像給AI裝上了一副特殊的"立體眼鏡"。這副眼鏡有兩個(gè)特殊的鏡片：一個(gè)負(fù)責(zé)看清物體的精確輪廓，另一個(gè)負(fù)責(zé)感知深度距離。這兩個(gè)"鏡片"分別對(duì)應(yīng)著語(yǔ)義分割和深度感知兩大核心技術(shù)。

語(yǔ)義分割"鏡片"的工作原理類(lèi)似于給照片中的每個(gè)物體描邊。當(dāng)AI看到一張包含多個(gè)物體的復(fù)雜場(chǎng)景時(shí)，這個(gè)功能會(huì)自動(dòng)為每個(gè)物體生成精確的輪廓線，就像用不同顏色的筆在透明紙上勾勒出每個(gè)物體的邊界一樣。這種精確的輪廓信息幫助AI理解物體的確切形狀和邊界，為后續(xù)的空間推理提供了重要基礎(chǔ)。

深度感知"鏡片"則負(fù)責(zé)構(gòu)建場(chǎng)景的三維結(jié)構(gòu)。它會(huì)為圖片中的每個(gè)像素分配一個(gè)深度值，生成類(lèi)似于地形圖的深度圖。在這張"地形圖"中，不同的顏色或亮度代表不同的距離，近處的物體顯示為高地，遠(yuǎn)處的物體顯示為低地。通過(guò)這種方式，AI能夠理解場(chǎng)景的立體結(jié)構(gòu)，判斷物體之間的前后關(guān)系。

研究團(tuán)隊(duì)在實(shí)現(xiàn)這兩個(gè)功能時(shí)采用了一種巧妙的"標(biāo)記化"策略。他們將復(fù)雜的分割圖和深度圖轉(zhuǎn)換成特殊的標(biāo)記序列，就像把圖片信息"翻譯"成AI能夠理解的特殊語(yǔ)言。這些標(biāo)記被直接嵌入到AI的文字生成過(guò)程中，形成了"分割標(biāo)記-深度標(biāo)記-文字回答"的特殊序列。

這種設(shè)計(jì)的精妙之處在于它遵循了人類(lèi)視覺(jué)認(rèn)知的自然規(guī)律。當(dāng)人們看到一個(gè)復(fù)雜場(chǎng)景并被問(wèn)及相關(guān)問(wèn)題時(shí)，大腦會(huì)首先快速分析場(chǎng)景結(jié)構(gòu)，識(shí)別物體輪廓，感知空間關(guān)系，然后基于這些感知信息來(lái)組織語(yǔ)言回答。Perceptio正是模擬了這個(gè)過(guò)程，讓AI在回答問(wèn)題之前先"看清楚"場(chǎng)景的詳細(xì)結(jié)構(gòu)。

三、深度信息的"數(shù)字化翻譯"

將連續(xù)的深度信息轉(zhuǎn)換成AI能理解的離散標(biāo)記，這個(gè)過(guò)程就像把一幅連續(xù)色彩的油畫(huà)轉(zhuǎn)換成像素畫(huà)一樣。研究團(tuán)隊(duì)采用了一種叫做VQ-VAE（矢量量化變分自編碼器）的技術(shù)來(lái)完成這個(gè)"翻譯"工作。

這個(gè)翻譯過(guò)程分為幾個(gè)步驟。首先，研究團(tuán)隊(duì)使用專(zhuān)門(mén)的深度估計(jì)模型為每張訓(xùn)練圖片生成高質(zhì)量的深度圖。這些深度圖就像是場(chǎng)景的"等高線地圖"，準(zhǔn)確記錄了每個(gè)位置到相機(jī)的距離。然后，VQ-VAE會(huì)學(xué)習(xí)將這些連續(xù)的深度值"打包"成一本特殊的"詞典"，這本詞典包含128個(gè)不同的深度"詞匯"，每個(gè)詞匯代表一種特定的深度模式。

當(dāng)AI需要描述一個(gè)場(chǎng)景的深度信息時(shí)，它會(huì)將深度圖分割成若干小塊，每個(gè)小塊都用詞典中最合適的"詞匯"來(lái)表示。這就像用有限的顏色塊來(lái)拼出一幅復(fù)雜的馬賽克畫(huà)一樣。雖然丟失了一些連續(xù)性的細(xì)節(jié)，但保留了足夠的信息來(lái)重構(gòu)出原始深度圖的主要結(jié)構(gòu)。

為了讓這個(gè)翻譯過(guò)程更加穩(wěn)定可靠，研究團(tuán)隊(duì)設(shè)計(jì)了三個(gè)特殊的訓(xùn)練目標(biāo)。第一個(gè)叫做"標(biāo)記損失"，確保AI生成正確的深度標(biāo)記序列。第二個(gè)是"計(jì)數(shù)損失"，保證生成的標(biāo)記數(shù)量符合預(yù)期。第三個(gè)是"定位損失"，確保深度標(biāo)記出現(xiàn)在序列中的正確位置。這三個(gè)目標(biāo)就像三個(gè)嚴(yán)格的老師，從不同角度監(jiān)督AI學(xué)習(xí)正確的深度表達(dá)方式。

研究團(tuán)隊(duì)還創(chuàng)新性地引入了"軟融合"技術(shù)來(lái)解決訓(xùn)練過(guò)程中的一個(gè)技術(shù)難題。在傳統(tǒng)方法中，從連續(xù)深度圖到離散標(biāo)記的轉(zhuǎn)換過(guò)程是不可微分的，這意味著訓(xùn)練信號(hào)無(wú)法有效地傳遞回去改進(jìn)模型。軟融合技術(shù)通過(guò)計(jì)算加權(quán)平均的方式，讓這個(gè)轉(zhuǎn)換過(guò)程變得平滑可微，從而實(shí)現(xiàn)了端到端的訓(xùn)練優(yōu)化。

四、多任務(wù)協(xié)同訓(xùn)練的智慧

Perceptio的訓(xùn)練過(guò)程就像培養(yǎng)一個(gè)全能型選手，需要在多個(gè)不同領(lǐng)域同時(shí)練習(xí)并達(dá)到專(zhuān)業(yè)水準(zhǔn)。研究團(tuán)隊(duì)設(shè)計(jì)了一套多任務(wù)協(xié)同訓(xùn)練策略，讓AI同時(shí)學(xué)習(xí)語(yǔ)言理解、物體分割和深度感知三項(xiàng)核心技能。

這種訓(xùn)練方式的挑戰(zhàn)在于平衡不同任務(wù)的重要性。研究團(tuán)隊(duì)為每個(gè)任務(wù)設(shè)定了不同的權(quán)重，就像調(diào)配營(yíng)養(yǎng)餐一樣精心搭配各種"營(yíng)養(yǎng)元素"。語(yǔ)言生成任務(wù)作為基礎(chǔ)能力保持較高權(quán)重，而分割和深度任務(wù)的權(quán)重則根據(jù)實(shí)驗(yàn)結(jié)果精心調(diào)節(jié)。最終的配方是：語(yǔ)言損失權(quán)重為1.0，分割重建損失權(quán)重為1.0，深度標(biāo)記損失權(quán)重為1.0，深度重建損失權(quán)重也為1.0。

訓(xùn)練數(shù)據(jù)的準(zhǔn)備工作同樣精細(xì)入微。研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含110萬(wàn)樣本的綜合數(shù)據(jù)集，這個(gè)數(shù)據(jù)集就像一個(gè)豐富的"經(jīng)驗(yàn)庫(kù)"，涵蓋了各種不同類(lèi)型的視覺(jué)推理任務(wù)。其中包括66.5萬(wàn)個(gè)來(lái)自LLaVA-1.5的圖像問(wèn)答對(duì)話樣本，21.4萬(wàn)個(gè)用于圖像級(jí)文本驅(qū)動(dòng)分割的對(duì)話生成樣本，還有6萬(wàn)個(gè)專(zhuān)門(mén)的感知標(biāo)記數(shù)據(jù)集樣本。此外，團(tuán)隊(duì)還特別制作了5.6萬(wàn)個(gè)結(jié)合了分割、深度和文本的聯(lián)合數(shù)據(jù)集樣本。

在這個(gè)聯(lián)合數(shù)據(jù)集中，每個(gè)樣本都包含完整的"感知鏈條"：原始圖片、對(duì)應(yīng)的分割掩碼、深度信息和自然語(yǔ)言描述。這樣的設(shè)計(jì)讓AI能夠?qū)W習(xí)到這些不同模態(tài)信息之間的內(nèi)在聯(lián)系，理解它們是如何相互支撐、共同構(gòu)成完整視覺(jué)理解的。

訓(xùn)練硬件配置也體現(xiàn)了這項(xiàng)研究的規(guī)模和復(fù)雜性。整個(gè)訓(xùn)練過(guò)程在64塊NVIDIA A100 GPU上進(jìn)行，持續(xù)約24小時(shí)。研究團(tuán)隊(duì)采用了AdamW優(yōu)化器，學(xué)習(xí)率設(shè)置為4×10??，有效批次大小為512。這些參數(shù)經(jīng)過(guò)精心調(diào)試，確保模型能夠穩(wěn)定地同時(shí)學(xué)習(xí)多個(gè)復(fù)雜任務(wù)。

五、令人矚目的性能突破

Perceptio在各項(xiàng)測(cè)試中的表現(xiàn)就像一個(gè)突然開(kāi)竅的學(xué)生，在多個(gè)維度都實(shí)現(xiàn)了顯著提升。在最具挑戰(zhàn)性的referring expression segmentation（指稱(chēng)表達(dá)分割）任務(wù)中，Perceptio-8B模型在RefCOCO、RefCOCO+和RefCOCOg三個(gè)數(shù)據(jù)集上分別達(dá)到了82.7%、77.9%和80.0%的cIoU得分，相比之前的最佳模型Sa2VA-8B分別提升了1.1、1.7和1.3個(gè)百分點(diǎn)。

這種提升的意義可以通過(guò)一個(gè)具體場(chǎng)景來(lái)理解：當(dāng)你指著一張復(fù)雜的街道照片說(shuō)"找出右邊穿紅衣服的那個(gè)人"時(shí)，Perceptio能夠更準(zhǔn)確地定位并勾勒出該人物的精確輪廓。這種精確性的提升在實(shí)際應(yīng)用中意味著更好的用戶(hù)體驗(yàn)和更可靠的系統(tǒng)性能。

在空間推理能力方面，Perceptio的表現(xiàn)更是令人印象深刻。在HardBLINK的相對(duì)深度判斷任務(wù)中，當(dāng)面對(duì)包含3個(gè)、4個(gè)和5個(gè)標(biāo)記點(diǎn)的復(fù)雜場(chǎng)景時(shí)，Perceptio-8B分別達(dá)到了75.8%、71.0%和66.1%的準(zhǔn)確率，平均準(zhǔn)確率為71.0%。這相比之前的最佳模型LLaVA-Aurora提升了8.9、10.5和11.3個(gè)百分點(diǎn)，平均提升達(dá)到了10.3個(gè)百分點(diǎn)。這種大幅提升表明，顯式的深度感知確實(shí)為空間推理帶來(lái)了根本性改善。

在通用視覺(jué)語(yǔ)言理解任務(wù)上，Perceptio也保持了優(yōu)秀表現(xiàn)。在MME基準(zhǔn)測(cè)試中，Perceptio-8B在感知和認(rèn)知兩個(gè)維度分別獲得了1654和628分的成績(jī)。在MMBench測(cè)試中達(dá)到了83.4%的準(zhǔn)確率，在SEED-Bench中獲得75.7%的分?jǐn)?shù)。這些結(jié)果表明，增加感知能力并沒(méi)有以犧牲原有語(yǔ)言理解能力為代價(jià)，反而在某種程度上增強(qiáng)了模型的綜合表現(xiàn)。

特別值得一提的是，Perceptio-4B這個(gè)較小的變體同樣表現(xiàn)出色，在多個(gè)測(cè)試中的成績(jī)甚至超過(guò)了一些更大參數(shù)量的競(jìng)爭(zhēng)模型。這表明Perceptio的架構(gòu)設(shè)計(jì)是高效的，不僅能在大模型中發(fā)揮作用，也能在資源受限的環(huán)境中提供良好性能。

六、創(chuàng)新方法的深入剖析

Perceptio的技術(shù)創(chuàng)新可以比作一套精密的視覺(jué)處理流水線。當(dāng)一張圖片進(jìn)入系統(tǒng)時(shí)，它會(huì)被分發(fā)到三個(gè)并行的處理通道：標(biāo)準(zhǔn)的圖像編碼通道、專(zhuān)門(mén)的分割感知通道和深度量化通道。這三個(gè)通道就像三個(gè)專(zhuān)業(yè)的技師，各自負(fù)責(zé)提取不同類(lèi)型的視覺(jué)信息。

標(biāo)準(zhǔn)圖像編碼通道負(fù)責(zé)提取語(yǔ)義外觀特征，這些特征包含了物體的類(lèi)別、顏色、紋理等基本視覺(jué)屬性。分割感知通道則使用凍結(jié)的SAM編碼器來(lái)生成分割感知的表示，這些表示特別擅長(zhǎng)捕捉物體邊界和形狀信息。深度量化通道利用預(yù)訓(xùn)練的VQ-VAE編碼器將圖片轉(zhuǎn)換成離散的深度標(biāo)記序列。

這三路信息最終匯聚到核心的大語(yǔ)言模型中，形成一個(gè)統(tǒng)一的多模態(tài)表示。語(yǔ)言模型學(xué)會(huì)了如何協(xié)調(diào)使用這些不同類(lèi)型的信息，在生成回答時(shí)首先輸出特殊的感知控制標(biāo)記，然后基于這些"內(nèi)部感知"來(lái)生成最終的文字回答。

損失函數(shù)的設(shè)計(jì)體現(xiàn)了研究團(tuán)隊(duì)的深思熟慮。除了標(biāo)準(zhǔn)的語(yǔ)言建模損失外，系統(tǒng)還包含了分割重建損失和一套創(chuàng)新的深度損失函數(shù)。深度損失函數(shù)由三個(gè)組成部分：標(biāo)記損失確保正確的深度標(biāo)記被生成，計(jì)數(shù)損失保證標(biāo)記序列長(zhǎng)度的一致性，定位損失確保標(biāo)記出現(xiàn)在正確的位置。這種多重約束的設(shè)計(jì)就像給AI安裝了多個(gè)"質(zhì)量檢查員"，從不同角度確保輸出的質(zhì)量。

軟重建技術(shù)是另一個(gè)重要?jiǎng)?chuàng)新。傳統(tǒng)的離散化過(guò)程會(huì)阻斷梯度傳播，使得端到端訓(xùn)練變得困難。研究團(tuán)隊(duì)通過(guò)加權(quán)平均的方式創(chuàng)造了一個(gè)可微分的"軟"重建過(guò)程，讓訓(xùn)練信號(hào)能夠有效地從最終的深度重建損失傳播回語(yǔ)言模型的參數(shù)。這種技術(shù)細(xì)節(jié)的創(chuàng)新雖然看似微小，卻是實(shí)現(xiàn)整個(gè)系統(tǒng)有效訓(xùn)練的關(guān)鍵。

七、全面的實(shí)驗(yàn)驗(yàn)證與分析

研究團(tuán)隊(duì)進(jìn)行了詳盡的消融實(shí)驗(yàn)來(lái)驗(yàn)證每個(gè)設(shè)計(jì)組件的作用。這些實(shí)驗(yàn)就像拆解一臺(tái)精密機(jī)器，逐一檢驗(yàn)每個(gè)零件的功能和重要性。

首先，團(tuán)隊(duì)驗(yàn)證了雙重感知能力的必要性。當(dāng)移除深度感知功能只保留2D分割時(shí)，模型在HardBLINK深度推理任務(wù)上的平均準(zhǔn)確率從71.0%暴跌到45.2%，下降了25.8個(gè)百分點(diǎn)。這個(gè)巨大的性能落差清楚地表明，3D深度信息對(duì)于空間推理確實(shí)至關(guān)重要。

相反，當(dāng)移除分割功能只保留3D深度感知時(shí)，模型在通用VQA任務(wù)上的表現(xiàn)出現(xiàn)了普遍下降：MME得分從1654/628下降到1620/585，MMBench準(zhǔn)確率下降了1.6個(gè)百分點(diǎn)，SEED-Bench得分下降了2.3個(gè)百分點(diǎn)。這表明2D語(yǔ)義分割信息對(duì)于全面的視覺(jué)理解同樣不可或缺。

損失函數(shù)組件的消融實(shí)驗(yàn)進(jìn)一步證實(shí)了設(shè)計(jì)的合理性。移除深度重建損失后，MME得分下降到1625/613，MMBench準(zhǔn)確率降至81.9%。移除深度標(biāo)記生成損失時(shí)，MMBench準(zhǔn)確率下降到82.4%，SEED-Bench得分從75.7%降至74.3%。這些結(jié)果表明，每個(gè)損失組件都在系統(tǒng)的整體性能中發(fā)揮著重要作用。

有趣的是，實(shí)驗(yàn)還揭示了一個(gè)優(yōu)化權(quán)衡的現(xiàn)象。當(dāng)移除深度標(biāo)記時(shí)，某些通用VQA指標(biāo)實(shí)際上出現(xiàn)了輕微提升（如MMBench提升0.4%）。這表明深度標(biāo)記生成與純文本任務(wù)之間存在一定的優(yōu)化競(jìng)爭(zhēng)。不過(guò)，考慮到深度感知帶來(lái)的巨大空間推理優(yōu)勢(shì)，這種微小的通用任務(wù)性能波動(dòng)是完全可以接受的。

推理效率的測(cè)試顯示，盡管Perceptio需要生成額外的感知標(biāo)記，但實(shí)際的計(jì)算開(kāi)銷(xiāo)極其有限。在密集標(biāo)題生成任務(wù)中，Perceptio-8B每100個(gè)標(biāo)記的生成時(shí)間為3.52秒，與Sa2VA-8B的3.53秒幾乎相同。浮點(diǎn)運(yùn)算量對(duì)比也顯示了類(lèi)似的結(jié)果（4.06T vs 4.66T FLOPs）。這意味著性能提升是通過(guò)更好的架構(gòu)設(shè)計(jì)而非更多的計(jì)算資源實(shí)現(xiàn)的。

八、實(shí)際應(yīng)用場(chǎng)景的廣闊前景

Perceptio的技術(shù)突破為多個(gè)實(shí)際應(yīng)用領(lǐng)域打開(kāi)了新的可能性。在自動(dòng)駕駛領(lǐng)域，這種增強(qiáng)的空間感知能力可以幫助AI更準(zhǔn)確地判斷道路上各種物體的距離和位置關(guān)系，從而做出更安全的駕駛決策。當(dāng)AI能夠精確區(qū)分前方是一個(gè)真實(shí)的行人還是廣告牌上的人像時(shí)，這對(duì)行車(chē)安全的意義是不言而喻的。

在機(jī)器人導(dǎo)航和操作任務(wù)中，Perceptio的能力同樣具有重要價(jià)值。家用服務(wù)機(jī)器人需要準(zhǔn)確理解家居環(huán)境中物體的空間排列，才能安全有效地完成諸如整理房間、端茶送水等任務(wù)。有了精確的深度感知和物體分割能力，機(jī)器人就能更好地規(guī)劃路徑，避免碰撞，并精確操作各種物品。

在增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)應(yīng)用中，Perceptio技術(shù)可以實(shí)現(xiàn)更自然的人機(jī)交互。用戶(hù)可以通過(guò)自然語(yǔ)言描述來(lái)選擇和操作虛擬環(huán)境中的特定物體，而AI能夠準(zhǔn)確理解用戶(hù)的意圖并定位到相應(yīng)的虛擬物品。這種精確的空間理解能力將使AR/VR體驗(yàn)變得更加直觀和沉浸。

醫(yī)療影像分析是另一個(gè)潛在的應(yīng)用領(lǐng)域。雖然醫(yī)療影像通常需要專(zhuān)門(mén)的訓(xùn)練，但Perceptio展示的空間推理能力為開(kāi)發(fā)更智能的醫(yī)療AI助手提供了新思路。能夠準(zhǔn)確分割和定位病灶區(qū)域的AI系統(tǒng)將為醫(yī)生提供更有價(jià)值的診斷支持。

在電商和零售領(lǐng)域，這種技術(shù)可以改善商品搜索和推薦體驗(yàn)。消費(fèi)者可以上傳一張包含多個(gè)物品的照片，然后用自然語(yǔ)言描述想要購(gòu)買(mǎi)的特定物品，AI就能準(zhǔn)確識(shí)別和定位目標(biāo)商品。這種精確的視覺(jué)理解能力將使購(gòu)物體驗(yàn)變得更加便捷。

九、技術(shù)局限與未來(lái)發(fā)展方向

盡管Perceptio取得了顯著進(jìn)展，但研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前方法的一些局限性。最明顯的是在優(yōu)化權(quán)衡方面，深度標(biāo)記生成與純文本任務(wù)之間存在輕微的競(jìng)爭(zhēng)關(guān)系。這表明在多任務(wù)學(xué)習(xí)中仍需要更精細(xì)的平衡策略，可能需要開(kāi)發(fā)任務(wù)自適應(yīng)的課程學(xué)習(xí)方法來(lái)解決這個(gè)問(wèn)題。

當(dāng)前的系統(tǒng)架構(gòu)還局限于靜態(tài)圖像處理，尚未擴(kuò)展到視頻理解領(lǐng)域。在視頻場(chǎng)景中，時(shí)間一致性的深度標(biāo)記和物體跟蹤將帶來(lái)新的技術(shù)挑戰(zhàn)。如何在保持空間精度的同時(shí)處理時(shí)間維度的復(fù)雜性，是一個(gè)值得深入探索的研究方向。

另一個(gè)重要局限是對(duì)教師模型的依賴(lài)。Perceptio目前依賴(lài)于凍結(jié)的專(zhuān)業(yè)教師模型（Depth Anything V2和SAM2），這些模型的誤差會(huì)傳播到學(xué)生模型中。開(kāi)發(fā)更魯棒的學(xué)習(xí)策略來(lái)應(yīng)對(duì)教師模型的噪聲，是提高系統(tǒng)實(shí)用性的關(guān)鍵。

在更廣闊的視角下，這項(xiàng)研究也啟發(fā)了關(guān)于通用空間智能的思考。未來(lái)的發(fā)展方向可能包括將感知標(biāo)記擴(kuò)展到編碼表面法線、光流等更豐富的空間信息，朝著統(tǒng)一的空間智能框架發(fā)展。這種框架將能夠在單一的自回歸框架內(nèi)處理各種空間推理任務(wù)。

計(jì)算效率的進(jìn)一步優(yōu)化也是一個(gè)重要方向。雖然當(dāng)前的額外計(jì)算開(kāi)銷(xiāo)很小，但在大規(guī)模部署時(shí)，任何效率提升都具有重要意義。研究團(tuán)隊(duì)提到了任務(wù)自適應(yīng)課程學(xué)習(xí)的可能性，這種方法可能在保持性能的同時(shí)進(jìn)一步提高訓(xùn)練效率。

最后，如何將這種顯式的空間感知能力與更廣泛的常識(shí)推理相結(jié)合，仍然是一個(gè)開(kāi)放的研究問(wèn)題。真正的視覺(jué)智能不僅需要精確的感知能力，還需要理解物體之間的物理關(guān)系、功能關(guān)系和因果關(guān)系。

說(shuō)到底，Perceptio的出現(xiàn)標(biāo)志著AI視覺(jué)理解領(lǐng)域的一個(gè)重要里程碑。它首次成功地將2D語(yǔ)義分割和3D深度感知統(tǒng)一到了單一的自回歸語(yǔ)言模型中，讓AI獲得了更接近人類(lèi)的視覺(jué)認(rèn)知能力。這種"先感知，后推理"的設(shè)計(jì)理念不僅帶來(lái)了實(shí)質(zhì)性的性能提升，更重要的是為構(gòu)建真正智能的視覺(jué)系統(tǒng)指明了方向。

雖然還存在一些局限性，但這項(xiàng)研究已經(jīng)證明了顯式空間感知對(duì)于視覺(jué)語(yǔ)言模型的重要性。隨著技術(shù)的不斷發(fā)展和完善，我們有理由期待看到更多能夠真正理解三維世界的AI系統(tǒng)出現(xiàn)。這些系統(tǒng)將不僅能夠看到世界的表面，更能夠理解世界的深層結(jié)構(gòu)，從而為人類(lèi)提供更智能、更可靠的視覺(jué)AI服務(wù)。對(duì)于有興趣深入了解技術(shù)細(xì)節(jié)的讀者，建議查閱完整的論文原文，論文編號(hào)為arXiv:2603.18795v1。

Q&A

Q1：Perceptio和傳統(tǒng)AI視覺(jué)模型有什么不同？

A：傳統(tǒng)AI視覺(jué)模型只能識(shí)別圖片中的物體類(lèi)別，就像只能回答"這是什么"的問(wèn)題。而Perceptio能同時(shí)理解"是什么"和"在哪里"，它會(huì)先生成物體輪廓和深度信息的特殊標(biāo)記，然后基于這些空間感知來(lái)回答問(wèn)題，就像給AI裝上了立體眼鏡。

Q2：Perceptio的深度感知能力有多準(zhǔn)確？

A：在HardBLINK空間推理測(cè)試中，Perceptio-8B達(dá)到了71.0%的平均準(zhǔn)確率，相比之前最好的模型提升了10.3個(gè)百分點(diǎn)。這意味著它能正確判斷照片中哪個(gè)物體離相機(jī)更近的概率超過(guò)70%，這是一個(gè)顯著的突破。

Q3：Perceptio技術(shù)什么時(shí)候能應(yīng)用到實(shí)際產(chǎn)品中？

A：目前Perceptio還在研究階段，但其技術(shù)原理已經(jīng)為多個(gè)應(yīng)用領(lǐng)域指明了方向，包括自動(dòng)駕駛中的距離判斷、機(jī)器人導(dǎo)航、增強(qiáng)現(xiàn)實(shí)交互等。具體的產(chǎn)品化時(shí)間表還需要看后續(xù)的工程化進(jìn)展和計(jì)算資源優(yōu)化情況。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.