![]()
這項(xiàng)由亞馬遜團(tuán)隊(duì)領(lǐng)導(dǎo)的研究發(fā)表于2026年3月19日的計(jì)算機(jī)視覺(jué)會(huì)議論文集,論文編號(hào)為arXiv:2603.18795v1。感興趣的讀者可以通過(guò)該編號(hào)查詢(xún)完整論文。這項(xiàng)突破性研究首次讓大型視覺(jué)語(yǔ)言模型擁有了類(lèi)似人類(lèi)的"立體視覺(jué)"能力,能夠同時(shí)理解圖片中"是什么"和"在哪里"的問(wèn)題。
當(dāng)我們看到一張照片時(shí),大腦會(huì)自動(dòng)分析出畫(huà)面中有什么物體,這些物體分別在什么位置,哪個(gè)離我們更近,哪個(gè)更遠(yuǎn)。這種能力對(duì)人類(lèi)來(lái)說(shuō)輕而易舉,但對(duì)AI來(lái)說(shuō)卻一直是個(gè)巨大挑戰(zhàn)。目前的AI視覺(jué)模型雖然能夠準(zhǔn)確識(shí)別出照片中有什么東西,卻很難判斷這些物體的空間位置關(guān)系。
亞馬遜研究團(tuán)隊(duì)開(kāi)發(fā)的Perceptio模型就像給AI安裝了一套全新的"視覺(jué)系統(tǒng)"。這套系統(tǒng)不僅能識(shí)別物體,還能生成詳細(xì)的深度圖和分割圖,告訴我們每個(gè)物體的精確輪廓和距離信息。這就好比給AI戴上了特殊的眼鏡,讓它既能看清楚"這是什么",又能判斷"這在哪里",甚至能回答"哪個(gè)更近"這樣的問(wèn)題。
研究團(tuán)隊(duì)的創(chuàng)新在于讓AI學(xué)會(huì)了一種特殊的"思考方式"。當(dāng)AI看到一張圖片并收到問(wèn)題時(shí),它不再直接回答,而是先在內(nèi)部生成一系列特殊的"感知標(biāo)記"——包括物體輪廓標(biāo)記和深度標(biāo)記。這些標(biāo)記就像是AI的"內(nèi)心獨(dú)白",幫助它理解空間關(guān)系后再給出答案。這種方法被稱(chēng)為"感知增強(qiáng)的思維鏈",讓AI的推理過(guò)程更加接近人類(lèi)的視覺(jué)認(rèn)知過(guò)程。
一、AI視覺(jué)的"近視眼"問(wèn)題
現(xiàn)代的大型視覺(jué)語(yǔ)言模型就像是非常聰明但有些"近視"的學(xué)生。它們?cè)谡Z(yǔ)義理解方面表現(xiàn)出色,能夠準(zhǔn)確識(shí)別圖片中的各種物體,描述復(fù)雜的場(chǎng)景,甚至進(jìn)行深入的對(duì)話。然而,一旦涉及到空間關(guān)系的判斷,這些模型就顯得力不從心。
亞馬遜研究團(tuán)隊(duì)通過(guò)一個(gè)名為BLINK的測(cè)試發(fā)現(xiàn)了這個(gè)問(wèn)題的嚴(yán)重性。BLINK測(cè)試包含一些人類(lèi)"眨眼間"就能完成的簡(jiǎn)單空間判斷任務(wù),比如指出照片中哪個(gè)物體離相機(jī)更近。令人驚訝的是,即使是目前最先進(jìn)的AI模型,在這些測(cè)試中的表現(xiàn)也僅僅比隨機(jī)猜測(cè)稍好一些。這就像讓一個(gè)博學(xué)的教授去判斷桌子上哪個(gè)杯子離他更近,結(jié)果他卻答不上來(lái)一樣尷尬。
這種"語(yǔ)義強(qiáng)、空間弱"的現(xiàn)象其實(shí)有其深層原因。傳統(tǒng)的AI訓(xùn)練主要依靠互聯(lián)網(wǎng)上的圖片和文字描述,這些描述往往關(guān)注的是"是什么"而不是"在哪里"。模型學(xué)會(huì)了將視覺(jué)特征轉(zhuǎn)換為語(yǔ)言描述,但在這個(gè)過(guò)程中,精確的空間信息往往被壓縮或丟失了。
更具體來(lái)說(shuō),目前的模型架構(gòu)通常將圖片編碼成固定長(zhǎng)度的特征向量,然后直接用這些向量來(lái)生成文字回答。這個(gè)過(guò)程就像把一幅立體的油畫(huà)壓縮成一行文字描述一樣,雖然能保留主要內(nèi)容,但空間層次信息卻被抹平了。研究發(fā)現(xiàn),即使是擁有260億參數(shù)的InternVL2.5模型,在HardBLINK的"距離判斷"任務(wù)中也只能達(dá)到33.1%的準(zhǔn)確率,遠(yuǎn)低于人類(lèi)的表現(xiàn)水平。
二、給AI裝上"立體眼鏡"
Perceptio的核心創(chuàng)新就像給AI裝上了一副特殊的"立體眼鏡"。這副眼鏡有兩個(gè)特殊的鏡片:一個(gè)負(fù)責(zé)看清物體的精確輪廓,另一個(gè)負(fù)責(zé)感知深度距離。這兩個(gè)"鏡片"分別對(duì)應(yīng)著語(yǔ)義分割和深度感知兩大核心技術(shù)。
語(yǔ)義分割"鏡片"的工作原理類(lèi)似于給照片中的每個(gè)物體描邊。當(dāng)AI看到一張包含多個(gè)物體的復(fù)雜場(chǎng)景時(shí),這個(gè)功能會(huì)自動(dòng)為每個(gè)物體生成精確的輪廓線,就像用不同顏色的筆在透明紙上勾勒出每個(gè)物體的邊界一樣。這種精確的輪廓信息幫助AI理解物體的確切形狀和邊界,為后續(xù)的空間推理提供了重要基礎(chǔ)。
深度感知"鏡片"則負(fù)責(zé)構(gòu)建場(chǎng)景的三維結(jié)構(gòu)。它會(huì)為圖片中的每個(gè)像素分配一個(gè)深度值,生成類(lèi)似于地形圖的深度圖。在這張"地形圖"中,不同的顏色或亮度代表不同的距離,近處的物體顯示為高地,遠(yuǎn)處的物體顯示為低地。通過(guò)這種方式,AI能夠理解場(chǎng)景的立體結(jié)構(gòu),判斷物體之間的前后關(guān)系。
研究團(tuán)隊(duì)在實(shí)現(xiàn)這兩個(gè)功能時(shí)采用了一種巧妙的"標(biāo)記化"策略。他們將復(fù)雜的分割圖和深度圖轉(zhuǎn)換成特殊的標(biāo)記序列,就像把圖片信息"翻譯"成AI能夠理解的特殊語(yǔ)言。這些標(biāo)記被直接嵌入到AI的文字生成過(guò)程中,形成了"分割標(biāo)記-深度標(biāo)記-文字回答"的特殊序列。
這種設(shè)計(jì)的精妙之處在于它遵循了人類(lèi)視覺(jué)認(rèn)知的自然規(guī)律。當(dāng)人們看到一個(gè)復(fù)雜場(chǎng)景并被問(wèn)及相關(guān)問(wèn)題時(shí),大腦會(huì)首先快速分析場(chǎng)景結(jié)構(gòu),識(shí)別物體輪廓,感知空間關(guān)系,然后基于這些感知信息來(lái)組織語(yǔ)言回答。Perceptio正是模擬了這個(gè)過(guò)程,讓AI在回答問(wèn)題之前先"看清楚"場(chǎng)景的詳細(xì)結(jié)構(gòu)。
三、深度信息的"數(shù)字化翻譯"
將連續(xù)的深度信息轉(zhuǎn)換成AI能理解的離散標(biāo)記,這個(gè)過(guò)程就像把一幅連續(xù)色彩的油畫(huà)轉(zhuǎn)換成像素畫(huà)一樣。研究團(tuán)隊(duì)采用了一種叫做VQ-VAE(矢量量化變分自編碼器)的技術(shù)來(lái)完成這個(gè)"翻譯"工作。
這個(gè)翻譯過(guò)程分為幾個(gè)步驟。首先,研究團(tuán)隊(duì)使用專(zhuān)門(mén)的深度估計(jì)模型為每張訓(xùn)練圖片生成高質(zhì)量的深度圖。這些深度圖就像是場(chǎng)景的"等高線地圖",準(zhǔn)確記錄了每個(gè)位置到相機(jī)的距離。然后,VQ-VAE會(huì)學(xué)習(xí)將這些連續(xù)的深度值"打包"成一本特殊的"詞典",這本詞典包含128個(gè)不同的深度"詞匯",每個(gè)詞匯代表一種特定的深度模式。
當(dāng)AI需要描述一個(gè)場(chǎng)景的深度信息時(shí),它會(huì)將深度圖分割成若干小塊,每個(gè)小塊都用詞典中最合適的"詞匯"來(lái)表示。這就像用有限的顏色塊來(lái)拼出一幅復(fù)雜的馬賽克畫(huà)一樣。雖然丟失了一些連續(xù)性的細(xì)節(jié),但保留了足夠的信息來(lái)重構(gòu)出原始深度圖的主要結(jié)構(gòu)。
為了讓這個(gè)翻譯過(guò)程更加穩(wěn)定可靠,研究團(tuán)隊(duì)設(shè)計(jì)了三個(gè)特殊的訓(xùn)練目標(biāo)。第一個(gè)叫做"標(biāo)記損失",確保AI生成正確的深度標(biāo)記序列。第二個(gè)是"計(jì)數(shù)損失",保證生成的標(biāo)記數(shù)量符合預(yù)期。第三個(gè)是"定位損失",確保深度標(biāo)記出現(xiàn)在序列中的正確位置。這三個(gè)目標(biāo)就像三個(gè)嚴(yán)格的老師,從不同角度監(jiān)督AI學(xué)習(xí)正確的深度表達(dá)方式。
研究團(tuán)隊(duì)還創(chuàng)新性地引入了"軟融合"技術(shù)來(lái)解決訓(xùn)練過(guò)程中的一個(gè)技術(shù)難題。在傳統(tǒng)方法中,從連續(xù)深度圖到離散標(biāo)記的轉(zhuǎn)換過(guò)程是不可微分的,這意味著訓(xùn)練信號(hào)無(wú)法有效地傳遞回去改進(jìn)模型。軟融合技術(shù)通過(guò)計(jì)算加權(quán)平均的方式,讓這個(gè)轉(zhuǎn)換過(guò)程變得平滑可微,從而實(shí)現(xiàn)了端到端的訓(xùn)練優(yōu)化。
四、多任務(wù)協(xié)同訓(xùn)練的智慧
Perceptio的訓(xùn)練過(guò)程就像培養(yǎng)一個(gè)全能型選手,需要在多個(gè)不同領(lǐng)域同時(shí)練習(xí)并達(dá)到專(zhuān)業(yè)水準(zhǔn)。研究團(tuán)隊(duì)設(shè)計(jì)了一套多任務(wù)協(xié)同訓(xùn)練策略,讓AI同時(shí)學(xué)習(xí)語(yǔ)言理解、物體分割和深度感知三項(xiàng)核心技能。
這種訓(xùn)練方式的挑戰(zhàn)在于平衡不同任務(wù)的重要性。研究團(tuán)隊(duì)為每個(gè)任務(wù)設(shè)定了不同的權(quán)重,就像調(diào)配營(yíng)養(yǎng)餐一樣精心搭配各種"營(yíng)養(yǎng)元素"。語(yǔ)言生成任務(wù)作為基礎(chǔ)能力保持較高權(quán)重,而分割和深度任務(wù)的權(quán)重則根據(jù)實(shí)驗(yàn)結(jié)果精心調(diào)節(jié)。最終的配方是:語(yǔ)言損失權(quán)重為1.0,分割重建損失權(quán)重為1.0,深度標(biāo)記損失權(quán)重為1.0,深度重建損失權(quán)重也為1.0。
訓(xùn)練數(shù)據(jù)的準(zhǔn)備工作同樣精細(xì)入微。研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含110萬(wàn)樣本的綜合數(shù)據(jù)集,這個(gè)數(shù)據(jù)集就像一個(gè)豐富的"經(jīng)驗(yàn)庫(kù)",涵蓋了各種不同類(lèi)型的視覺(jué)推理任務(wù)。其中包括66.5萬(wàn)個(gè)來(lái)自LLaVA-1.5的圖像問(wèn)答對(duì)話樣本,21.4萬(wàn)個(gè)用于圖像級(jí)文本驅(qū)動(dòng)分割的對(duì)話生成樣本,還有6萬(wàn)個(gè)專(zhuān)門(mén)的感知標(biāo)記數(shù)據(jù)集樣本。此外,團(tuán)隊(duì)還特別制作了5.6萬(wàn)個(gè)結(jié)合了分割、深度和文本的聯(lián)合數(shù)據(jù)集樣本。
在這個(gè)聯(lián)合數(shù)據(jù)集中,每個(gè)樣本都包含完整的"感知鏈條":原始圖片、對(duì)應(yīng)的分割掩碼、深度信息和自然語(yǔ)言描述。這樣的設(shè)計(jì)讓AI能夠?qū)W習(xí)到這些不同模態(tài)信息之間的內(nèi)在聯(lián)系,理解它們是如何相互支撐、共同構(gòu)成完整視覺(jué)理解的。
訓(xùn)練硬件配置也體現(xiàn)了這項(xiàng)研究的規(guī)模和復(fù)雜性。整個(gè)訓(xùn)練過(guò)程在64塊NVIDIA A100 GPU上進(jìn)行,持續(xù)約24小時(shí)。研究團(tuán)隊(duì)采用了AdamW優(yōu)化器,學(xué)習(xí)率設(shè)置為4×10??,有效批次大小為512。這些參數(shù)經(jīng)過(guò)精心調(diào)試,確保模型能夠穩(wěn)定地同時(shí)學(xué)習(xí)多個(gè)復(fù)雜任務(wù)。
五、令人矚目的性能突破
Perceptio在各項(xiàng)測(cè)試中的表現(xiàn)就像一個(gè)突然開(kāi)竅的學(xué)生,在多個(gè)維度都實(shí)現(xiàn)了顯著提升。在最具挑戰(zhàn)性的referring expression segmentation(指稱(chēng)表達(dá)分割)任務(wù)中,Perceptio-8B模型在RefCOCO、RefCOCO+和RefCOCOg三個(gè)數(shù)據(jù)集上分別達(dá)到了82.7%、77.9%和80.0%的cIoU得分,相比之前的最佳模型Sa2VA-8B分別提升了1.1、1.7和1.3個(gè)百分點(diǎn)。
這種提升的意義可以通過(guò)一個(gè)具體場(chǎng)景來(lái)理解:當(dāng)你指著一張復(fù)雜的街道照片說(shuō)"找出右邊穿紅衣服的那個(gè)人"時(shí),Perceptio能夠更準(zhǔn)確地定位并勾勒出該人物的精確輪廓。這種精確性的提升在實(shí)際應(yīng)用中意味著更好的用戶(hù)體驗(yàn)和更可靠的系統(tǒng)性能。
在空間推理能力方面,Perceptio的表現(xiàn)更是令人印象深刻。在HardBLINK的相對(duì)深度判斷任務(wù)中,當(dāng)面對(duì)包含3個(gè)、4個(gè)和5個(gè)標(biāo)記點(diǎn)的復(fù)雜場(chǎng)景時(shí),Perceptio-8B分別達(dá)到了75.8%、71.0%和66.1%的準(zhǔn)確率,平均準(zhǔn)確率為71.0%。這相比之前的最佳模型LLaVA-Aurora提升了8.9、10.5和11.3個(gè)百分點(diǎn),平均提升達(dá)到了10.3個(gè)百分點(diǎn)。這種大幅提升表明,顯式的深度感知確實(shí)為空間推理帶來(lái)了根本性改善。
在通用視覺(jué)語(yǔ)言理解任務(wù)上,Perceptio也保持了優(yōu)秀表現(xiàn)。在MME基準(zhǔn)測(cè)試中,Perceptio-8B在感知和認(rèn)知兩個(gè)維度分別獲得了1654和628分的成績(jī)。在MMBench測(cè)試中達(dá)到了83.4%的準(zhǔn)確率,在SEED-Bench中獲得75.7%的分?jǐn)?shù)。這些結(jié)果表明,增加感知能力并沒(méi)有以犧牲原有語(yǔ)言理解能力為代價(jià),反而在某種程度上增強(qiáng)了模型的綜合表現(xiàn)。
特別值得一提的是,Perceptio-4B這個(gè)較小的變體同樣表現(xiàn)出色,在多個(gè)測(cè)試中的成績(jī)甚至超過(guò)了一些更大參數(shù)量的競(jìng)爭(zhēng)模型。這表明Perceptio的架構(gòu)設(shè)計(jì)是高效的,不僅能在大模型中發(fā)揮作用,也能在資源受限的環(huán)境中提供良好性能。
六、創(chuàng)新方法的深入剖析
Perceptio的技術(shù)創(chuàng)新可以比作一套精密的視覺(jué)處理流水線。當(dāng)一張圖片進(jìn)入系統(tǒng)時(shí),它會(huì)被分發(fā)到三個(gè)并行的處理通道:標(biāo)準(zhǔn)的圖像編碼通道、專(zhuān)門(mén)的分割感知通道和深度量化通道。這三個(gè)通道就像三個(gè)專(zhuān)業(yè)的技師,各自負(fù)責(zé)提取不同類(lèi)型的視覺(jué)信息。
標(biāo)準(zhǔn)圖像編碼通道負(fù)責(zé)提取語(yǔ)義外觀特征,這些特征包含了物體的類(lèi)別、顏色、紋理等基本視覺(jué)屬性。分割感知通道則使用凍結(jié)的SAM編碼器來(lái)生成分割感知的表示,這些表示特別擅長(zhǎng)捕捉物體邊界和形狀信息。深度量化通道利用預(yù)訓(xùn)練的VQ-VAE編碼器將圖片轉(zhuǎn)換成離散的深度標(biāo)記序列。
這三路信息最終匯聚到核心的大語(yǔ)言模型中,形成一個(gè)統(tǒng)一的多模態(tài)表示。語(yǔ)言模型學(xué)會(huì)了如何協(xié)調(diào)使用這些不同類(lèi)型的信息,在生成回答時(shí)首先輸出特殊的感知控制標(biāo)記,然后基于這些"內(nèi)部感知"來(lái)生成最終的文字回答。
損失函數(shù)的設(shè)計(jì)體現(xiàn)了研究團(tuán)隊(duì)的深思熟慮。除了標(biāo)準(zhǔn)的語(yǔ)言建模損失外,系統(tǒng)還包含了分割重建損失和一套創(chuàng)新的深度損失函數(shù)。深度損失函數(shù)由三個(gè)組成部分:標(biāo)記損失確保正確的深度標(biāo)記被生成,計(jì)數(shù)損失保證標(biāo)記序列長(zhǎng)度的一致性,定位損失確保標(biāo)記出現(xiàn)在正確的位置。這種多重約束的設(shè)計(jì)就像給AI安裝了多個(gè)"質(zhì)量檢查員",從不同角度確保輸出的質(zhì)量。
軟重建技術(shù)是另一個(gè)重要?jiǎng)?chuàng)新。傳統(tǒng)的離散化過(guò)程會(huì)阻斷梯度傳播,使得端到端訓(xùn)練變得困難。研究團(tuán)隊(duì)通過(guò)加權(quán)平均的方式創(chuàng)造了一個(gè)可微分的"軟"重建過(guò)程,讓訓(xùn)練信號(hào)能夠有效地從最終的深度重建損失傳播回語(yǔ)言模型的參數(shù)。這種技術(shù)細(xì)節(jié)的創(chuàng)新雖然看似微小,卻是實(shí)現(xiàn)整個(gè)系統(tǒng)有效訓(xùn)練的關(guān)鍵。
七、全面的實(shí)驗(yàn)驗(yàn)證與分析
研究團(tuán)隊(duì)進(jìn)行了詳盡的消融實(shí)驗(yàn)來(lái)驗(yàn)證每個(gè)設(shè)計(jì)組件的作用。這些實(shí)驗(yàn)就像拆解一臺(tái)精密機(jī)器,逐一檢驗(yàn)每個(gè)零件的功能和重要性。
首先,團(tuán)隊(duì)驗(yàn)證了雙重感知能力的必要性。當(dāng)移除深度感知功能只保留2D分割時(shí),模型在HardBLINK深度推理任務(wù)上的平均準(zhǔn)確率從71.0%暴跌到45.2%,下降了25.8個(gè)百分點(diǎn)。這個(gè)巨大的性能落差清楚地表明,3D深度信息對(duì)于空間推理確實(shí)至關(guān)重要。
相反,當(dāng)移除分割功能只保留3D深度感知時(shí),模型在通用VQA任務(wù)上的表現(xiàn)出現(xiàn)了普遍下降:MME得分從1654/628下降到1620/585,MMBench準(zhǔn)確率下降了1.6個(gè)百分點(diǎn),SEED-Bench得分下降了2.3個(gè)百分點(diǎn)。這表明2D語(yǔ)義分割信息對(duì)于全面的視覺(jué)理解同樣不可或缺。
損失函數(shù)組件的消融實(shí)驗(yàn)進(jìn)一步證實(shí)了設(shè)計(jì)的合理性。移除深度重建損失后,MME得分下降到1625/613,MMBench準(zhǔn)確率降至81.9%。移除深度標(biāo)記生成損失時(shí),MMBench準(zhǔn)確率下降到82.4%,SEED-Bench得分從75.7%降至74.3%。這些結(jié)果表明,每個(gè)損失組件都在系統(tǒng)的整體性能中發(fā)揮著重要作用。
有趣的是,實(shí)驗(yàn)還揭示了一個(gè)優(yōu)化權(quán)衡的現(xiàn)象。當(dāng)移除深度標(biāo)記時(shí),某些通用VQA指標(biāo)實(shí)際上出現(xiàn)了輕微提升(如MMBench提升0.4%)。這表明深度標(biāo)記生成與純文本任務(wù)之間存在一定的優(yōu)化競(jìng)爭(zhēng)。不過(guò),考慮到深度感知帶來(lái)的巨大空間推理優(yōu)勢(shì),這種微小的通用任務(wù)性能波動(dòng)是完全可以接受的。
推理效率的測(cè)試顯示,盡管Perceptio需要生成額外的感知標(biāo)記,但實(shí)際的計(jì)算開(kāi)銷(xiāo)極其有限。在密集標(biāo)題生成任務(wù)中,Perceptio-8B每100個(gè)標(biāo)記的生成時(shí)間為3.52秒,與Sa2VA-8B的3.53秒幾乎相同。浮點(diǎn)運(yùn)算量對(duì)比也顯示了類(lèi)似的結(jié)果(4.06T vs 4.66T FLOPs)。這意味著性能提升是通過(guò)更好的架構(gòu)設(shè)計(jì)而非更多的計(jì)算資源實(shí)現(xiàn)的。
八、實(shí)際應(yīng)用場(chǎng)景的廣闊前景
Perceptio的技術(shù)突破為多個(gè)實(shí)際應(yīng)用領(lǐng)域打開(kāi)了新的可能性。在自動(dòng)駕駛領(lǐng)域,這種增強(qiáng)的空間感知能力可以幫助AI更準(zhǔn)確地判斷道路上各種物體的距離和位置關(guān)系,從而做出更安全的駕駛決策。當(dāng)AI能夠精確區(qū)分前方是一個(gè)真實(shí)的行人還是廣告牌上的人像時(shí),這對(duì)行車(chē)安全的意義是不言而喻的。
在機(jī)器人導(dǎo)航和操作任務(wù)中,Perceptio的能力同樣具有重要價(jià)值。家用服務(wù)機(jī)器人需要準(zhǔn)確理解家居環(huán)境中物體的空間排列,才能安全有效地完成諸如整理房間、端茶送水等任務(wù)。有了精確的深度感知和物體分割能力,機(jī)器人就能更好地規(guī)劃路徑,避免碰撞,并精確操作各種物品。
在增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)應(yīng)用中,Perceptio技術(shù)可以實(shí)現(xiàn)更自然的人機(jī)交互。用戶(hù)可以通過(guò)自然語(yǔ)言描述來(lái)選擇和操作虛擬環(huán)境中的特定物體,而AI能夠準(zhǔn)確理解用戶(hù)的意圖并定位到相應(yīng)的虛擬物品。這種精確的空間理解能力將使AR/VR體驗(yàn)變得更加直觀和沉浸。
醫(yī)療影像分析是另一個(gè)潛在的應(yīng)用領(lǐng)域。雖然醫(yī)療影像通常需要專(zhuān)門(mén)的訓(xùn)練,但Perceptio展示的空間推理能力為開(kāi)發(fā)更智能的醫(yī)療AI助手提供了新思路。能夠準(zhǔn)確分割和定位病灶區(qū)域的AI系統(tǒng)將為醫(yī)生提供更有價(jià)值的診斷支持。
在電商和零售領(lǐng)域,這種技術(shù)可以改善商品搜索和推薦體驗(yàn)。消費(fèi)者可以上傳一張包含多個(gè)物品的照片,然后用自然語(yǔ)言描述想要購(gòu)買(mǎi)的特定物品,AI就能準(zhǔn)確識(shí)別和定位目標(biāo)商品。這種精確的視覺(jué)理解能力將使購(gòu)物體驗(yàn)變得更加便捷。
九、技術(shù)局限與未來(lái)發(fā)展方向
盡管Perceptio取得了顯著進(jìn)展,但研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前方法的一些局限性。最明顯的是在優(yōu)化權(quán)衡方面,深度標(biāo)記生成與純文本任務(wù)之間存在輕微的競(jìng)爭(zhēng)關(guān)系。這表明在多任務(wù)學(xué)習(xí)中仍需要更精細(xì)的平衡策略,可能需要開(kāi)發(fā)任務(wù)自適應(yīng)的課程學(xué)習(xí)方法來(lái)解決這個(gè)問(wèn)題。
當(dāng)前的系統(tǒng)架構(gòu)還局限于靜態(tài)圖像處理,尚未擴(kuò)展到視頻理解領(lǐng)域。在視頻場(chǎng)景中,時(shí)間一致性的深度標(biāo)記和物體跟蹤將帶來(lái)新的技術(shù)挑戰(zhàn)。如何在保持空間精度的同時(shí)處理時(shí)間維度的復(fù)雜性,是一個(gè)值得深入探索的研究方向。
另一個(gè)重要局限是對(duì)教師模型的依賴(lài)。Perceptio目前依賴(lài)于凍結(jié)的專(zhuān)業(yè)教師模型(Depth Anything V2和SAM2),這些模型的誤差會(huì)傳播到學(xué)生模型中。開(kāi)發(fā)更魯棒的學(xué)習(xí)策略來(lái)應(yīng)對(duì)教師模型的噪聲,是提高系統(tǒng)實(shí)用性的關(guān)鍵。
在更廣闊的視角下,這項(xiàng)研究也啟發(fā)了關(guān)于通用空間智能的思考。未來(lái)的發(fā)展方向可能包括將感知標(biāo)記擴(kuò)展到編碼表面法線、光流等更豐富的空間信息,朝著統(tǒng)一的空間智能框架發(fā)展。這種框架將能夠在單一的自回歸框架內(nèi)處理各種空間推理任務(wù)。
計(jì)算效率的進(jìn)一步優(yōu)化也是一個(gè)重要方向。雖然當(dāng)前的額外計(jì)算開(kāi)銷(xiāo)很小,但在大規(guī)模部署時(shí),任何效率提升都具有重要意義。研究團(tuán)隊(duì)提到了任務(wù)自適應(yīng)課程學(xué)習(xí)的可能性,這種方法可能在保持性能的同時(shí)進(jìn)一步提高訓(xùn)練效率。
最后,如何將這種顯式的空間感知能力與更廣泛的常識(shí)推理相結(jié)合,仍然是一個(gè)開(kāi)放的研究問(wèn)題。真正的視覺(jué)智能不僅需要精確的感知能力,還需要理解物體之間的物理關(guān)系、功能關(guān)系和因果關(guān)系。
說(shuō)到底,Perceptio的出現(xiàn)標(biāo)志著AI視覺(jué)理解領(lǐng)域的一個(gè)重要里程碑。它首次成功地將2D語(yǔ)義分割和3D深度感知統(tǒng)一到了單一的自回歸語(yǔ)言模型中,讓AI獲得了更接近人類(lèi)的視覺(jué)認(rèn)知能力。這種"先感知,后推理"的設(shè)計(jì)理念不僅帶來(lái)了實(shí)質(zhì)性的性能提升,更重要的是為構(gòu)建真正智能的視覺(jué)系統(tǒng)指明了方向。
雖然還存在一些局限性,但這項(xiàng)研究已經(jīng)證明了顯式空間感知對(duì)于視覺(jué)語(yǔ)言模型的重要性。隨著技術(shù)的不斷發(fā)展和完善,我們有理由期待看到更多能夠真正理解三維世界的AI系統(tǒng)出現(xiàn)。這些系統(tǒng)將不僅能夠看到世界的表面,更能夠理解世界的深層結(jié)構(gòu),從而為人類(lèi)提供更智能、更可靠的視覺(jué)AI服務(wù)。對(duì)于有興趣深入了解技術(shù)細(xì)節(jié)的讀者,建議查閱完整的論文原文,論文編號(hào)為arXiv:2603.18795v1。
Q&A
Q1:Perceptio和傳統(tǒng)AI視覺(jué)模型有什么不同?
A:傳統(tǒng)AI視覺(jué)模型只能識(shí)別圖片中的物體類(lèi)別,就像只能回答"這是什么"的問(wèn)題。而Perceptio能同時(shí)理解"是什么"和"在哪里",它會(huì)先生成物體輪廓和深度信息的特殊標(biāo)記,然后基于這些空間感知來(lái)回答問(wèn)題,就像給AI裝上了立體眼鏡。
Q2:Perceptio的深度感知能力有多準(zhǔn)確?
A:在HardBLINK空間推理測(cè)試中,Perceptio-8B達(dá)到了71.0%的平均準(zhǔn)確率,相比之前最好的模型提升了10.3個(gè)百分點(diǎn)。這意味著它能正確判斷照片中哪個(gè)物體離相機(jī)更近的概率超過(guò)70%,這是一個(gè)顯著的突破。
Q3:Perceptio技術(shù)什么時(shí)候能應(yīng)用到實(shí)際產(chǎn)品中?
A:目前Perceptio還在研究階段,但其技術(shù)原理已經(jīng)為多個(gè)應(yīng)用領(lǐng)域指明了方向,包括自動(dòng)駕駛中的距離判斷、機(jī)器人導(dǎo)航、增強(qiáng)現(xiàn)實(shí)交互等。具體的產(chǎn)品化時(shí)間表還需要看后續(xù)的工程化進(jìn)展和計(jì)算資源優(yōu)化情況。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.