![]()
![]()
圖1:給定任意動(dòng)態(tài)視頻,DROID-W 能夠估計(jì)準(zhǔn)確的動(dòng)態(tài)點(diǎn)云,相機(jī)位姿,以及動(dòng)態(tài)不確定性。
![]()
- 論文標(biāo)題:DROID-SLAM in the Wild
- 論文:https://arxiv.org/pdf/2603.19076
- 項(xiàng)目主頁:https://moyangli00.github.io/droid-w
- 代碼:https://github.com/MoyangLi00/DROID-W
- 數(shù)據(jù)集:https://cvg-data.inf.ethz.ch/DROID-W
- 作者單位:蘇黎世聯(lián)邦理工,微軟
SLAM 在自動(dòng)駕駛、機(jī)器人、AR/VR 乃至具身智能系統(tǒng)中都是至關(guān)重要的環(huán)節(jié),它決定了算法能否在一個(gè)陌生環(huán)境中一邊“看懂世界”,一邊“知道自己在哪”。
最近,蘇黎世聯(lián)邦理工與微軟的研究團(tuán)隊(duì)提出了 DROID-W:一種基于動(dòng)態(tài)不確定性感知的稠密可微 Bundle Adjustment(BA)的動(dòng)態(tài) SLAM 框架。該工作在 RTX 5090 上可以達(dá)到 ~30 FPS 的實(shí)時(shí)性能,即將正式發(fā)表于 CVPR 2026。并且,該工作提出的動(dòng)態(tài)不確定性感知模塊可以即插即用地應(yīng)用到多種 SLAM 框架中,有效提升其在真實(shí)動(dòng)態(tài)環(huán)境中的性能。
傳統(tǒng) SLAM 困境:為什么現(xiàn)有方法不通用
傳統(tǒng) SLAM 系統(tǒng)大都基于靜態(tài)場景的假設(shè),然而在真實(shí)世界中,行人穿梭、車輛駛過、樹影晃動(dòng)、反光玻璃……這些看似再日常不過的因素,都會(huì)打破“靜態(tài)場景”假設(shè),進(jìn)而導(dǎo)致嚴(yán)重的跟蹤漂移,建圖錯(cuò)誤。過去的動(dòng)態(tài) SLAM 系統(tǒng)往往依賴于動(dòng)態(tài)物體語意分割 / 檢測等先驗(yàn)移除動(dòng)態(tài)物體,但需提前預(yù)知?jiǎng)討B(tài)物體類別,嚴(yán)重限制了其在真實(shí)物理世界的廣泛應(yīng)用。基于不確定性感知的動(dòng)態(tài) SLAM 方案 WildGS-SLAM 依賴于高質(zhì)量的動(dòng)態(tài)場景高斯建圖來估計(jì)動(dòng)態(tài)不確定性,但真實(shí)環(huán)境中的建圖面臨巨大挑戰(zhàn),嚴(yán)重限制了其性能。
與很多依賴預(yù)定義動(dòng)態(tài)類別、語義分割先驗(yàn)或靜態(tài)場景建圖的方法不同,DROID-W 選擇了一條更“底層”的路線:不去預(yù)設(shè)什么東西會(huì)動(dòng),不需要建立高質(zhì)量靜態(tài)場景,而是讓系統(tǒng)自己從多視角觀測中識(shí)別哪些區(qū)域不可靠,并在優(yōu)化時(shí)自動(dòng)降低這些區(qū)域的影響。真正實(shí)現(xiàn)了讓單目 SLAM 系統(tǒng)適用于“隨手拍”的真實(shí)動(dòng)態(tài)場景。
讓不確定性進(jìn)入 BA,動(dòng)態(tài)區(qū)域不再“拖后腿”
![]()
圖2: DROID-W 系統(tǒng)架構(gòu)。系統(tǒng)從序列輸入的圖片中首先選擇關(guān)鍵幀,用于提取 DINO 特征,DROID 特征并估計(jì)單目深度圖。DROID 特征繼而被送入 ConvGRU 估計(jì)對應(yīng)像素,基于 BA 優(yōu)化相機(jī)位姿和深度。DINO 特征和優(yōu)化后的位姿,深度被用于優(yōu)化像素級(jí)動(dòng)態(tài)不確定性。兩優(yōu)化交替進(jìn)行,最終輸出動(dòng)態(tài)點(diǎn)云和準(zhǔn)確的相機(jī)軌跡。
DROID-SLAM 是經(jīng)典的將深度學(xué)習(xí)與優(yōu)化優(yōu)雅結(jié)合的 SLAM 框架,其通過稠密可微 BA 持續(xù)更新相機(jī)位姿和場景結(jié)構(gòu)。但在動(dòng)態(tài)場景里,傳統(tǒng) BA 默認(rèn)的剛體運(yùn)動(dòng)關(guān)系被打破,錯(cuò)誤殘差會(huì)嚴(yán)重影響擾亂優(yōu)化方向與準(zhǔn)確性。
基于此,DROID-W 的關(guān)鍵改進(jìn),就是把“動(dòng)態(tài)帶來的不可靠性”顯式建模為逐像素的動(dòng)態(tài)不確定性。DROID-W 通過度量幀與幀之間的 DINO 特征相似度來衡量物體運(yùn)動(dòng)的動(dòng)態(tài)不確定性。這些高不確定區(qū)域的殘差項(xiàng)在 BA 優(yōu)化中會(huì)被自動(dòng)抑制,從而減少動(dòng)態(tài)干擾對相機(jī)軌跡和幾何結(jié)構(gòu)估計(jì)的影響。但是位姿,深度,動(dòng)態(tài)不確定性的大規(guī)模聯(lián)合 Gauss-Newton 優(yōu)化會(huì)帶來高昂的計(jì)算成本,不適用于在線系統(tǒng)。為此,作者提出了交替優(yōu)化的解決方案。系統(tǒng)一邊執(zhí)行位姿與深度的優(yōu)化,一邊根據(jù)多視角視覺特征的一致性迭代更新動(dòng)態(tài)不確定性。
不靠“先驗(yàn)名單”,
而是讓模型自己發(fā)現(xiàn)動(dòng)態(tài)干擾
過去不少動(dòng)態(tài) SLAM 方法的思路,是先識(shí)別“可能運(yùn)動(dòng)的東西”再把它們 mask 掉,比如人、車、寵物等。但這種做法天然依賴類別先驗(yàn):當(dāng)場景中出現(xiàn)未知?jiǎng)討B(tài)物體、非剛體運(yùn)動(dòng)、局部遮擋或強(qiáng)反光區(qū)域時(shí),系統(tǒng)往往就不夠穩(wěn)了。DROID-W 則更強(qiáng)調(diào)觀測一致性本身。
論文中,研究者借助 DINO 特征來衡量跨視角的一致性,并通過一個(gè)局部仿射映射加 Softplus 激活,把這些特征轉(zhuǎn)化為連續(xù)的不確定性估計(jì)。相比把動(dòng)態(tài)直接做成硬分割 mask,這種連續(xù)表達(dá)更細(xì)膩:它不只是告訴系統(tǒng)“哪里不能看”,而是進(jìn)一步告訴系統(tǒng)“哪里該少信一點(diǎn),哪里可以多信一點(diǎn)”。 這帶來一個(gè)很重要的好處:系統(tǒng)不會(huì)因?yàn)閳鼍袄镉袆?dòng)態(tài)物體,就粗暴地把整塊區(qū)域全部丟掉。當(dāng)一個(gè)物體只有局部在動(dòng),或者重新靜止下來時(shí),DROID-W 仍然有機(jī)會(huì)利用其中可靠的信息繼續(xù)跟蹤。這種“軟抑制”策略,比一刀切的動(dòng)態(tài) masking 更適合真實(shí)世界。
不只是改方法,還做了更“野”的測試集
![]()
圖3: DROID-W 數(shù)據(jù)集實(shí)例。
為了驗(yàn)證方法是否真的適用于真實(shí)場景,作者并沒有把實(shí)驗(yàn)局限在常見的室內(nèi)動(dòng)態(tài)數(shù)據(jù)集上。除了 Bonn、TUM 和 DyCheck 這些常用數(shù)據(jù)集外,論文還引入了新的 DROID-W 數(shù)據(jù)集:這是一組更偏室外、更加開放、也更接近真實(shí)拍攝條件的數(shù)據(jù),包含 7 段 Downtown 序列,并配有 RTK 支持的真值軌跡。DROID-W 數(shù)據(jù)集包含高動(dòng)態(tài)場景、圖像過曝、鏡面反射、太陽光暈等高難度片段,很好的模擬了真實(shí)野外環(huán)境中的復(fù)雜場景。除此之外,作者還進(jìn)一步測試了多段來自 YouTube 的動(dòng)態(tài)視頻片段,用來評估系統(tǒng)在真正“in-the-wild”視頻中的通用性與魯棒性。
實(shí)驗(yàn)結(jié)果
DROID-W 在多個(gè)動(dòng)態(tài)數(shù)據(jù)集上都取得了最優(yōu)的表現(xiàn)。作者指出,在 Bonn、TUM、DyCheck 等數(shù)據(jù)集上,方法依靠更穩(wěn)定的不確定性估計(jì),在高動(dòng)態(tài)序列中明顯優(yōu)于原始 DROID-SLAM,也優(yōu)于多種現(xiàn)有動(dòng)態(tài) SLAM 方法。 尤其值得注意的是在作者新提出的 DROID-W Dataset --更大尺度、更偏真實(shí)世界的室外動(dòng)態(tài)數(shù)據(jù)集--作者提出的方法在該數(shù)據(jù)集上平均軌跡誤差僅為 23 厘米,而 DROID-SLAM 誤差卻為 1.46 米。
![]()
圖4:動(dòng)態(tài)不確定性估計(jì)定性對比。第一行:輸入的視頻幀;其余行:基線方法與 DROID-W 的對比。DROID-W 能夠在各種場景下輸出準(zhǔn)確可靠的動(dòng)態(tài)不確定性。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.