![]()
機器之心編輯部
做深度估計、深度補全的人,大概都有過這樣一個瞬間。
模型在 NYU Depth V2 這樣的經(jīng)典 benchmark 上跑出了漂亮的分數(shù),指標也足夠好看。可一旦把同一個模型部署到真實機器人上,問題立刻暴露出來:深度圖邊緣發(fā)糊、遠處漂移,遇到反光材質(zhì)幾乎直接失效。
你第一反應(yīng)往往是實現(xiàn)出了 bug,于是從代碼到訓(xùn)練流程排查一遍。可最終你會發(fā)現(xiàn),代碼沒問題。
問題出在數(shù)據(jù)。
其實,這不是個例,而是這個方向長期存在的困境之一。
深度估計和深度補全的學術(shù)進展,在某種程度上是被數(shù)據(jù)集的天花板壓著走的。過去十幾年,社區(qū)高度依賴幾個經(jīng)典數(shù)據(jù)集:NYU Depth V2 以公寓和辦公室場景為主,室內(nèi)覆蓋有限;KITTI 面向自動駕駛,室外道路場景扎實,但對具身智能幾乎沒有直接用處;ScanNet 在室內(nèi)重建方向貢獻巨大,但它的幀序列格式并非為配對深度訓(xùn)練設(shè)計;ETH3D、DIML 各有側(cè)重,規(guī)模都不足以支撐當下大模型時代的訓(xùn)練需求。
雖然現(xiàn)在有合成數(shù)據(jù)集可以填補數(shù)據(jù)短缺問題,但合成數(shù)據(jù)在渲染材質(zhì)和真實場景之間有一道肉眼可辨的鴻溝。模型在合成數(shù)據(jù)上學到的深度先驗,遇到真實世界的反光金屬、透明玻璃、復(fù)雜紋理,往往直接崩壞。
這道鴻溝,沒有大規(guī)模真實數(shù)據(jù),系統(tǒng)性的解法很難實現(xiàn)。直到 3 月底,這個局面終于出現(xiàn)了松動。
螞蟻靈波完成了一件在這個領(lǐng)域久違的動作:一次性開源約 300 萬對高質(zhì)量 RGB - 深度數(shù)據(jù) ——LingBot-Depth-Dataset。每條樣本同時包含 RGB 圖像、傳感器原始深度以及對應(yīng)的真值深度,為訓(xùn)練提供了完整的對照信號。
整個數(shù)據(jù)集規(guī)模達到2.71TB,其中包括約200 萬對真實采集的 RGB-D 數(shù)據(jù)和 100 萬對高質(zhì)量渲染數(shù)據(jù);在真實數(shù)據(jù)部分,覆蓋了 Orbbec 335、335L,RealSense D405、D415、D435、D455 共6 款市場主流深度相機,以盡可能還原不同硬件條件下的真實感知分布。
該數(shù)據(jù)集以 CC BY-NC-SA 4.0 協(xié)議開源,允許學術(shù)與非商業(yè)場景下的自由使用與再創(chuàng)作。
![]()
- 魔搭社區(qū) ModelScope:https://modelscope.cn/datasets/Robbyant/LingBot-Depth-Dataset
- HuggingFace:https://huggingface.co/datasets/robbyant/mdm_depth
事實上,該數(shù)據(jù)集的有效性早已在模型層面得到驗證。螞蟻靈波在今年 1 月開源的具身智能感知模型 LingBot-Depth,正是基于這套數(shù)據(jù)訓(xùn)練而成的。
從實際效果來看,LingBot-Depth 可在不更換硬件的前提下顯著提升透明、反光等復(fù)雜材質(zhì)場景的深度輸出質(zhì)量,并且在深度精度和像素覆蓋率這兩項核心指標上,已經(jīng)全面優(yōu)于目前市面上頂尖的工業(yè)級 RGB-D 相機。
正是在這樣的前提下,螞蟻靈波選擇將這套數(shù)據(jù)完整開源,將內(nèi)部驗證過的數(shù)據(jù),向整個社區(qū)開放。
![]()
基于 LingBot-Depth-Dataset 數(shù)據(jù)集構(gòu)建的 LingBot-Depth,在傳統(tǒng)深度傳感器易失效的復(fù)雜場景中,仍可輸出具備真實尺度的高精度深度結(jié)果
LingBot-Depth 相關(guān)鏈接:
- Hugging Face:https://huggingface.co/robbyant/lingbot-depth
- ModelScope:https://modelscope.cn/models/robbyant/lingbot-depth
- Tech Report:https://arxiv.org/abs/2601.17895
為什么真實數(shù)據(jù)規(guī)模如此關(guān)鍵?
要理解 LingBot-Depth-Dataset 的價值,需要先理解真實采集的深度數(shù)據(jù)為什么難以獲得。
采集成本是第一道門檻。高質(zhì)量的 RGB-D 數(shù)據(jù)采集需要將 RGB 相機與深度傳感器進行時間同步和空間標定,標定精度直接影響深度圖與彩色圖的像素對齊質(zhì)量。大規(guī)模部署多臺設(shè)備、在多個場景下系統(tǒng)性采集,工程復(fù)雜度遠高于普通視頻采集。此外,不同場景(強光、弱光、反射表面、透明材質(zhì))對傳感器性能的影響差異顯著,需要針對性處理。
傳感器原始深度圖存在固有缺陷。結(jié)構(gòu)光和 ToF 傳感器采集到的原始深度圖通常包含大量無效像素(空洞),邊緣處存在飛點(flying pixels),在反射或透明表面上深度值失效。這意味著原始傳感器深度圖不能直接作為訓(xùn)練真值,需要額外的處理步驟來生成稠密、精確的真值深度圖,而這個處理本身就是一個有技術(shù)門檻的問題。
標注真值的獲取難度高。不同于圖像分類可以用人工標注、或者利用網(wǎng)絡(luò)弱監(jiān)督,深度真值必須依賴物理測量或精密的多傳感器融合。激光雷達可以提供高精度稀疏點云,但需要與相機精確標定和時間同步;結(jié)構(gòu)光系統(tǒng)精度有限且對光照敏感;立體匹配可以提供稠密深度但在紋理平坦區(qū)域容易失效。沒有哪種單一方案是完美的,大規(guī)模采集必須在精度、成本和覆蓋度之間做權(quán)衡。
版權(quán)與開放意愿是另一道隱性門檻。工業(yè)界在大規(guī)模數(shù)據(jù)采集上投入了大量資源,但數(shù)據(jù)往往被視為競爭護城河而非公共資源。許多團隊擁有規(guī)模可觀的內(nèi)部數(shù)據(jù)集,卻從未考慮開放。這造成了一種奇特的局面:學術(shù)界對數(shù)據(jù)的渴望與工業(yè)界對數(shù)據(jù)的占有之間存在巨大落差,而學術(shù)研究所依賴的數(shù)據(jù)集,往往是多年前某個團隊順手做的副產(chǎn)品。
正因為以上這些原因,大規(guī)模真實場景 RGB-D 數(shù)據(jù)集在開源社區(qū)中至今仍屬稀缺資源。
300 萬對 RGB-D:一次量級躍遷
螞蟻靈波一口氣開源 300 萬對 RGB-D 樣本,在當前開源社區(qū)中,這已是規(guī)模最大的真實場景 RGB-D 數(shù)據(jù)集之一。
整個數(shù)據(jù)集并不是簡單的數(shù)據(jù)堆疊,而是圍繞真實世界深度感知任務(wù),做了一次結(jié)構(gòu)化設(shè)計,由四個子集構(gòu)成:
RobbyReal:1,400,000 對多設(shè)備采集的真實室內(nèi)場景數(shù)據(jù),構(gòu)成了數(shù)據(jù)集的核心主體。
這部分數(shù)據(jù)覆蓋了 Orbbec 335、335L,RealSense D405、D415、D435、D455 共 6 款市場主流深度相機。這些設(shè)備在測距范圍、噪聲模式、邊緣表現(xiàn)以及對不同材質(zhì)的響應(yīng)上存在顯著差異。這一設(shè)計的意義在于:將跨設(shè)備差異提前引入訓(xùn)練分布。
傳統(tǒng)數(shù)據(jù)集往往綁定單一設(shè)備,模型在該設(shè)備上表現(xiàn)良好,但一旦遷移到其他硬件環(huán)境,性能會明顯下降。而 LingBot-Depth-Dataset 通過多設(shè)備數(shù)據(jù),讓模型在訓(xùn)練階段就接觸到不同傳感器特性,從而提升跨設(shè)備泛化能力。
對于需要實際部署在機器人、AR 設(shè)備或工業(yè)系統(tǒng)中的模型來說,這一點直接決定了其工程可用性。
![]()
RobbyReal數(shù)據(jù)集示例
RobbyVla:580,960 對數(shù)據(jù),來自機器人在視覺 - 語言 - 動作(VLA)操作任務(wù)執(zhí)行過程中的實際采集。
傳統(tǒng)深度數(shù)據(jù)集的采集邏輯是人拿著相機掃場景,視角自然、連續(xù),物體在中遠距離。而機器人操作任務(wù)的視角截然不同:拍攝目標物體時距離往往只有 20-50cm,物體邊緣的深度精度決定抓取成敗;桌面操作場景的光照復(fù)雜,金屬、玻璃、透明塑料等材質(zhì)的深度測量本身就是難點。
這些特性讓 RobbyVla 數(shù)據(jù)具備了現(xiàn)有數(shù)據(jù)集無法替代的價值:它是在真實具身任務(wù)約束下采集的深度數(shù)據(jù),場景分布與機器人學習任務(wù)高度對齊。對于想要訓(xùn)練空間感知能力服務(wù)于操作任務(wù)的研究者而言,這批數(shù)據(jù)可以直接減少分布外泛化的損耗。
![]()
RobbyVla數(shù)據(jù)集示例
RobbySim: 999,264 對仿真渲染數(shù)據(jù),基于雙相機視角生成。
單相機渲染容易引入系統(tǒng)性的視角偏差,雙相機設(shè)置在生成過程中引入了視差約束,生成的深度圖在幾何一致性上更可靠。
![]()
RobbySim數(shù)據(jù)集示例
RobbySimVal驗證集(38,976 對)則提供了標準化的仿真場景評估基準,便于研究者在不消耗真實數(shù)據(jù)的前提下快速評估模型在仿真域的表現(xiàn)。
![]()
RobbySimVal 驗證集示例
除了數(shù)量龐大,螞蟻靈波在數(shù)據(jù)集質(zhì)量上同樣設(shè)定了極高標準。從原始采集到真值構(gòu)建,LingBot-Depth-Dataset 并未簡單依賴傳感器輸出,而是對深度數(shù)據(jù)進行了系統(tǒng)化處理與校正。
每條樣本包含一張 RGB 圖像、傳感器原始深度圖以及真值深度圖
通過提供原始觀測 + 真值的完整對照信號,模型不僅可以學習深度預(yù)測,還可以學習如何從噪聲數(shù)據(jù)中恢復(fù)真實結(jié)構(gòu)。
同時,數(shù)據(jù)在標注過程中遵循統(tǒng)一規(guī)范,對精度和一致性進行了嚴格控制,避免了由于標簽噪聲帶來的訓(xùn)練偏差。這一點在深度學習中尤為關(guān)鍵,錯誤的深度標簽,往往比沒有標簽更具破壞性。
也正是在這樣的數(shù)量和質(zhì)量保障下,LingBot-Depth-Dataset 的價值不再只是可用的數(shù)據(jù)集,而開始具備更基礎(chǔ)性的意義。
過去幾年,行業(yè)的關(guān)注點更多集中在模型上,更大的參數(shù)規(guī)模、更復(fù)雜的架構(gòu)、更強的推理能力。但一個越來越清晰的共識是,模型能力的上限,正在越來越多地由數(shù)據(jù)所決定。尤其是在 AI 從語言走向物理世界的過程中,數(shù)據(jù)的重要性被放大:世界模型需要可交互的環(huán)境數(shù)據(jù),機器人依賴長尾且真實的場景分布,多模態(tài)系統(tǒng)則必須對齊來自不同感知通道的信號。在這樣的背景下,大規(guī)模、高質(zhì)量、結(jié)構(gòu)化的數(shù)據(jù)集,正在成為新的競爭核心。
而 LingBot-Depth-Dataset 的出現(xiàn),本質(zhì)上推動的是一件更底層的轉(zhuǎn)變,讓深度感知,從一個依賴理想條件的實驗室問題,逐步走向可落地、可復(fù)用的工程問題。
深度估計、補全這個方向,長期處于一種尷尬的狀態(tài):下游需求(機器人、AR、自動駕駛)增長快,但基礎(chǔ)數(shù)據(jù)資源的開放程度遠不及視覺識別、NLP 等方向。NYUv2 在十多年后仍是標準評測集,某種程度上是因為沒有更好的替代品出現(xiàn),而非它本身足夠好。
就像 ImageNet 重塑了視覺,模擬環(huán)境推動了自動駕駛。對于具身智能而言,高質(zhì)量的空間感知數(shù)據(jù),可能正是那個尚未被充分填補的缺口,而 LingBot-Depth-Dataset 很有可能成為深度估計 / 深度補全領(lǐng)域的新一代 benchmark 基礎(chǔ)。
開源或許不會立刻帶來性能爆炸。但它正在改變一件更底層的事情:我們終于開始擁有,足夠接近真實世界的深度數(shù)據(jù)。
螞蟻靈波在這層基礎(chǔ)設(shè)施上的開源投入,對整個領(lǐng)域而言,每一個不需要從頭采集數(shù)據(jù)的研究團隊,可以把精力放在更高層的問題上。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.