300萬對樣本、200萬對實拍：深度估計的數(shù)據(jù)荒，終于被打破

2026-03-31 11:08:33　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

做深度估計、深度補全的人，大概都有過這樣一個瞬間。

模型在 NYU Depth V2 這樣的經(jīng)典 benchmark 上跑出了漂亮的分數(shù)，指標也足夠好看。可一旦把同一個模型部署到真實機器人上，問題立刻暴露出來：深度圖邊緣發(fā)糊、遠處漂移，遇到反光材質(zhì)幾乎直接失效。

你第一反應(yīng)往往是實現(xiàn)出了 bug，于是從代碼到訓(xùn)練流程排查一遍。可最終你會發(fā)現(xiàn)，代碼沒問題。

問題出在數(shù)據(jù)。

其實，這不是個例，而是這個方向長期存在的困境之一。

深度估計和深度補全的學術(shù)進展，在某種程度上是被數(shù)據(jù)集的天花板壓著走的。過去十幾年，社區(qū)高度依賴幾個經(jīng)典數(shù)據(jù)集：NYU Depth V2 以公寓和辦公室場景為主，室內(nèi)覆蓋有限；KITTI 面向自動駕駛，室外道路場景扎實，但對具身智能幾乎沒有直接用處；ScanNet 在室內(nèi)重建方向貢獻巨大，但它的幀序列格式并非為配對深度訓(xùn)練設(shè)計；ETH3D、DIML 各有側(cè)重，規(guī)模都不足以支撐當下大模型時代的訓(xùn)練需求。

雖然現(xiàn)在有合成數(shù)據(jù)集可以填補數(shù)據(jù)短缺問題，但合成數(shù)據(jù)在渲染材質(zhì)和真實場景之間有一道肉眼可辨的鴻溝。模型在合成數(shù)據(jù)上學到的深度先驗，遇到真實世界的反光金屬、透明玻璃、復(fù)雜紋理，往往直接崩壞。

這道鴻溝，沒有大規(guī)模真實數(shù)據(jù)，系統(tǒng)性的解法很難實現(xiàn)。直到 3 月底，這個局面終于出現(xiàn)了松動。

螞蟻靈波完成了一件在這個領(lǐng)域久違的動作：一次性開源約 300 萬對高質(zhì)量 RGB - 深度數(shù)據(jù) ——LingBot-Depth-Dataset。每條樣本同時包含 RGB 圖像、傳感器原始深度以及對應(yīng)的真值深度，為訓(xùn)練提供了完整的對照信號。

整個數(shù)據(jù)集規(guī)模達到2.71TB，其中包括約200 萬對真實采集的 RGB-D 數(shù)據(jù)和 100 萬對高質(zhì)量渲染數(shù)據(jù)；在真實數(shù)據(jù)部分，覆蓋了 Orbbec 335、335L，RealSense D405、D415、D435、D455 共6 款市場主流深度相機，以盡可能還原不同硬件條件下的真實感知分布。

該數(shù)據(jù)集以 CC BY-NC-SA 4.0 協(xié)議開源，允許學術(shù)與非商業(yè)場景下的自由使用與再創(chuàng)作。

魔搭社區(qū) ModelScope：https://modelscope.cn/datasets/Robbyant/LingBot-Depth-Dataset
HuggingFace：https://huggingface.co/datasets/robbyant/mdm_depth

事實上，該數(shù)據(jù)集的有效性早已在模型層面得到驗證。螞蟻靈波在今年 1 月開源的具身智能感知模型 LingBot-Depth，正是基于這套數(shù)據(jù)訓(xùn)練而成的。

從實際效果來看，LingBot-Depth 可在不更換硬件的前提下顯著提升透明、反光等復(fù)雜材質(zhì)場景的深度輸出質(zhì)量，并且在深度精度和像素覆蓋率這兩項核心指標上，已經(jīng)全面優(yōu)于目前市面上頂尖的工業(yè)級 RGB-D 相機。

正是在這樣的前提下，螞蟻靈波選擇將這套數(shù)據(jù)完整開源，將內(nèi)部驗證過的數(shù)據(jù)，向整個社區(qū)開放。

基于 LingBot-Depth-Dataset 數(shù)據(jù)集構(gòu)建的 LingBot-Depth，在傳統(tǒng)深度傳感器易失效的復(fù)雜場景中，仍可輸出具備真實尺度的高精度深度結(jié)果

LingBot-Depth 相關(guān)鏈接：

Hugging Face：https://huggingface.co/robbyant/lingbot-depth
ModelScope：https://modelscope.cn/models/robbyant/lingbot-depth
Tech Report：https://arxiv.org/abs/2601.17895

為什么真實數(shù)據(jù)規(guī)模如此關(guān)鍵？

要理解 LingBot-Depth-Dataset 的價值，需要先理解真實采集的深度數(shù)據(jù)為什么難以獲得。

采集成本是第一道門檻。高質(zhì)量的 RGB-D 數(shù)據(jù)采集需要將 RGB 相機與深度傳感器進行時間同步和空間標定，標定精度直接影響深度圖與彩色圖的像素對齊質(zhì)量。大規(guī)模部署多臺設(shè)備、在多個場景下系統(tǒng)性采集，工程復(fù)雜度遠高于普通視頻采集。此外，不同場景（強光、弱光、反射表面、透明材質(zhì)）對傳感器性能的影響差異顯著，需要針對性處理。

傳感器原始深度圖存在固有缺陷。結(jié)構(gòu)光和 ToF 傳感器采集到的原始深度圖通常包含大量無效像素（空洞），邊緣處存在飛點（flying pixels），在反射或透明表面上深度值失效。這意味著原始傳感器深度圖不能直接作為訓(xùn)練真值，需要額外的處理步驟來生成稠密、精確的真值深度圖，而這個處理本身就是一個有技術(shù)門檻的問題。

標注真值的獲取難度高。不同于圖像分類可以用人工標注、或者利用網(wǎng)絡(luò)弱監(jiān)督，深度真值必須依賴物理測量或精密的多傳感器融合。激光雷達可以提供高精度稀疏點云，但需要與相機精確標定和時間同步；結(jié)構(gòu)光系統(tǒng)精度有限且對光照敏感；立體匹配可以提供稠密深度但在紋理平坦區(qū)域容易失效。沒有哪種單一方案是完美的，大規(guī)模采集必須在精度、成本和覆蓋度之間做權(quán)衡。

版權(quán)與開放意愿是另一道隱性門檻。工業(yè)界在大規(guī)模數(shù)據(jù)采集上投入了大量資源，但數(shù)據(jù)往往被視為競爭護城河而非公共資源。許多團隊擁有規(guī)模可觀的內(nèi)部數(shù)據(jù)集，卻從未考慮開放。這造成了一種奇特的局面：學術(shù)界對數(shù)據(jù)的渴望與工業(yè)界對數(shù)據(jù)的占有之間存在巨大落差，而學術(shù)研究所依賴的數(shù)據(jù)集，往往是多年前某個團隊順手做的副產(chǎn)品。

正因為以上這些原因，大規(guī)模真實場景 RGB-D 數(shù)據(jù)集在開源社區(qū)中至今仍屬稀缺資源。

300 萬對 RGB-D：一次量級躍遷

螞蟻靈波一口氣開源 300 萬對 RGB-D 樣本，在當前開源社區(qū)中，這已是規(guī)模最大的真實場景 RGB-D 數(shù)據(jù)集之一。

整個數(shù)據(jù)集并不是簡單的數(shù)據(jù)堆疊，而是圍繞真實世界深度感知任務(wù)，做了一次結(jié)構(gòu)化設(shè)計，由四個子集構(gòu)成：

RobbyReal：1,400,000 對多設(shè)備采集的真實室內(nèi)場景數(shù)據(jù)，構(gòu)成了數(shù)據(jù)集的核心主體。

這部分數(shù)據(jù)覆蓋了 Orbbec 335、335L，RealSense D405、D415、D435、D455 共 6 款市場主流深度相機。這些設(shè)備在測距范圍、噪聲模式、邊緣表現(xiàn)以及對不同材質(zhì)的響應(yīng)上存在顯著差異。這一設(shè)計的意義在于：將跨設(shè)備差異提前引入訓(xùn)練分布。

傳統(tǒng)數(shù)據(jù)集往往綁定單一設(shè)備，模型在該設(shè)備上表現(xiàn)良好，但一旦遷移到其他硬件環(huán)境，性能會明顯下降。而 LingBot-Depth-Dataset 通過多設(shè)備數(shù)據(jù)，讓模型在訓(xùn)練階段就接觸到不同傳感器特性，從而提升跨設(shè)備泛化能力。

對于需要實際部署在機器人、AR 設(shè)備或工業(yè)系統(tǒng)中的模型來說，這一點直接決定了其工程可用性。

RobbyReal數(shù)據(jù)集示例

RobbyVla：580,960 對數(shù)據(jù)，來自機器人在視覺 - 語言 - 動作（VLA）操作任務(wù)執(zhí)行過程中的實際采集。

傳統(tǒng)深度數(shù)據(jù)集的采集邏輯是人拿著相機掃場景，視角自然、連續(xù)，物體在中遠距離。而機器人操作任務(wù)的視角截然不同：拍攝目標物體時距離往往只有 20-50cm，物體邊緣的深度精度決定抓取成敗；桌面操作場景的光照復(fù)雜，金屬、玻璃、透明塑料等材質(zhì)的深度測量本身就是難點。

這些特性讓 RobbyVla 數(shù)據(jù)具備了現(xiàn)有數(shù)據(jù)集無法替代的價值：它是在真實具身任務(wù)約束下采集的深度數(shù)據(jù)，場景分布與機器人學習任務(wù)高度對齊。對于想要訓(xùn)練空間感知能力服務(wù)于操作任務(wù)的研究者而言，這批數(shù)據(jù)可以直接減少分布外泛化的損耗。

RobbyVla數(shù)據(jù)集示例

RobbySim： 999,264 對仿真渲染數(shù)據(jù)，基于雙相機視角生成。

單相機渲染容易引入系統(tǒng)性的視角偏差，雙相機設(shè)置在生成過程中引入了視差約束，生成的深度圖在幾何一致性上更可靠。

RobbySim數(shù)據(jù)集示例

RobbySimVal驗證集（38,976 對）則提供了標準化的仿真場景評估基準，便于研究者在不消耗真實數(shù)據(jù)的前提下快速評估模型在仿真域的表現(xiàn)。

RobbySimVal 驗證集示例

除了數(shù)量龐大，螞蟻靈波在數(shù)據(jù)集質(zhì)量上同樣設(shè)定了極高標準。從原始采集到真值構(gòu)建，LingBot-Depth-Dataset 并未簡單依賴傳感器輸出，而是對深度數(shù)據(jù)進行了系統(tǒng)化處理與校正。

每條樣本包含一張 RGB 圖像、傳感器原始深度圖以及真值深度圖

通過提供原始觀測 + 真值的完整對照信號，模型不僅可以學習深度預(yù)測，還可以學習如何從噪聲數(shù)據(jù)中恢復(fù)真實結(jié)構(gòu)。

同時，數(shù)據(jù)在標注過程中遵循統(tǒng)一規(guī)范，對精度和一致性進行了嚴格控制，避免了由于標簽噪聲帶來的訓(xùn)練偏差。這一點在深度學習中尤為關(guān)鍵，錯誤的深度標簽，往往比沒有標簽更具破壞性。

也正是在這樣的數(shù)量和質(zhì)量保障下，LingBot-Depth-Dataset 的價值不再只是可用的數(shù)據(jù)集，而開始具備更基礎(chǔ)性的意義。

過去幾年，行業(yè)的關(guān)注點更多集中在模型上，更大的參數(shù)規(guī)模、更復(fù)雜的架構(gòu)、更強的推理能力。但一個越來越清晰的共識是，模型能力的上限，正在越來越多地由數(shù)據(jù)所決定。尤其是在 AI 從語言走向物理世界的過程中，數(shù)據(jù)的重要性被放大：世界模型需要可交互的環(huán)境數(shù)據(jù)，機器人依賴長尾且真實的場景分布，多模態(tài)系統(tǒng)則必須對齊來自不同感知通道的信號。在這樣的背景下，大規(guī)模、高質(zhì)量、結(jié)構(gòu)化的數(shù)據(jù)集，正在成為新的競爭核心。

而 LingBot-Depth-Dataset 的出現(xiàn)，本質(zhì)上推動的是一件更底層的轉(zhuǎn)變，讓深度感知，從一個依賴理想條件的實驗室問題，逐步走向可落地、可復(fù)用的工程問題。

深度估計、補全這個方向，長期處于一種尷尬的狀態(tài)：下游需求（機器人、AR、自動駕駛）增長快，但基礎(chǔ)數(shù)據(jù)資源的開放程度遠不及視覺識別、NLP 等方向。NYUv2 在十多年后仍是標準評測集，某種程度上是因為沒有更好的替代品出現(xiàn)，而非它本身足夠好。

就像 ImageNet 重塑了視覺，模擬環(huán)境推動了自動駕駛。對于具身智能而言，高質(zhì)量的空間感知數(shù)據(jù)，可能正是那個尚未被充分填補的缺口，而 LingBot-Depth-Dataset 很有可能成為深度估計 / 深度補全領(lǐng)域的新一代 benchmark 基礎(chǔ)。

開源或許不會立刻帶來性能爆炸。但它正在改變一件更底層的事情：我們終于開始擁有，足夠接近真實世界的深度數(shù)據(jù)。

螞蟻靈波在這層基礎(chǔ)設(shè)施上的開源投入，對整個領(lǐng)域而言，每一個不需要從頭采集數(shù)據(jù)的研究團隊，可以把精力放在更高層的問題上。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.