337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

VL-LN Bench:模擬「邊走邊問找具體目標」的真實導航場景

0
分享至



本工作由上海人工智能實驗室、中國科學技術大學、浙江大學、香港大學 的研究者們共同完成。


https://mp.weixin.qq.com/s/Sbac5L2fUbnF2TBBW8O1xg?click_id=48



  • 論文標題:VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs
  • 項目主頁:https://0309hws.github.io/VL-LN.github.io/
  • ArXiv 論文:https://arxiv.org/abs/2512.22342
  • Hugging Face 數據集: https://huggingface.co/datasets/InternRobotics/VL-LN-Bench
  • Hugging Face 模型:https://huggingface.co/InternRobotics/VL-LN-Bench-basemodel
  • GitHub 代碼庫:https://github.com/InternRobotics/VL-LN

交互式實例導航任務

(Interactive Instance Goal Navigation, IIGN)

如果將一臺在視覺語言導航(VLN)任務中表現優異的機器人直接搬進家庭場景,往往會遇到不少實際問題。

首先是使用門檻偏高:傳統 VLN 需要用戶給出又長又精確的路線式指令,例如 “從門口直走三步,看到門右轉,再往前……”,這會顯著增加溝通成本,降低日常使用體驗。

相比之下,人們更期待一種更自然的交互方式,比如只用隨口一句 “找到我的背包” 即可。這樣的設定更接近目標物體導航(ObjectNav)任務,但它也存在明顯不足:機器人只會找到場景內任意一個背包交差,而無法定位用戶真正需要的書包,這顯然無法滿足需求。

正因為真實場景里用戶的表達常常簡短且含糊,而機器人又必須把目標精確落實到某一個具體實例上,交互式實例導航才顯得格外關鍵。機器人既不能指望用戶一開始就把所有信息交代清楚,也不能用 “找到同類就算完成” 的方式草草應付;相反,它應在探索過程中主動提問、逐步澄清歧義,像人一樣把 “到底是哪一個” 問明白,再高效準確地完成用戶的需求。



交互式實例導航示例:用戶要求機器人找到場景中某一張凳子(綠框),但存在大量相似干擾項(紅框),因此機器人需在探索中結合觀察主動提問,逐步縮小候選范圍,直到鎖定目標。

構建 VL-LN 基準:

面向 IIGN 任務的自動化數據收集及評測

語言交互是人們日常交互最常見的形式之一,具身智能體要更好地融入人類生活也需要具有進行這種高效的信息交流形式的能力。不同于傳統 VLN 僅僅聚焦 “導航動作(Navigation)執行得好不好”,VL-LN 還關注機器人能否在導航過程中與人類進行高效的語言交互(Language+Navigation)來提升任務的成功率與效率。

為此,VL-LN 面向交互式實例導航任務構建了一套自動化數據收集管線,并依托 InternVLA-N1 標準化模型訓練評測

自動化數據收集管線



交互式實例導航數據收集流程

數據收集包含三個步驟,作者首先整理了場景元數據,進而生成能用于在線采樣的序列(episode)數據,最后在規則驅動的交互機制下批量采集交互導航訓練軌跡(trajectory),具體內容包括:

場景元數據處理:基于 MMScan 對 MP3D 場景的標注信息,將按房間分散的物體信息整合成全屋級的元數據,主要包括兩個字典:目標實例字典(instance dictionary,存儲每個物體的空間關系、屬性等基本信息)和區域字典(region dictionary,存儲房間的位置、物體等信息)

序列生成:每個有效序列由起始位姿、導航指令、目標實例的可停止視點三個主要信息組成。針對每一個目標實例作者均提供兩個版本的導航指令。一種導航指令只有目標實例的類別(Partial instruction,用于交互式實例導航任務,必須靠對話消歧),另一種導航指令是能在場景內唯一鎖定目標實例的完整描述(Full instruction,可用于評測訓練非交互的任務)。可停止視點(view point)指機器人在導航過程中可以合法停止并判定 “已找到目標” 的一組視點位置。

交互導航軌跡采集:該階段主要采用一個集成了基于邊界點的探索算法(Frontier-Based Exploration)與目標實例分割器的智能體。在數據采集過程中,智能體除探索未知區域外,還會按規則主動提出三類問題:屬性(目標實例長什么樣?)、路線(如何到達目標?)和目標消歧(是否為眼前的實例?),從而生成相應的交互式導航軌跡。

通過該流程,作者構建了大規模交互式實例導航數據以支撐模型訓練。下圖給出了數據的總體統計。作為首個大規模交互式實例導航數據集,其主要優勢在于:

  • 規模:40k導航序列,相比現有交互導航數據集(約7k)提升一個量級
  • 多樣性:覆蓋150+物體類別與3類問答(屬性 / 位置 / 消歧),自由組合形成豐富訓練樣本;
  • 難度覆蓋:包含長時程軌跡(steps > 300)與多輪對話樣本(dialog turns > 5),覆蓋復雜困難場景。



第一行分別展示了每條軌跡的路徑步數、對話輪數和每輪對話長度的頻率直方圖;第二行展示了問題類型與目標類型的統計結果,以及對話中高頻詞的詞云圖。

NPC 支撐的自動化在線評測基準

為了評測智能體完成交互式實例導航(IIGN)的能力,并與非交互式實例導航(IGN)進行對比,VL-LN 基準提供了可用于測試兩類任務的測試集。針對交互式實例導航的自動化評測,VL-LN 還實現了一個由 GPT-4o 驅動的 NPC,它能夠回答智能體在導航過程中提出的問題。此外,為了評估智能體提問效率,VL-LN 定義新的指標 MSP(Mean Success Progress),用于衡量主動對話帶來的增益。

從結果到原因:

交互式實例導航的能力與挑戰

通過使用不同的數據對 Qwen2.5-VL-7B-Instruct 進行微調,作者訓練了三個模型。具體訓練所使用的數據如下:

  • VLLN-O (object):VLN + ObjectNav 軌跡數據
  • VLLN-I (instance):VLN + ObjectNav + IGN 軌跡數據
  • VLLN-D (dialog):VLN + ObjectNav + IIGN 軌跡數據(論文的核心模型)

評測同時覆蓋兩類任務:

  • IIGN(交互式實例導航):允許提問(對話輪數限制在 5 輪)
  • IGN(實例導航):不允許對話,但提供足以唯一鎖定目標實例的全量指令

實驗結果如下表所示



為了進一步確定模型在交互式實例導航任務上的性能和瓶頸,研究團隊對實驗結果進行系統性復盤,并將實驗結論總結如下:



VL-LN Bench 錯誤類型分布



不同對話輪次上限下的 IIGN 性能

對話消歧在任務存在歧義時顯著提升成功率:在 IIGN 與 IGN 上,具備提問能力的 VLLN-D 成功率均高于僅會探索的 VLLN-I,成功率分別提升6.0%2.6%。在對話輪次上限消融中,隨著上限由0增至5,VLLN-D 的 SR 由15.4%提升至20.2%

物體 — 圖像對齊是核心瓶頸:無論在 IIGN 還是 IGN 任務中,約 70% 的失敗都源于目標未被成功檢測,說明性能瓶頸主要不在導航策略,而在于目標實例與圖像觀測之間的對齊能力。

相較于全量信息設置,問答機制帶來的信息增益仍然有限:VLLN-D 在 IIGN 上的成功率為 20.2%,低于其在無法提問、但具備全量信息的 IGN 上的 21.8%,說明對當前模型而言,對話帶來的增益仍弱于信息補全帶來的增益。

與人類仍有顯著差距:論文設置人類 IIGN 測試(一人負責提問與探索,另一人負責回答),結果顯示人類平均僅需2輪對話即可達到93%成功率,表明當前模型與人類水平仍存在巨大差距。

結語

VL-LN Bench 是一個面向長時程交互式實例導航(IIGN)任務的高質量、高挑戰且體系完備的評測基準,可系統評估智能體在 3D 環境中的長程探索、實例級目標識別與對話消歧能力。

與此同時,基準配套自動化數據采集管線與 NPC 評測機制,為交互式導航能力的訓練與評估提供了一條可規模化、可復現的標準化路徑。評測結果清晰表明:引入主動對話能夠顯著提升智能體在 IIGN 與 IGN 任務中的整體表現,但同時也揭示了當前方法在實例級感知對齊與高信息增益提問策略等關鍵環節上仍存在明顯短板,為未來面向空間智能體的 “會走” 到 “會邊走邊問” 的技術演進提供了研究方向與啟發。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
為什么閑魚很多賣家只支持自提?網友:等你碰上到手刀的就老實了

為什么閑魚很多賣家只支持自提?網友:等你碰上到手刀的就老實了

另子維愛讀史
2026-03-22 22:34:48
美媒:共和黨人稱約翰遜大發雷霆,強力施壓他們投票支持延長《涉外情報監控法》

美媒:共和黨人稱約翰遜大發雷霆,強力施壓他們投票支持延長《涉外情報監控法》

環球網資訊
2026-03-27 17:08:49
最壞情況發生,美軍艦載機在沿海被擊中,白宮意識到大國出手了!

最壞情況發生,美軍艦載機在沿海被擊中,白宮意識到大國出手了!

云舟史策
2026-03-28 07:25:48
外賣員吐槽以前隨便跑月入過萬:現在每天工作12小時以上收入暴跌

外賣員吐槽以前隨便跑月入過萬:現在每天工作12小時以上收入暴跌

眼光很亮
2026-03-27 17:00:05
在ICU做了10年護士,發現一個秘密:放棄搶救時,簽字越快哭得越兇

在ICU做了10年護士,發現一個秘密:放棄搶救時,簽字越快哭得越兇

千秋文化
2026-02-14 20:45:52
馬杜羅瘦脫相了?穿囚服戴腳鐐出庭,這畫面信息量有點大

馬杜羅瘦脫相了?穿囚服戴腳鐐出庭,這畫面信息量有點大

小虎新車推薦員
2026-03-28 05:27:34
張雪峰遺產分割復雜!11歲女兒面臨跟后媽爭產,是否立遺囑成關鍵

張雪峰遺產分割復雜!11歲女兒面臨跟后媽爭產,是否立遺囑成關鍵

萌神木木
2026-03-25 18:56:27
明明是“戲混子”,卻被捧成實力派,這4位演員看來真的被高估了

明明是“戲混子”,卻被捧成實力派,這4位演員看來真的被高估了

暖心萌阿菇涼
2026-03-27 18:57:30
隨著3名巴薩悍將發威+比分3-0,西班牙完勝歐洲勁旅,迎開門紅

隨著3名巴薩悍將發威+比分3-0,西班牙完勝歐洲勁旅,迎開門紅

側身凌空斬
2026-03-28 05:52:37
漲價!浙江姑娘腸子悔青,去年沒下單今年貴5000元!老板:可能還要漲

漲價!浙江姑娘腸子悔青,去年沒下單今年貴5000元!老板:可能還要漲

浙江之聲
2026-03-20 13:26:35
歐盟期待歐爾班敗選:壓垮駱駝最后一根稻草,與他講道理希望破滅

歐盟期待歐爾班敗選:壓垮駱駝最后一根稻草,與他講道理希望破滅

阿捤武器裝備科普
2026-03-28 08:52:33
首節就開炸!哈登13次20+穩坐歷史第二,誰還記得他“慢熱”?

首節就開炸!哈登13次20+穩坐歷史第二,誰還記得他“慢熱”?

有態度的體育小白
2026-03-28 04:56:13
人類史上最高級零元購,榨干印度200年,留下45萬億天價賬單

人類史上最高級零元購,榨干印度200年,留下45萬億天價賬單

掠影后有感
2026-03-26 10:39:36
巴薩震怒!不滿安帥用傷8000萬巨星:肌肉不適還讓他首發踢友誼賽

巴薩震怒!不滿安帥用傷8000萬巨星:肌肉不適還讓他首發踢友誼賽

我愛英超
2026-03-28 07:29:26
我愛上41歲女人,她開口:玩玩可以但不結婚,得知真相我癱坐在地

我愛上41歲女人,她開口:玩玩可以但不結婚,得知真相我癱坐在地

小月故事
2026-03-19 17:08:37
中國實力飆升,美司令半夜嚇醒!美智庫:有一件大事,不能再拖了

中國實力飆升,美司令半夜嚇醒!美智庫:有一件大事,不能再拖了

古史青云啊
2026-03-28 10:12:11
55年授銜,當主席看到名單中有個熟悉的名字,大筆一揮:他不是少將

55年授銜,當主席看到名單中有個熟悉的名字,大筆一揮:他不是少將

睡前講故事
2025-12-12 13:58:11
一場2:0!揪出國足唯一“水貨” 表現拉胯 恐被邵佳一棄用

一場2:0!揪出國足唯一“水貨” 表現拉胯 恐被邵佳一棄用

生活新鮮市
2026-03-27 18:56:51
F18被擊傷白宮驚恐,伊朗導彈雨重創以色列,大國影子浮現

F18被擊傷白宮驚恐,伊朗導彈雨重創以色列,大國影子浮現

三農老歷
2026-03-28 09:35:54
50歲老虎伍茲被捕!出車禍神志不清 被指控酒駕毒駕+拒絕接受測試

50歲老虎伍茲被捕!出車禍神志不清 被指控酒駕毒駕+拒絕接受測試

念洲
2026-03-28 06:46:59
2026-03-28 11:07:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12619文章數 142596關注度
往期回顧 全部

科技要聞

遭中國學界"拉黑"后,這家AI頂會低頭道歉

頭條要聞

前大廠員工開"網絡賭場" 三個月吸金1900萬

頭條要聞

前大廠員工開"網絡賭場" 三個月吸金1900萬

體育要聞

“我是全家最差勁的運動員”

娛樂要聞

范瑋琪加盟,官宣《浪姐7》遭全網抵制

財經要聞

我在小吃培訓機構學習“科技與狠活”

汽車要聞

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態度原創

教育
時尚
藝術
家居
游戲

教育要聞

娃的錯題本,以后不用家長整理了......

推廣中獎名單-更新至2026年3月11日推廣

藝術要聞

華國鋒與耿飚的草書書信,你見過嗎?氣勢恢宏引發熱議!

家居要聞

曲線華爾茲 現代簡約

PS5瘋狂漲價!或將拖累《GTA6》硬件銷量

無障礙瀏覽 進入關懷版