337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

剛剛,機(jī)器人練成了「白眼」:∞幀畫面邊看邊3D重建我們的世界!

0
分享至

金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

剛剛,機(jī)器人的視覺,又達(dá)到了一個(gè)新的Level。

因?yàn)楝F(xiàn)在,一個(gè)新模型已經(jīng)實(shí)現(xiàn)了無盡流:看∞幀視頻可以穩(wěn)定實(shí)時(shí)3D重建!

來,感受一下這個(gè)feel:



視頻地址:
https://mp.weixin.qq.com/s/h3UIMZn46LA2m570p9pKkw

或許有小伙伴要問了,這有啥用啊?

簡單來說啊,若是這個(gè)模型放到掃地機(jī)器人身上,那它就能邊打掃邊認(rèn)清家里的3D結(jié)構(gòu);若是放到自動(dòng)駕駛身上,那就是邊開車邊算清路面情況。

有一種火影里寧次白眼的那種味道了。

(注:白眼的能力是360°無死角透視+極遠(yuǎn)的洞察力+看穿查克拉流動(dòng);對應(yīng)這個(gè)模型的全方位空間感知、長序列不丟失細(xì)節(jié)的特點(diǎn)。)



△圖源由AI生成

這,就是螞蟻靈波最新開源的LingBot-Map,一個(gè)專為純自回歸的流式3D重建而打造的基礎(chǔ)模型。



不同于此前具身智能視覺的3D重建,這一次,LingBot-Map做到了快、準(zhǔn)、狠——

打破了“既要實(shí)時(shí)、又要記路、還要省顯存”的不可能三角。

這種Level的流式3D重建,并不簡單

在聊“流式3D重建為什么難”這個(gè)話題之前,咱們且需要先分清兩個(gè)概念:普通3D重建和流式3D重建。

因?yàn)樗鼈z可以說是完全兩個(gè)維度的技術(shù)。

先來看傳統(tǒng)離線3D重建(離線)。

它的本質(zhì)用一種微妙的形容,大概就是“事后諸葛亮”,因?yàn)楸仨毾扰耐晖暾曨l、存儲(chǔ)所有幀畫面,再集中算力全局建模。

這樣做的缺點(diǎn)很明顯就是速度慢、耗顯存、無法實(shí)時(shí)交互,應(yīng)用方面也能用在影視建模、數(shù)字孿生等靜態(tài)場景,根本沒法給需要實(shí)時(shí)決策的機(jī)器人、自動(dòng)駕駛用。

流式3D重建(在線)就不一樣了,它是真能滿足具身智能的核心剛需:

來一幀算一幀,邊拍邊建模、邊感知邊決策,和人類邊走邊認(rèn)路的視覺邏輯高度一致。

不過看似簡單,但在實(shí)現(xiàn)的過程中,業(yè)內(nèi)公認(rèn)的有三座大山擋在面前。



△圖源由AI生成

第一,記太多就爆顯存。

如果模型硬存所有歷史幀,幾千幀過后顯存直接拉滿,消費(fèi)級(jí)顯卡根本跑不動(dòng),工業(yè)設(shè)備也扛不住長時(shí)運(yùn)行。

第二,記太少就忘光光。

若是只緩存最近幾幀,模型會(huì)出現(xiàn)災(zāi)難性遺忘,長時(shí)間運(yùn)行后軌跡瘋狂漂移、重建場景扭曲變形,相當(dāng)于人走久了忘了自己在哪。

第三,精度速度不可兼得。

要么建模精準(zhǔn)但推理慢到卡頓,要么實(shí)時(shí)性夠了但畫面糊成馬賽克,始終找不到平衡點(diǎn)。

更關(guān)鍵的是,之前絕大多數(shù)的流式方案,不是依賴測試時(shí)優(yōu)化,就是用未來幀信息做全局校準(zhǔn),亦或者加入人工設(shè)計(jì)的關(guān)鍵幀規(guī)則,并非端到端的純推理。

而LingBot-Map走的是純自回歸這條更難的路:嚴(yán)格遵循因果律,僅依賴歷史幀信息推理當(dāng)前幀,無任何后處理、無未來幀依賴、無人工優(yōu)化規(guī)則,所有能力全靠模型端到端學(xué)習(xí)。

也正因?yàn)橛辛思冏曰貧w的約束,相當(dāng)于讓蒙眼的人僅憑過往記憶走迷宮,既要求走得快、又要求記準(zhǔn)路、還不能多耗腦力……

難,是真的難。

但螞蟻靈波這一次,還真就把這個(gè)硬骨頭給啃下來了。

像人一樣選擇性記憶

LingBot-Map背后技術(shù)的靈感,來源于

就好比咱們在大城市里逛街,卻能做到不迷路,不是因?yàn)槲覀兊拇竽X像錄像機(jī)一樣全程“錄制”,關(guān)鍵在于大腦執(zhí)行的是選擇性記憶這個(gè)操作。

說白了,就是只記住有效、關(guān)鍵的幀。

LingBot-Map的核心,正是完美復(fù)刻了這種機(jī)制,名曰幾何上下文注意力(Geometric Context Attention,GCA)。

更具體而言,LingBot-Map通過GCA,對記憶進(jìn)行了非常精妙的分層結(jié)構(gòu)化管理

首先是錨點(diǎn)(Anchor),它的作用讓機(jī)器人記住“我從哪來”

任何3D重建都需要一個(gè)絕對的坐標(biāo)系和尺度基準(zhǔn),就好比人類進(jìn)入陌生房間,會(huì)下意識(shí)記住門口位置當(dāng)參照系,防止迷路。

LingBot-Map的錨點(diǎn)模塊,就是起到這樣的一個(gè)作用。

它會(huì)鎖定初始幾幀畫面作為基準(zhǔn),固定全局坐標(biāo)和尺度,如此一來,就解決了純自回歸模型容易出現(xiàn)的尺度模糊、坐標(biāo)漂移等問題,給整個(gè)重建過程定好原點(diǎn)。

其次是位姿參考窗口(Pose-reference Window),用來記住“我身邊有什么”

因?yàn)楣庥衅瘘c(diǎn)是不夠的,要想走得穩(wěn),還得看清腳下的路。

于是團(tuán)隊(duì)便在LingBot-Map里設(shè)置了位姿參考窗口,它只保留最近的k幀的完整高維特征。

這部分記憶雖然是短期的,但信息極其豐富密集,這樣就可以確保模型能夠精準(zhǔn)地捕捉局部的幾何細(xì)節(jié),讓當(dāng)前幀能夠絲滑地與前幾幀拼接在一起,讓每一步都踩得極準(zhǔn)。

最后就是軌跡記憶(Trajectory Memory),起到記住“我走過的路”的作用。

這也是LingBot-Map中非常關(guān)鍵的一個(gè)步驟。

對于那些既不是起點(diǎn)、也不在眼前,屬于很久以前的中間歷史畫面,模型不再存儲(chǔ)它們龐大具體的圖像像素細(xì)節(jié)。

取而代之的是,它將這些歷史幀的宏大信息,極致壓縮成了區(qū)區(qū)6個(gè)極簡的Token(包含相機(jī)、錨點(diǎn)和寄存器 Token),并打上時(shí)間戳(位置編碼)。

對比傳統(tǒng)因果注意力,LingBot-Map的單幀信息增長量直接降低80倍,哪怕處理萬幀長視頻,顯存消耗也幾乎恒定。



三大模塊協(xié)同發(fā)力,便是LingBot-Map打破不可能三角的關(guān)鍵原因了。

那么這套打法效果又如何呢?

實(shí)測拿下新SOTA

從論文中呈現(xiàn)的實(shí)驗(yàn)結(jié)果來看,LingBot-Map已經(jīng)在多項(xiàng)權(quán)威基準(zhǔn)測試中,全面碾壓其它流式模型,穩(wěn)坐SOTA之位。

首先是長序列穩(wěn)定性

在10000+幀的超長視頻序列測試中,模型全程保持穩(wěn)定重建質(zhì)量,沒有出現(xiàn)任何明顯的軌跡漂移。要知道,同類純自回歸模型往往幾百幀就開始扭曲,萬幀穩(wěn)定的表現(xiàn),直接刷新了行業(yè)紀(jì)錄。



其次是速度與精度雙突破。

在518×378的主流分辨率下,推理速度達(dá)到20FPS,比同類流式方法基線快了近一倍,完全滿足機(jī)器人、自動(dòng)駕駛的實(shí)時(shí)性需求。

在Oxford Spires、ETH3D、Tanks & Temples等權(quán)威數(shù)據(jù)集測試中,軌跡誤差降低約77%,3D點(diǎn)云建模精度、全局一致性遠(yuǎn)超所有流式競品,甚至比部分離線優(yōu)化模型表現(xiàn)更優(yōu)。



除此之外,模型運(yùn)行顯存僅需13.28GB,普通消費(fèi)級(jí)顯卡即可流暢部署,徹底告別對高端專業(yè)顯卡的依賴。

對比同類方案動(dòng)輒30GB+的顯存需求,LingBot-Map實(shí)現(xiàn)了“技術(shù)頂尖、落地親民”,讓流式3D重建具備了規(guī)模化商用的基礎(chǔ)。

而且效率測試的數(shù)據(jù)更加直觀。

對比全歷史幀緩存方案,LingBot-Map用64幀窗口設(shè)計(jì),將推理速度從3.12FPS提升至19.95FPS,顯存從36.06GB壓縮至13.28GB,速度提升6倍、顯存降低63%,同時(shí)精度反而更高,印證了GCA記憶機(jī)制的優(yōu)越性。



在看完LingBot-Map背后的技術(shù)和展現(xiàn)的效果之后,還有一個(gè)話題值得聊一聊:

LingBot-Map的開源絕不是為了單點(diǎn)刷榜、秀肌肉。

補(bǔ)齊另一塊具身智能關(guān)鍵拼圖

若是大家長期關(guān)注螞蟻靈波,就不難發(fā)現(xiàn)它在下一盤大棋。

僅僅在今年1月,螞蟻靈波便已經(jīng)陸續(xù)開源了多款模型:

從感知世界的LingBot-Depth,到理解物理規(guī)律的LingBot-World,再到控制身體的LingBot-VLA和全球首個(gè)具身世界模型LingBot-VA

而今天LingBot-Map的開源,則補(bǔ)齊了“邊走邊記、理解并重建連續(xù)真實(shí)三維空間”的關(guān)鍵拼圖。

這就意味著螞蟻靈波正式構(gòu)建了“感知-建模-模擬-控制”全鏈路具身智能技術(shù)棧,從看懂世界、建模世界,到理解世界、操控身體,形成了完整的技術(shù)閉環(huán)。

此舉對全產(chǎn)業(yè)落地來說,亦是有著重要的價(jià)值。舉三個(gè)例便一目了然了:

  • 機(jī)器人:倉庫巡檢、家庭服務(wù),機(jī)器人不再需要昂貴的激光雷達(dá),單靠攝像頭就能邊走邊建圖,真正實(shí)現(xiàn)低成本、大規(guī)模部署。
  • AR/VR:戴上眼鏡,虛擬物體可以零延遲、不漂移地疊加在真實(shí)桌面上,虛實(shí)融合的體驗(yàn)將被拉滿。
  • 自動(dòng)駕駛/無人機(jī):城市級(jí)大場景的實(shí)時(shí)建模成為可能,為純視覺的自動(dòng)駕駛方案提供了更強(qiáng)大的時(shí)空理解能力。

因此,綜上所述,LingBot-Map的出現(xiàn),可以說是機(jī)器理解真實(shí)物理世界邁出的關(guān)鍵一步。

與此同時(shí),螞蟻靈波的持續(xù)開源,也讓我們清晰地看到,具身智能的規(guī)模化落地,正在以前所未有的速度向我們駛來。

Hugging Face:
https://huggingface.co/robbyant/lingbot-map

ModelScope:
https://www.modelscope.cn/models/Robbyant/lingbot-map

GitHub:
https://github.com/Robbyant/lingbot-map

Paper:
https://arxiv.org/abs/2604.14141

Homepage:
https://technology.robbyant.com/lingbot-map

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一場3:1讓申花喜獲大發(fā)現(xiàn),昔日廢柴已成中場猛人,伊萬沒看錯(cuò)人

一場3:1讓申花喜獲大發(fā)現(xiàn),昔日廢柴已成中場猛人,伊萬沒看錯(cuò)人

零度眼看球
2026-04-19 07:03:44
建議中老年人:若不差錢,少吃饅頭和米飯,多吃4種主食,身體棒

建議中老年人:若不差錢,少吃饅頭和米飯,多吃4種主食,身體棒

馬蹄燙嘴說美食
2026-04-20 03:33:58
虧了也要賣!武漢一老板娘最終決定:專供中東!首款5天全部賣光

虧了也要賣!武漢一老板娘最終決定:專供中東!首款5天全部賣光

新浪財(cái)經(jīng)
2026-04-17 15:19:51
重大轉(zhuǎn)折!巴薩叫停2600萬買斷,拉什福德今夏有望登陸阿森納?

重大轉(zhuǎn)折!巴薩叫停2600萬買斷,拉什福德今夏有望登陸阿森納?

夜白侃球
2026-04-19 19:48:23
中國股市:為何股票封板了,但資金卻顯示凈流出?不懂你就輸了

中國股市:為何股票封板了,但資金卻顯示凈流出?不懂你就輸了

股經(jīng)縱橫談
2026-03-16 20:17:12
蔡振華現(xiàn)狀:65歲圓滿無遺憾,享受退休生活,唯獨(dú)37歲兒子讓他愁

蔡振華現(xiàn)狀:65歲圓滿無遺憾,享受退休生活,唯獨(dú)37歲兒子讓他愁

洲洲影視娛評(píng)
2026-04-14 13:58:26
狂勝52分!2比0領(lǐng)先,三連冠還差1場!

狂勝52分!2比0領(lǐng)先,三連冠還差1場!

左右為籃
2026-04-19 21:46:48
平安,可能是王石最后的體面了

平安,可能是王石最后的體面了

波哥看樓市
2026-04-18 21:58:19
“中年返貧三件套”,正在吞掉一代人的存款

“中年返貧三件套”,正在吞掉一代人的存款

十點(diǎn)讀書
2026-04-18 18:36:15
凈利潤超45億元!又一光伏龍頭業(yè)績出爐

凈利潤超45億元!又一光伏龍頭業(yè)績出爐

新浪財(cái)經(jīng)
2026-04-19 21:14:10
英國小妹歧視中國人后續(xù):身份曝光社死,學(xué)校回應(yīng)下場大快人心

英國小妹歧視中國人后續(xù):身份曝光社死,學(xué)校回應(yīng)下場大快人心

王誙自駕
2026-04-19 15:07:40
崩了!澳洲物價(jià)要瘋漲 通脹要破5%!澳洲油價(jià)開始暴跌!

崩了!澳洲物價(jià)要瘋漲 通脹要破5%!澳洲油價(jià)開始暴跌!

澳洲財(cái)經(jīng)見聞
2026-04-20 04:32:06
英超瘋狂一夜:絕殺頻現(xiàn),保級(jí)隊(duì)驚天逆轉(zhuǎn)

英超瘋狂一夜:絕殺頻現(xiàn),保級(jí)隊(duì)驚天逆轉(zhuǎn)

余憁搞笑段子
2026-04-20 00:20:16
女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),被親人點(diǎn)到不赴約

女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),被親人點(diǎn)到不赴約

情感藝術(shù)家
2026-02-26 10:48:00
1955 年饒漱石遭開除黨籍,歷多年關(guān)押服刑,晚年于農(nóng)場度余生

1955 年饒漱石遭開除黨籍,歷多年關(guān)押服刑,晚年于農(nóng)場度余生

嘮叨說歷史
2026-03-24 11:17:11
逃亡沙特不久,馬步芳取親侄女為妻,蔣介石:他讓我顏面盡失

逃亡沙特不久,馬步芳取親侄女為妻,蔣介石:他讓我顏面盡失

史筆似塵鉤
2026-04-19 19:48:56
男女從曖昧到越界,大多是從這4個(gè)互動(dòng),漸漸發(fā)展起來的

男女從曖昧到越界,大多是從這4個(gè)互動(dòng),漸漸發(fā)展起來的

葉飛飛情感屋
2026-04-19 22:13:44
巴基斯坦空軍進(jìn)駐沙特,真實(shí)目的曝光,不是防伊朗,是怕有人搞鬼

巴基斯坦空軍進(jìn)駐沙特,真實(shí)目的曝光,不是防伊朗,是怕有人搞鬼

愛吃醋的貓咪
2026-04-15 21:20:06
要同居了?太陽報(bào):漢密爾頓和卡戴珊被拍到一起購買家居用品

要同居了?太陽報(bào):漢密爾頓和卡戴珊被拍到一起購買家居用品

懂球帝
2026-04-17 14:04:19
強(qiáng)闖臺(tái)海后,高市再惹大禍,中朝聯(lián)合亮劍,解放軍現(xiàn)身日本家門口

強(qiáng)闖臺(tái)海后,高市再惹大禍,中朝聯(lián)合亮劍,解放軍現(xiàn)身日本家門口

離開地球a
2026-04-20 00:15:57
2026-04-20 06:07:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12497文章數(shù) 176455關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

特朗普:美艦武力攔截伊朗貨船 在機(jī)艙炸出一個(gè)洞

頭條要聞

特朗普:美艦武力攔截伊朗貨船 在機(jī)艙炸出一個(gè)洞

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

教育
健康
家居
游戲
軍事航空

教育要聞

南昌縣全民閱讀活動(dòng)在斗柏路小學(xué)開展

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

家居要聞

法式線條 時(shí)光靜淌

如何將ZH-1火力最大化?《戰(zhàn)艦世界》15.3版本造船廠加點(diǎn)攻略

軍事要聞

伊朗逼退美掃雷艇:美方求給15分鐘撤退

無障礙瀏覽 進(jìn)入關(guān)懷版