高德發(fā)布全球首個(gè)由大模型驅(qū)動(dòng)的視覺認(rèn)知步行導(dǎo)引系統(tǒng)

2026-03-06 20:47:01　來源: DoNews網(wǎng)站

北京舉報(bào)

分享至

近日，高德地圖正式推出全球首個(gè)由大模型驅(qū)動(dòng)的“視覺認(rèn)知步導(dǎo)”系統(tǒng)——地標(biāo)AI領(lǐng)航，該系統(tǒng)深度融合千問大模型、億級POI與千萬級街景圖像，讓導(dǎo)航系統(tǒng)首次具備了“視覺認(rèn)知與人類語言理解”的空間智能感知能力。它不再只是距離和方向指令，而是能像真人一樣，通過用戶眼前真實(shí)世界的地標(biāo)進(jìn)行引導(dǎo)，實(shí)現(xiàn)“所見即所導(dǎo)”，從根本上解決了步行場景下的導(dǎo)航認(rèn)知難題。

在導(dǎo)航場景中，用戶常常面臨三個(gè)主要痛點(diǎn)：起步時(shí)方向感模糊、對距離與步行進(jìn)度缺乏直觀感知、到達(dá)目的地附近仍無法確認(rèn)準(zhǔn)確終點(diǎn)。

高德基于多模態(tài)人機(jī)交互、地理語義理解與生成式AI應(yīng)用上的突破，推出了更符合人類指路習(xí)慣的視覺認(rèn)知導(dǎo)航，有效解決了上述痛點(diǎn)，為用戶提供零認(rèn)知負(fù)擔(dān)的“直覺式行走”體驗(yàn)。

人類在日常指路時(shí)常用“在那邊”“走那條路”“穿過紅色建筑”“下個(gè)路口有排餐飲店”等表達(dá)方式，通過融入當(dāng)前環(huán)境的地標(biāo)參考，讓路線信息更明確，其核心依賴“方向語義+地標(biāo)錨定+上下文感知”的認(rèn)知邏輯。導(dǎo)航工具若要達(dá)到人類語境下的指路效果，首先需要構(gòu)建覆蓋真實(shí)世界、可聽可視的地理語義網(wǎng)絡(luò)。

為此，高德地圖基于三大核心能力，建立導(dǎo)航系統(tǒng)對空間關(guān)系的深度理解：超億級POI數(shù)據(jù)庫、高精度步行路網(wǎng)拓?fù)洌约案采w全國大部分城市及景區(qū)的千萬級高精街景圖像。結(jié)合千問的多模態(tài)能力，系統(tǒng)可識別交通設(shè)施、商鋪、地標(biāo)建筑等實(shí)體，并評估其視覺顯著性，從而生成更符合人類習(xí)慣的自然語言描述。

真實(shí)場景中，并非所有POI都適合用于指引，地標(biāo)不清、提示不準(zhǔn)會(huì)導(dǎo)致用戶拿不準(zhǔn)“第幾個(gè)路口轉(zhuǎn)”“何時(shí)該提醒”。為提升指引有效性，高德地標(biāo)AI領(lǐng)航采用“雙重篩選”：一是時(shí)空關(guān)鍵節(jié)點(diǎn)篩選，僅在起點(diǎn)、轉(zhuǎn)彎、偏航及臨近終點(diǎn)等決策點(diǎn)播報(bào)；二是顯著感知篩選，優(yōu)先選擇更醒目、更易識別的參照物，如地鐵標(biāo)識、銀行大牌、餐飲招牌等。

同時(shí)，播報(bào)文案采用更口語化、具象化的表達(dá)，突出顏色、形態(tài)與相對位置（如“左側(cè)第二個(gè)玻璃門”），并根據(jù)場景動(dòng)態(tài)調(diào)整詳略。實(shí)測顯示，用戶在聽到視覺地標(biāo)提示后，平均比傳統(tǒng)導(dǎo)航快2秒確認(rèn)正確路徑，減少看手機(jī)頻次，進(jìn)一步降低老人、親子家庭、游客及注意力易分散人群的步行出行門檻。

此次推出的地標(biāo)AI領(lǐng)航，是高德在空間智能領(lǐng)域深耕的又一力證。通過多模態(tài)大模型對物理世界進(jìn)行視覺語義蒸餾，高德構(gòu)建起可視、可感、可用的空間智能應(yīng)用。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.