![]()
你有沒有想過,未來的家用機器人助手,其實正在向狗學習?
布朗大學的研究人員開發了一種新方法,讓機器人同時理解人類的語言指令和手勢動作,在雜亂環境中找到目標物體的成功率高達89%。這項研究將在3月17日于蘇格蘭愛丁堡舉行的國際人機交互會議上正式發布。
聽起來有點奇怪,但這項研究的關鍵靈感來源之一,確實是狗。
狗是地球上解讀人類手勢能力最強的動物之一,甚至超越了人類近親黑猩猩。布朗大學認知與心理科學副教授達芙娜·布克斯鮑姆長期研究人與狗之間的溝通模式,她的實驗室發現,狗能夠極其精準地跟隨人類的眼神和指向動作,理解人類想傳達的意圖。
這個發現讓機器人研究者眼前一亮。既然機器人助手面臨的核心挑戰之一,就是如何理解人類模糊的指示,那么“狗是怎么做到的”就成了一個值得深挖的問題。
布克斯鮑姆說:“我們在布朗犬類實驗室的研究揭示了狗在與人類溝通中有多么復雜精妙,它們解決的許多合作問題,正是我們希望機器人解決的。”
![]()
具體來說,這個模型將目標物體的可能位置,定義在一條從眼睛經過肘部延伸至手腕的連線所形成的錐形區域內。艾薇·何解釋說:“我們發現,人類在指向某物時,眼神凝視方向會與手指方向對齊,所以從眼睛到手腕的連線,是判斷指向目標相當準確的近似方式。”
這個聽起來簡單的洞見,背后其實解決了一個機器人領域長期存在的難題。
傳統機器人系統在面對雜亂場景時,很容易“過度自信”,僅憑不完整的視覺信息就匆忙鎖定錯誤目標,或者相反,因為不確定性太大而直接卡殼。研究團隊采用了一種名為POMDP(部分可觀察馬爾可夫決策過程)的數學框架,讓機器人能夠在不確定狀態下持續推理,追蹤自己對世界的認知置信度,并隨著新信息的輸入不斷更新判斷。
更重要的是,POMDP允許機器人主動選擇“有助于獲取更多信息的行動”,比如挪動位置獲得更好視角,而不是在信息不完整時強行做出決定。
![]()
艾薇·何隨后將這套手勢概率模型與視覺語言模型(VLM)結合起來。視覺語言模型是當前人工智能領域的熱門工具,能夠同時理解圖像內容和自然語言描述。
兩者融合的結果,是一套既能聽懂“幫我拿那個紅色的杯子”,又能理解“就是那個,那個”加上一個手指動作的機器人規劃系統。
實驗在實驗室的真實場景中進行,研究人員讓一臺四足機器人在散落著各種物體的空間里執行尋物任務。結果顯示,僅依靠語言指令時,機器人的成功率明顯低于雙模態結合;而同時使用手勢和語言的系統,成功率達到89%,遠超任何單一輸入方式。
這個數字在機器人領域意義重大,因為“雜亂真實環境”向來是機器人感知能力的噩夢。
布朗大學計算機科學副教授埃莉·帕夫利克評價說:“擁抱我們對人類自然溝通方式的認知,并建立與這些人類傾向和行為直覺相契合的系統,才是正確的前進道路。”
對這支團隊而言,89%只是一個起點。
參與項目的麻省理工學院博士后Jason Liu表示,未來目標是讓人類可以通過語言、手勢、眼神凝視乃至動作演示等多種方式,與機器人助手進行流暢自然的交互,就像跟一個熟練的人類助手打交道一樣。
這個方向的深遠意義在于,它不是在試圖讓人類適應機器,而是在讓機器學會理解人類本來就習慣的表達方式。當機器人開始學著像狗一樣讀懂主人的眼神,人機協作的門檻,才真正開始降低。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.