![]()
作者 | QCon 全球軟件開發(fā)大會
策劃 | Kitty
編輯 | 宇琪
具身智能作為 AI 從數(shù)字世界邁向物理現(xiàn)實的核心躍遷,是通往 AGI 的關(guān)鍵路徑,卻依然受困于模型泛化性不足、數(shù)據(jù)采集難、閉環(huán)難以實現(xiàn)等深層難題,真正的產(chǎn)業(yè)落地仍舉步維艱。那么,具身智能究竟卡在哪兒了?
近日 InfoQ《極客有約》X QCon 直播欄目特別邀請地瓜機器人算法副總裁隋偉博士擔任主持人,和地瓜機器人具身智能負責人何泳澔博士、樂享科技 CTO 李元慶、北京科技大學副教授彭君然博士一起,在2026 年 QCon全球軟件開發(fā)大會(北京站)即將召開之際,共同探討具身智能落地實戰(zhàn)中的卡點。
部分精彩觀點如下:
工業(yè)場景并不需要追求通用性,如果能將某個高價值工位的任務做到穩(wěn)定、可靠、高效,這本身就足以支撐一家公司達到百億估值。
如果想讓 AI 實現(xiàn)可控生成,就必須保證每一個環(huán)節(jié)都是可控的,全鏈路可控才能實現(xiàn)整體可控。無人駕駛是這樣做的,從實驗室走向落地同樣應該如此。
這么多年做機器學習,我一直認為保證數(shù)據(jù)質(zhì)量是第一位的,模型反而是第二位的。
現(xiàn)階段不應該一股腦上具身,很多具身公司在做的事情,明顯有更低成本的自動化替代方案。‘
在 4 月 16-18 日將于北京舉辦的 QCon 全球軟件開發(fā)大會(北京站) 上,我們特別設(shè)置了 【具身智能與物理世界交互】 專題。該專題將深度拆解具身智能技術(shù)鏈路,探討模型現(xiàn)狀、核心挑戰(zhàn)與機會,加速具身智能技術(shù)研發(fā)轉(zhuǎn)化與產(chǎn)業(yè)規(guī)模化落地。查看大會日程解鎖更多精彩內(nèi)容:https://qcon.infoq.cn/2026/beijing/schedule
以下內(nèi)容基于直播速記整理(經(jīng) InfoQ 刪減)。
完整直播回放可查看:http://gk.link/a/12HKJ
隋偉:我們今天談“卡”,有一種聲音認為“技術(shù)發(fā)展需要時間,不算卡”;另一種聲音認為“商業(yè)化不及預期,就是卡住了”。在老師們看來,我們現(xiàn)在的狀態(tài),是“在爬坡”還是“被卡住”?
何泳澔:具身智能從邊緣領(lǐng)域逐步成為主流焦點的根本驅(qū)動力在于大模型的突破性進展,直接激發(fā)了整個賽道的想象空間。此前大模型能力局限于數(shù)字空間,無法與物理世界交互;彼時的具身也還是基于傳統(tǒng)模塊化能力構(gòu)建的。大模型出現(xiàn)之后,業(yè)界迅速捕捉到一個方向:將大模型與硬件結(jié)合,或許能讓硬件能力實現(xiàn)跨越式發(fā)展。有了硬件加持,高級智能便得以與物理世界交互,想象空間巨大。
與物理世界交互,意味著需要大量傳感器,視覺類傳感器是主流,力覺類也在逐步成為重要組成部分。傳感器增多,數(shù)據(jù)維度與模態(tài)隨之增加,學習難度呈指數(shù)級上升。因此我們現(xiàn)在的體感是:時不時出現(xiàn)引人矚目的成果,隨后沉寂相當長一段時間,令人心生疑慮,而后又突然出現(xiàn)突破性進展,重新振奮信心。我認為任何創(chuàng)業(yè)方向都是在樂觀與悲觀并存的狀態(tài)下推進的,遭遇卡點或商業(yè)化不及預期都是可以理解的。許多人提到,這一波 AI 技術(shù)浪潮有可能成為人類歷史上最后一波技術(shù)創(chuàng)新。一旦這些問題真正解決,人類將進入高速發(fā)展期,奇點也將隨之到來。
李元慶:從現(xiàn)狀來說,機器人走進千家萬戶、滲透工業(yè)各行各業(yè)確實尚未實現(xiàn),從資本和企業(yè)的視角看確實存在卡點。但以無人駕駛為參照,耦合度和復雜度較高的系統(tǒng)通常需要經(jīng)歷約五年的成長期、穩(wěn)定期和成熟期。具身智能這一概念大約在 2023 年前后才開始廣泛傳播,才剛剛起步。三年前,市面上大多還是小舵機機器人、小型人形機器人乃至四足機器狗,甚至不太敢出現(xiàn)在展臺上。但今年春晚,宇樹的機器人在臺上做跑酷,跳躍高度令人震驚。
從另一個角度看,耦合度和復雜度較高的系統(tǒng)在中國市場發(fā)展,通常需要 400 到 500 家企業(yè)持續(xù)攻關(guān)才能推動市場化運營,目前具身智能領(lǐng)域的企業(yè)數(shù)量尚未達到這一規(guī)模。待到那個階段,或許會經(jīng)歷一輪對過高預期的祛魅,但也必然留存下扎實可靠的技術(shù)。
總體而言,ToB 方向各家已在用各種策略推進落地,雖還無法直接替代各行各業(yè),但已能解決部分問題。ToC 方向,承載情緒價值的會說話的玩具已十分典型。導航與人機交互已初具雛形,具備小型記憶與推理能力,若能在靈巧操作和長鏈條任務復雜推理上進一步突破,具身智能其實離大眾并不遙遠。
彭君然:ToB 層面目前并非卡住了,而是處于磨合期,涉及幾個層面:第一是需求,機器人能做導航、能做運動控制,但工廠真正的需求是什么?目前頭部企業(yè)中估值百億以上的約有 50 家,基本都在做 ToB,各家都在與垂直領(lǐng)域工廠對接,探討如何用自身方案解決客戶需求。第二是痛點顆粒度,哪些問題必須用具身解決,哪些用工業(yè)自動化更合適?
第三是經(jīng)濟賬,政府補貼之后,需要達到多高的良品率或提升多少效率才能盈利?這為行業(yè)提供了一個過渡期,給出了明確的成本導向。現(xiàn)在一臺機器人賣 50 萬、70 萬尚屬高位,但市場可能只能接受 20 萬左右。我也聽說過一個案例:頭部企業(yè)報價 400 萬,一家規(guī)模僅其十分之一的團隊報價 200 萬,工廠最終選擇了后者,可見 ToB 市場成本敏感程度極高。
ToC 方面,目前尚未真正進入磨合期。當前率先走進家庭的主要是以情緒價值為主的產(chǎn)品,機器人尚不了解家庭環(huán)境,需要先找到進入家庭的途徑,即便此時其他功能幾乎全依賴大模型或視頻通話等非具身能力。但一旦進入家庭,機器人便能對用戶和環(huán)境建立更深入的了解,C 端用戶的購買傾向與產(chǎn)品價值也在雙向磨合中逐步匹配。所以我認為目前完全沒有卡點,整體發(fā)展相當順暢。
隋偉:何博,您在演講中提出“VA 比 VLA 更適配工業(yè)”,這個判斷本身就隱含了一個“卡點”——大模型進不了產(chǎn)線。想先請您用一分鐘概括:那個最根本的“不適配”到底在哪?
何泳澔:VLA 全稱 Vision-Language-Action,以視覺與語言模態(tài)共同作為輸入來生成動作;VA 則僅以視覺作為輸入來預測動作,兩者之差正是中間的 L——語言。在工業(yè)場景中,整體環(huán)境高度結(jié)構(gòu)化,流程基本確定,不需要通過自然語言來引導機器人。
語言本質(zhì)上是一種交互手段,更像 UI 層,面向 C 端時 L 或許是核心,但在工廠中它不僅作用有限,還帶來額外的計算開銷和訓練數(shù)據(jù)復雜度。基本可以理解為,工業(yè)場景與 C 端通用場景之間的本質(zhì)差異,是專用與通用的區(qū)別。
隋偉:元慶老師,您在演講中明確提出,“具身 Agent 是破解瓶頸、銜接 VLA/VA 與物理世界的核心載體”。您所說的這個“Agent”,和業(yè)界常說的“大模型”、“機器人軟件系統(tǒng)”,最本質(zhì)的區(qū)別是什么?它為什么是“核心”?
李元慶:在做端到端的過程中,我發(fā)現(xiàn)從指令到最終動作軌跡,往往無法完整執(zhí)行任務,成功率低、節(jié)拍慢、效果差。核心問題在于:要讓模型指揮任務,必須將所有關(guān)鍵信息完整提供給它。舉個例子:讓機器人幫我把水杯拿來,它立刻面臨一系列問題:去哪拿?兩個水杯哪個是你的?要不要加水?加什么?人的指令高度壓縮,而完成任務所需的信息嚴重缺失。
端到端在現(xiàn)階段無法落地,因為無論從視覺、指令還是語義地圖中,都無法提取完整信息,人類自然語言壓縮了太多內(nèi)容。因此我堅信這一階段率先落地的應該是 modularl-based 方案,而 Agent 正是這一路線下的典型策略。Agent 涵蓋 perception、decision-making、memory 與 action 的完整閉環(huán),與強化學習范式高度相似,且各單點目前都已有可落地的解法。
我相信未來存在 model as a product 的形態(tài),一個 AI 模型解決一切問題,這非常接近 AGI。但在此之前,AI 外部還需要大量工程化的殼來輔助,通過更好的 prompt 和不斷補充的信息來構(gòu)建 Agent。
此外,機器人軟件系統(tǒng)很像操作系統(tǒng),目前基于 AI 架構(gòu)設(shè)計的軟件系統(tǒng)還未得到充分應用。我們還看到,硬件開發(fā)過程中底層軟件和嵌入式驅(qū)動仍在大量重復開發(fā),根源在于技術(shù)路徑尚未定型、產(chǎn)品導向尚不清晰,相關(guān)標準與協(xié)議仍不夠成熟。如果有一個軟件系統(tǒng)天然適配 AI 所需的高帶寬、高實時響應、高并行 GPU 運算及異步計算,同時能輕量化運行在機器人本體上,將是極為值得期待的產(chǎn)品。
隋偉:彭老師,從高校研究者的視角,您覺得產(chǎn)業(yè)界現(xiàn)在對“空間智能”最大的誤解是什么?這個誤解本身,是不是一個“卡點”?
彭君然:我認為并不存在誤解,因為空間智能這個詞本身太寬泛了,場景重建、位姿估計、SLAM、三維生成、資產(chǎn)生成乃至世界模型,都在其范疇之內(nèi)。問題不在于誤解,而在于討論時術(shù)語未能統(tǒng)一,各說各的,實際上都是在談某一個具體技術(shù)方向,卻用了寬泛的表述,這倒不構(gòu)成卡點。
算法之卡
隋偉:何博您在演講提綱中提到“注意力放在 VA 上,潛臺詞是沒考慮通用性”。那我想追問:工業(yè)場景真的不需要通用性嗎?一條產(chǎn)線今天擰螺絲、明天裝手機,這不就是通用性需求嗎?“工業(yè)通用性”和“AGI 通用性”的區(qū)別到底在哪?
何泳澔:我為工業(yè)方案歸納了三個依次遞進的關(guān)鍵詞:穩(wěn)定(機器不能宕機)、可靠(功能成功率接近 100%)、高效(在前兩者基礎(chǔ)上追求),這三個關(guān)鍵詞與通用性關(guān)聯(lián)不大。工業(yè)場景中硬件首先無法通用,尤其是操作類任務,不同工位的末端執(zhí)行器大概率不同。但通用性可以體現(xiàn)在模型層面:任務不同,底層模型架構(gòu)可以相同,針對不同任務采集數(shù)據(jù)訓練出不同能力的模型,模型結(jié)構(gòu)保持一致。因此工業(yè)場景并不需要追求通用性,如果能將某個高價值工位的任務做到穩(wěn)定、可靠、高效,這本身就足以支撐一家公司達到百億估值。
隋偉:那 VLA 和 VA 目前能達到這個程度嗎?工業(yè)操作有些需要毫米級乃至亞毫米級的精度,現(xiàn)有模型能直接解決嗎?
何泳澔:解決不了。即便 VA 類模型更適配工業(yè),若要完成高精度任務并保證高成功率,單靠模型肯定不夠。需要從整體架構(gòu)設(shè)計入手,可能采用模塊化方案,其中某些環(huán)節(jié)引入 VA 算法,還需要配套的數(shù)據(jù)采集方案和仿真能力。解決工業(yè)問題是極其綜合的工程,絕非單一模型所能勝任。
隋偉:所以未來工業(yè)智能不會是一個模型通吃,而更可能是模型超市,不同模型解決不同任務。
何泳澔:是的,不同場景、不同任務,組合方式都會不一樣。
隋偉:隨著技術(shù)發(fā)展和數(shù)據(jù)積累,這些模型有沒有可能走向大一統(tǒng)?
何泳澔:投入足夠大也許有可能,但過程中隨時會出現(xiàn) ROI 層面的變化。當某個節(jié)點 ROI 已經(jīng)最優(yōu),就沒必要繼續(xù)推進通用性了。對工業(yè)場景而言,追求通用性可能是一種執(zhí)念,而這種執(zhí)念并無必要。
隋偉:工業(yè)場景本身就是相對專業(yè)化的領(lǐng)域。
何泳澔:正是如此,而且正因為有難度,反而可以推動工廠配合進行場景改造。這件事歸根結(jié)底由投入產(chǎn)出來定義,而非純粹出于“希望它變得通用”的技術(shù)愿景。
隋偉:元慶老師,您提出要“避免實驗室好用、現(xiàn)場失效”。從 Agent 架構(gòu)設(shè)計的角度看,導致“現(xiàn)場失效”的最主要的技術(shù)原因是什么?是感知層對環(huán)境變化不適應,還是決策層規(guī)劃太慢,或是執(zhí)行層的指令翻譯出錯?
李元慶:如果先不談算法,我認為從實驗室走向落地最典型的挑戰(zhàn)就是信號問題。邊端協(xié)同場景下,一旦網(wǎng)絡(luò)帶寬不足或出現(xiàn)丟包,機器人就會直接宕機。
以 Agent 各層次來看:perception 層面,實驗室里 7B 左右的模型基本什么都能識別,但真實場景中物體大量重疊、顏色色差、傳感器跳變、光照影響,紅色可能被識別成橙色,底層感知整個就亂了。決策層面,只要存在一點時延或誤差,甚至中間有動態(tài)陰影經(jīng)過,判斷就會完全失準。
執(zhí)行層面,硬件精度、執(zhí)行準確度與策略推理之間哪怕存在微小誤差,影響都會非常顯著。整體來看,這是一個極其復雜的系統(tǒng)。AI 的可控生成,其實一定程度上就是保證每一個環(huán)節(jié)都是可控的,全鏈路可控才能實現(xiàn)整體可控。無人駕駛是這樣做的,從實驗室走向落地的產(chǎn)品同樣應該如此。
隋偉:兩者對場景的要求確實不同。實驗室更多是解決創(chuàng)新性問題,而真正到現(xiàn)場就得應對各種 corner case。
李元慶:而且具身智能從一開始就在解決 scaling 和通用性的問題,從來沒有進入過能用 SOP 去測試的成熟階段。我可以負責任地說,我們的實驗室在場景和落地細節(jié)不清晰的情況下,很多性能指標就沒怎么評估準確過。
隋偉:您也提到“多智能體協(xié)同、長期記憶幾乎沒有成熟方案”。這個問題在工業(yè)場景下是不是特別突出?比如一條產(chǎn)線上多個機器人協(xié)作,或者一個機器人需要記住昨天沒干完的活。Agent 框架能怎么解決這個問題?還是說,這超出了當前 Agent 的能力范圍?
李元慶:能走向落地的記憶系統(tǒng)應該是分層的、多模態(tài)的,具備時空關(guān)聯(lián),支持可檢索與可推理。以往實現(xiàn)記憶大致有三種方式:內(nèi)隱記憶(將內(nèi)容訓入模型)、外顯式記憶(結(jié)構(gòu)化寫入文件后檢索)、embedding 索引檢索。
工廠場景中如果多機需要協(xié)作共享日志,不如直接用成熟的通信工具解決,而不必強行套用 AI 方案。用合適的技術(shù)解決合適的問題,這正是 Agent 的魅力:它并非 all-in AI,而是將以往自動化領(lǐng)域積累的結(jié)構(gòu)化信息,以更巧妙的方式整合進來。從黑盒外部看到的是完整結(jié)果,打開內(nèi)部會發(fā)現(xiàn)是拼湊起來的模塊,這完全沒有問題。
隋偉:元慶老師提到的 Agent 架構(gòu)中,有一個“基于 World Model 的意圖預判與規(guī)劃”層。何博,在您的工業(yè)操作實踐中,您覺得引入這種“預判”能力,對于提升操作的柔性和成功率,是必需的嗎?它的計算開銷會不會成為新的瓶頸?
李元慶:關(guān)鍵在于要不要用。字節(jié)在 Flamingo 之后就開始做 imagination,特斯拉 FSD 也將其納入。在算力充裕的前提下使用沒有問題,收益也很明確:在動態(tài)環(huán)境下能更快響應,提高成功率。至于開銷,取決于產(chǎn)品定義,如果產(chǎn)品需要在這樣的工況下運行,就應該承擔相應的算力開銷。
以前學 MPC 時,它用短規(guī)程動力學模型做規(guī)劃,加入預測來做滾動誤差迭代。自動化領(lǐng)域其實早就存在解決類似問題的思路,world model 與之非常相似,只不過處理的是更長規(guī)程、多模態(tài)的問題。
何泳澔:我們最近正在研究 world model 與操作任務的結(jié)合,初步結(jié)論是肯定能起到正向作用。主流 world model 大致有兩種形態(tài)。第一類在像素空間預測未來,通過預測未來幀來理解物理規(guī)律和事件演化,視頻生成模型就可以視為這一類,具身領(lǐng)域知名的如 World Labs 的 Marble 即屬此類。
第二類是 LeCun 提出的 JEPA 路線,不在像素空間預測,因為其中干擾和噪聲太多,而是在隱空間預測特征的演化。兩種路線都已獲得資本的大額押注。world model 對操作之所以有用,在于以往基于簡單視覺基礎(chǔ)模型描述觀測,只能整合當前和歷史信息;而在 world model 范式下預訓練的基礎(chǔ)模型,有可能融入對未來信息的感知,觀測表達能力更強。學術(shù)界已有工作證明這一方向有效。此外,world model 在具身領(lǐng)域未來必然走向多模態(tài)集成,力覺等模態(tài)都將被納入,最終有可能發(fā)展為多模態(tài)大模型的終極方案。
隋偉:彭老師在 world model 方向深耕多年,您認為它對具身會有哪些幫助?
彭君然:目前資本投入最大、落地最好的是大模型 Agent。以頭部大模型訓練代碼能力為例,他們早已超越 SFT 階段,同時起 5000 個 Docker 節(jié)點,每個節(jié)點做數(shù)百輪對話,在 post-training RL 階段對是否報錯、是否通過單元測試、顯存和效率等分別給予 reward。類比到 world model:最前沿的方案就是把 world model 作為 reward 來源,在 post-training 階段為 VLA 提供評估信號,思路與語言模型訓練 code Agent 高度相似。
從這個角度出發(fā),world model 最關(guān)鍵的作用是充當評估器和 reward 來源。涉及兩件事:VLA 輸入多模態(tài)信息、輸出 action;world model 根據(jù) action 預測未來的 observation,再對不同 observation 的好壞做出評價,將評價反饋回來。我比較認同的定義是:world model 就是從 action 到 observation 的預測,加上對 observation 給出評價的能力。
隋偉:從空間智能角度看,無論是 VA 還是 VLA,它們所依賴的視覺輸入,目前是否本身就“先天不足”?比如,模型是否只看到了物體的“樣子”(RGB),而看不到對物理交互至關(guān)重要的“材質(zhì)”(摩擦力、反射率)和“功能”?
彭君然:我認為確實需要更多信息,但不代表必須包含材質(zhì)標注,材質(zhì)其實可以從視覺中獲取。我們?yōu)橛螒蚬咀?AIGC 時發(fā)現(xiàn),建模師給資產(chǎn)賦予材質(zhì)完全靠視覺認知,《荒野大鏢客》的高度逼真材質(zhì)正是這樣實現(xiàn)的。閉上一只眼睛看眼前的環(huán)境,你也能分辨混凝土、光滑木頭和粗糙木頭。因此摩擦力等信息,純視覺是可以獲取的。
但力覺依然關(guān)鍵。很多情況下不同力作用下的觀測結(jié)果可能完全相同,只有到達臨界點時視覺才會出現(xiàn)微小變化,一旦力再加大、觀測產(chǎn)生顯著變化,往往已經(jīng)無法挽回。對安全性要求高或涉及特殊操作的場景,單靠視覺是不夠的。
何泳澔:單純做 next frame 預測,能否讓模型學到物理規(guī)律影響下的運動行為?我感覺有一派認為純從視頻就能搞定物理問題,但這套方式歸根結(jié)底是統(tǒng)計學習,必然有處理不了的情況。
彭君然:確實有局限性,畢竟不是數(shù)值解。但關(guān)鍵問題在于:在非數(shù)值解的條件下,是否足以為 VLA 提供合適的 reward?這是另一個層面的問題。
李元慶:流形嵌入理論有一個核心觀點:運動細節(jié)在采集的數(shù)據(jù)里根本沒有被模擬到,大量視頻只有杯子靜置和碎裂兩個狀態(tài),中間物理動態(tài)變化的過程完全缺失。我以前做 GPU 時,compute shader 基于物理引擎做圖形擬合,效果看起來像那么一回事,但實際上不是。物理引擎如今應用相當廣泛,為什么在視頻生成里反而跑得更快?這里面還有些問題沒有厘清。
何泳澔:我有一個直覺:既然已有成熟的物理引擎,以數(shù)學公式的方式顯式地納入了物理規(guī)律,那么如何將它與 world model 結(jié)合,讓模型在統(tǒng)一的物理規(guī)律下實現(xiàn)泛化?
隋偉:物理引擎是規(guī)則化的方式,world model 還是希望通過 learning 來學習更復雜的物理規(guī)律。
何泳澔:對,這正是兩類 world model 的區(qū)別:一類執(zhí)著于在像素空間完美還原;LeCun 的思路是認為這沒有意義,直接在 latent space 預測,從而直達最關(guān)鍵的信息,其中也有可能包含物理規(guī)律。能否真正做到還需要觀察,他們已有相關(guān)論文,結(jié)果看上去比較 promising。
數(shù)據(jù)之卡
隋偉:元慶老師,您把“數(shù)據(jù)極度稀缺”列為第二大痛點。但您也提到 Agent 能實現(xiàn)“反饋層:數(shù)據(jù)閉環(huán)優(yōu)化”。能不能具體解釋一下,一個設(shè)計良好的 Agent,是如何在真實物理交互的過程中,自動采集、篩選、并利用數(shù)據(jù)來優(yōu)化自身,從而部分緩解“數(shù)據(jù)饑渴”的?
李元慶:OpenVLA 很典型,它把數(shù)據(jù)和操作流程做成了閉環(huán)并實現(xiàn)無限迭代。我們做 VLA 時用到過 HIL-SERL 算法:先由人工示教 20 到 30 條數(shù)據(jù),基于 reward 構(gòu)建 RL 緩沖區(qū),再用 RLPD 策略訓練。目前已有團隊將這一思路作為重點方向,真機可靠性也有了顯著提升,但目前數(shù)據(jù)量肯定還是不夠的。
此前業(yè)界猜測具身基礎(chǔ)模型約在 14B 左右,需要百萬小時量級的視頻數(shù)據(jù)。但我現(xiàn)在感覺,如果能找到與自身高度匹配的開放數(shù)據(jù)集,合理構(gòu)建數(shù)據(jù)配比,解決策略比以前便宜很多了。
自閉環(huán)、OpenVLA 架構(gòu)、RLPD,這三種方式或許能在這個階段更新很多模型公司的數(shù)據(jù)獲取方式。
隋偉:那真機強化學習在實際場景中具有可行性嗎?
李元慶:以前覺得讓 VLA 插 USB 極其困難,但 SERL 做到了,這是工程事實。不過從黑盒角度看,強化學習這條路的上限相對有限。我當年走 MPC,一直卡在 reward 難以收斂的問題上。但大模型具備世界常識,如果能讓 reward 基于世界常識定義并快速迭代,以前很多走不通的路或許能再走一走。
隋偉:用 world model 給 reward,是提供量化數(shù)據(jù)來指導訓練嗎?
李元慶:以前的 reward 就是定義一套固定的 constraints 和 rules,不停地往里 overfit。如果能引入 world model,reward 就可以在訓練過程中持續(xù)迭代優(yōu)化,把 overfit 到具體指標的問題轉(zhuǎn)變?yōu)橼厔菪砸龑В芏嘁郧皝G失精度的地方也許可以再提回來。
隋偉:何博,您提出“軌跡數(shù)據(jù)標準化”來降低模型訓練震蕩。這個思路很有意思,有點像給數(shù)據(jù)“消毒”。能不能透露一下,這個“標準化”處理,是會損失一些數(shù)據(jù)的多樣性,還是能去蕪存菁?
何泳澔:背景是這樣的:遙操作采集數(shù)據(jù)時,操作者控制主臂帶動從臂,采集到的軌跡不可避免地含有噪聲,比如停頓、無意義片段、手部抖動導致的不平滑軌跡。
不同操作者習慣不同,軌跡差異更大。VLA 和 VA 的策略預測大多基于擴散模型或 flow matching,強行擬合含噪數(shù)據(jù),模型也會把噪聲學進去。我們的思路是:對所有采集軌跡進行處理,使其干凈且流暢度一致,讓后續(xù)策略學習更簡單高效。
第一階段目標是在末端軌跡層面,讓運動學與動力學特征高度一致。具體做法是構(gòu)造相關(guān)項建立 cost function 優(yōu)化軌跡,剔除質(zhì)量較差的點,只保留優(yōu)質(zhì)軌跡點訓練,本質(zhì)是一個采樣過程。相比均勻采樣,這種方式在我們的實驗中精度提升了 20 個百分點。這是數(shù)據(jù)預處理流程,不修改模型本身,訓練前先過一遍算法再訓練。結(jié)果非常正向,接下來會在更復雜情況下推進。
這么多年做機器學習,我一直認為保證數(shù)據(jù)質(zhì)量是第一位的,模型反而是第二位的。
隋偉:彭老師,您的研究涉及“生成”路徑。未來有沒有可能,我們不再需要辛苦采集真實數(shù)據(jù),而是像 Sora 生成視頻那樣,直接“生成”一個機器人完成裝配任務的完整軌跡數(shù)據(jù),而且自帶物理標注?
彭君然:大概率是這個方向。從 scalability 角度看,訓練語言模型的數(shù)據(jù)量比具身多出 5 到 6 個數(shù)量級,現(xiàn)有數(shù)據(jù)量遠遠不夠。目前數(shù)據(jù)來源主要有三種:實采、仿真引擎生成或三維重建導入仿真、從視頻或世界模型中獲取。即便雇 400 人不間斷地實采,泛化性依然有限,因為無法在不侵犯隱私的前提下進入真實家庭采集,業(yè)界普遍認為 scale up 還是要靠視頻生成模型或世界模型。但生成數(shù)據(jù)是否需要物理標注是個難點,世界模型是用純視頻訓練的,很難獲取力學標注,而真實操作場景中力的反饋至關(guān)重要。
我們的探索方向是:不把力的絕對大小作為標注,而是把力的梯度,即力發(fā)生階躍時的變化量,作為物理標注。力發(fā)生臨界性劇變時,視覺上也會有顯著變化,兩者可以互相映射。
隋偉:生成式數(shù)據(jù)與真實數(shù)據(jù)之間的 gap 能彌補嗎?
彭君然:三種方式各有局限:UE/PCG 生成存在 sim-to-real gap;重建方式物理交互真實性難以保證;生成模型是最有希望的路線。即便存在偏差,就像近似解把級數(shù)展開的小項丟掉,當數(shù)據(jù)量足夠大時主成分被保留,誤差被攤薄,整體效果依然可期。
隋偉:從空間智能角度看,最重要的數(shù)據(jù)因子是什么?
彭君然:取決于具體任務,穿針引線、拆箱、擦拭等必須依賴力覺,有些任務則不需要,但視覺加力覺基本就夠了。
隋偉:既然數(shù)據(jù)這么貴、這么難,那有沒有一種可能:我們先不追求“數(shù)據(jù)驅(qū)動”,而是用“模型驅(qū)動”,把物理規(guī)律、常識知識先編碼進模型,讓它更“聰明”地學習,從而大幅降低數(shù)據(jù)需求?這條路可行嗎?
何泳澔:目前看來沒有成熟方案,我認為最終還是會回歸數(shù)據(jù)驅(qū)動。
李元慶:我認為這件事其實已經(jīng)在用了,F(xiàn)SD 就是典型,高精地圖和車道線本質(zhì)上就是把先驗知識注入進去。算法層面:GAN 通過對抗降低數(shù)據(jù)需求;PPO 中 critic 和 actor 將 constraints 和 rule-based 內(nèi)容注入其中。更典型的是 WBC 加 MPC,WBC 將物理約束通過 teacher policy 形式注入,大幅降低數(shù)據(jù)需求,加快模型收斂。這條路一定可行,因為已經(jīng)有人做出了結(jié)果。
隋偉:也就是說,learning 方法負責突破上限,規(guī)則和先驗知識負責兜底。
李元慶:數(shù)學建模和數(shù)值分析的積累不應被拋棄。模型具備數(shù)學能力,一個重要原因是代碼中以數(shù)學模型的方式內(nèi)嵌了大量物理規(guī)律和常識,這些東西一直在以這種方式被灌入。
隋偉:如果規(guī)則足夠明確,就可以優(yōu)先利用,沒必要訓一個有隨機性的模型來回答 1+1=2。
彭君然:模型要做出決策,必須先把觀測空間變成可計算的空間,這個轉(zhuǎn)換本身就存在大量簡化。很多場景可以抽象為矢量空間,物理規(guī)律和常識在其中非常容易 apply。但像插 U 盤這類精細操作,難以抽象出足夠好的矢量空間,物理知識也就無法直接機械套用。這不是可不可行的問題,而是需求、方案與任務難度之間整體匹配的問題。
物理交互之卡
隋偉:彭老師,您演講題目是“空間智能初探:重建與生成的雙路徑實踐”。您能給大家簡單介紹一下“重建”和“生成”這兩種技術(shù)路線的差別嗎?
彭君然:我的報告涵蓋重建、生成和世界模型三條路線,視角偏工業(yè)導向,核心是什么事能給工業(yè)界帶來價值。從需求出發(fā):重建的目標在我的視角下并不是為了訓練。許多 ToB 場景需要做 POC,但工廠產(chǎn)線不能停,可能只有深夜兩個小時可以進場,效率極低。如果能用數(shù)字孿生方式對場景進行 1:1 重建,團隊就可以在任何時間、任何地點并發(fā)地完成 90% 的 POC 工作,大幅提升效率。
生成的價值則在于:重建是對現(xiàn)實的復刻,若需要對場景進行編輯或產(chǎn)生多樣化變化,就需要生成出成千上萬的測試場景來驗證方法的魯棒性。我們還有另一類生成方案,用大語言模型驅(qū)動 UE 或 Blender 生成海量場景,這些引擎的物理仿真和 URDF 導入做得相當好。
第三條路線世界模型,才是追求 scale up 的終極目標。走過大模型這條路,我們始終擔心押注前兩條路而錯過第三條路的決定性突破,所以三條路線都在同步布局。
隋偉:復刻現(xiàn)有場景,生成能產(chǎn)生多樣化內(nèi)容,世界模型能生成更豐富的信息嗎?
彭君然:對。前兩種方式無法借力大語言模型或視頻生成模型的成功,只有第三種可以,所以第三種前景更大。
隋偉:何博,在您的工業(yè)操作實踐中,您覺得當前機器人對物理世界最“無知”的地方是什么?是不知道東西有多重(動力學),還是不知道表面有多滑(摩擦系數(shù)),還是不知道一碰就倒(穩(wěn)定性)?
何泳澔:這幾類信息都缺,沒有哪個是最缺的。從工程實踐來看,力覺在工業(yè)落地中是必須存在的模態(tài),可以分成不同層級:粗粒度只關(guān)注關(guān)節(jié)力矩,更高精度則加裝六維力傳感,進一步細化則在末端加裝觸覺傳感,目前已有分辨率相當高的方案可用。
我們的做法是按這個步驟逐步引入更復雜的力覺模態(tài),但每種模態(tài)的數(shù)據(jù)形式和結(jié)構(gòu)各不相同,直接影響數(shù)據(jù)采集的方式和難度。
隋偉:也就是引入更多模態(tài),代價是采集效率降低、成本提高。
何泳澔:對,但核心問題是:必須用新的模態(tài)來突破現(xiàn)有方案成功率的天花板。單一視覺模態(tài)已有明顯瓶頸,必須引入力覺才能突破。
隋偉:不過視覺的上限可能比想象中高得多,F(xiàn)SD 純視覺的上限能接近視覺加激光雷達的水平。算法和數(shù)據(jù)能力足夠強,純視覺也是可行路。
何泳澔:純視覺之所以可行,是因為如果能通過純視覺還原場景所有細節(jié),就相當于擁有了上帝視角。但難度極高,所以才需要引入更多模態(tài)來代償。
隋偉:一個能實際用于 Agent 決策的 World Model,和學術(shù)界追求的“完美預測下一個畫面”的世界模型,最大的不同在哪里?工業(yè)場景需要的 World Model,到底應該“模”什么?
何泳澔:先有雞還是先有蛋的問題:你希望 world model 能預測出好的未來,前提是已經(jīng)在這個場景用大量數(shù)據(jù)訓練過它。既然已經(jīng)能獲取那么多數(shù)據(jù),為什么不直接用來訓練原本的任務?
李元慶:我的感受是:有了更好的刀,才能有更好的尺;有了更好的尺,又能磨出更好的刀。兩者不相悖,而是螺旋上升的關(guān)系。
彭君然:VLA 訓練需要帶 action 標注的機器人數(shù)據(jù),量相對有限;world model 的訓練來源是 web 視頻,量要大得多,兩者用的不是同一個數(shù)據(jù)集。前提假設(shè)是 web 視頻或視覺信息足以提供有效的 reward 信號,方案是基于這個前提設(shè)計的。
系統(tǒng)落地之卡
隋偉:元慶老師,從您的經(jīng)驗看,現(xiàn)在想用具身智能改造產(chǎn)線的企業(yè),他們最容易低估的“隱形成本” 是什么?是部署調(diào)試時算法工程師的大量駐場時間,還是為了讓環(huán)境適應機器人而做的改造費用,或者是后期數(shù)據(jù)維護和模型迭代的持續(xù)投入?
李元慶:你提到的那幾項都是顯性成本,更值得關(guān)注的是企業(yè)主的決策成本。因為信息不準確或不全面做出錯誤決策,后續(xù)一連串投入全部變成巨額成本。而且每一個決策都會成為人力、資本和代碼開發(fā)的杠桿,杠桿一旦形成,費用極其高昂。
大家看到的具身智能似乎已經(jīng)很穩(wěn)定,但真正落地時會發(fā)現(xiàn)還有很多問題沒解決,而能講實話、做出準確評估的人很難找到。決策成本的根源正是信息不對稱、不全面和不準確,最前期就已經(jīng)在產(chǎn)生非常高昂的成本了。
隋偉:要評估成本,就得衡量機器人進入場景能帶來多大價值。具身技術(shù)在工業(yè)場景下能做到什么程度?相對于傳統(tǒng)工業(yè)自動化的優(yōu)勢在哪里?
何泳澔:在絕大多數(shù)場景下,具身方案目前比不過工業(yè)自動化;在部分高價值、高難度的場景,兩者都做不了,仍然需要人工。中間存在一個 gap,高度定制化的工業(yè)自動化能覆蓋,但成本很高;具身也有可能覆蓋,優(yōu)勢在于能將某些環(huán)節(jié)沉淀為通用能力,在通用性與定制化之間找到平衡點,這是具身可能發(fā)揮價值的地方。但現(xiàn)階段不應該一股腦上具身,很多具身公司在做的事情,明顯有更低成本的自動化替代方案。
隋偉:也就是說具身的價值在于解決傳統(tǒng)自動化做不了的柔性或長程任務,最適合的技術(shù)才是最好的。
何泳澔:具身具備邊際成本遞減的能力,完全定制的工業(yè)自動化在這方面比較難。
隋偉:彭老師,您在學校里培養(yǎng)學生,如果目標是去產(chǎn)業(yè)界解決這些“工程煉獄”問題,您會重點教他們什么?學校教育和產(chǎn)業(yè)需求之間的“最后一公里”卡在哪?
彭君然:最需要解決的不是最后一公里,是第一公里,甚至是第一米。在 AI 日益普及的今天,最關(guān)鍵的能力是盡早學會認知價值、預判未來、做出合理決策,其他一切在這件事面前都是徒勞。
展望未來
隋偉:何博,對于正在做機器人操作算法的工程師,您最想建議他們“不要在什么地方浪費時間”?
何泳澔:不要把技能棧鎖定在某一個點上,建議全棧了解:從控制機械臂,到 VA/VLA 模型訓練、部署,再到整體方案設(shè)計。這些東西沒有想象中那么難,把經(jīng)典代碼實操一遍基本就能掌握。全棧了解能建立全局視角,之后再形成自己的價值判斷,深入最有前景的方向,最好還能參與一個實際的工業(yè)項目。
隋偉:元慶老師,未來 2-3 年,在 Agent 架構(gòu)層面,您認為最有可能取得突破、從而打通一個關(guān)鍵卡點的技術(shù)方向是什么?
李元慶:Perception 落地趨勢越來越明顯,多模態(tài)對齊和 reasoning 的標注策略也越來越清晰。但 action 仍是最核心的卡點——Mobility(navigation 和 locomotion)和 manipulation,我們對真實物理世界物體交互的探索還有很多未完全探知之處。
隋偉:對于正在選擇研究方向的研究生,未來五年,具身智能領(lǐng)域最值得深耕的學術(shù)方向是什么?
彭君然:這個粒度太難預測了,而且也不一定非是具身智能。隨著年紀增長,我越來越覺得要跟著國家政策走,多看看下一個五年計劃,還是能發(fā)現(xiàn)新機遇的。
隋偉:請每位嘉賓用一句話預測:具身智能在工業(yè)場景的“iPhone 時刻”(即規(guī)模化復制的引爆點),最有可能因為什么事件或技術(shù)突破而到來?
何泳澔:如果一臺具身機器人能在某個工位上持續(xù)完成任務一個月,它就真正具備了長期商業(yè)落地的價值。
李元慶:我覺得 teleoperation 是真實可行的方向,機器人足夠魯棒、硬件足夠便宜、時延問題基本解決,就可以讓不同時區(qū)的工人承擔三班倒的工作。teleoperation 落地,就意味著商業(yè)閉環(huán)和數(shù)據(jù)閉環(huán)同步實現(xiàn),就像 L2 無人駕駛一樣。
彭君然:ToB 業(yè)務的本質(zhì)是經(jīng)濟賬,iPhone 時刻其實并不恰當。補貼退去之后,如果經(jīng)濟賬仍然輸給工業(yè)自動化,那就需要重新思考了。
何泳澔:那就是諾基亞時刻了。
嘉賓介紹
主持人:
隋偉 博士 / 地瓜機器人算法副總裁
2011 年,他于北京航空航天大學探測制導與控制技術(shù)專業(yè)畢業(yè),之后進入中科院自動化研究所深造,并取得博士學位,其研究方向為模式識別與智能系統(tǒng)。2016 年 7 月博士畢業(yè)后,擔任模式識別國家重點實驗室助理研究員,負責 3D 視覺感知方向的研發(fā)工作。
2019 年 1 月隋偉博士加入地平線,任高級算法工程師,主要負責機器人和自動駕駛場景下,基于旭日和征程系列芯片的 2.5D 及 3D 視覺算法研發(fā)。2020 年 12 月 - 2023 年 12 月,任研發(fā)總監(jiān),帶領(lǐng)團隊(30 人)成功開發(fā)了地平線高階自動駕駛 BEV 感知方案,并且搭建了國內(nèi)首套最為完備且先進的 4D Label 標注系統(tǒng)。目前旭日系列芯片出貨量已達數(shù)百萬片,BEV 感知方案也已在多個車型上定點量產(chǎn),為自動駕駛領(lǐng)域的發(fā)展做出了重要貢獻。隋偉博士在 ICRA、IROS、CVPR、TIP、TVCG 等國內(nèi)外知名期刊和會議上先后發(fā)表學術(shù)論文 20 余篇,擁有專利 40 多項。此外,他長期擔任 ICRA、IROS 等機器人會議的審稿人,同時擔任《智能駕駛和機器視覺》《智能駕駛與多維重建》等自動駕駛相關(guān)著作的主編。
2023 年 11 月至今任地瓜機器人算法 VP ,負責面向消費機器人和具身智能的軟件算法方案研發(fā)。
嘉賓:
何泳澔 博士 / 地瓜機器人具身智能負責人
何泳澔,中國科學院自動化研究所模式識別與人工智能專業(yè)博士。現(xiàn)任地瓜機器人具身智能負責人,長期深耕計算機視覺、多模態(tài)學習,自動駕駛,具身智能前沿領(lǐng)域。
曾任中科院自動化所助理研究員。在產(chǎn)業(yè)化方面,作為銀河水滴科技技術(shù)聯(lián)合創(chuàng)始人及中科慧遠首席 AI 科學家,主導了步態(tài)識別、工業(yè)表面缺陷檢測等多項核心技術(shù)的算法研發(fā)與商業(yè)化落地。在機器人領(lǐng)域,曾負責地平線自動駕駛 BEV 感知架構(gòu)設(shè)計,現(xiàn)聚焦于端側(cè) AI 芯片配套算法及具身智能感知決策系統(tǒng)的研發(fā)。學術(shù)影響力方面,在相關(guān)領(lǐng)域發(fā)表學術(shù)論文近 20 篇,獲授權(quán)專利 10 余項。其開源算法在 GitHub 獲得約 2000 Stars,并運營有萬粉級 AI 技術(shù)自媒體。兼具扎實的學術(shù)研究基礎(chǔ)與豐富的工業(yè)界大規(guī)模落地經(jīng)驗。
李元慶 樂享科技 / CTO
現(xiàn)任樂享科技 CTO。前華為云,具身智能具身規(guī)劃負責人、ROBO_AGENT 負責人、2024 具身智能 KEYNOTE 技術(shù)負責人,負責盤古大模型具身智能規(guī)劃、Multi AGENT 執(zhí)行系統(tǒng)、多模態(tài)大模型會戰(zhàn)、多模態(tài)具身規(guī)劃大模型等。
彭君然 博士 / 北京科技大學副教授
本科畢業(yè)于清華自動化系,博士畢業(yè)于中科院自動化所,長期圍繞空間理解與構(gòu)建開展研究,在該領(lǐng)域發(fā)表論文 30 余篇,其中作為一作和通訊作者在 IEEE T-PAMI、IJCV、CVPR、NeurIPS、ICLR、ECCV 等頂級期刊和會議發(fā)表論文 20 余篇,主導代表性工作包括 CityGaussian,SceneX,GAIA 等。研究成果在面向國家公共安全需求的智慧城市建設(shè)和面向經(jīng)濟民生需求的具身智能領(lǐng)域若干場景落地,包括華為、騰訊、航天科工等,對智慧城市建設(shè)和具身無人系統(tǒng)構(gòu)建具有重要意義。
會議推薦
OpenClaw 出圈,“養(yǎng)蝦”潮狂熱,開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下,自托管 Agent 形態(tài)迅速普及:多入口對話、持久記憶、Skills 工具鏈帶來強大生產(chǎn)力。但這背后也暴露了工程化落地的真實難題——權(quán)限邊界與隔離運行、Skills 供應鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團隊研發(fā) / 運維流程并形成穩(wěn)定收益。
針對這一系列挑戰(zhàn),在 4 月 16-18 日即將舉辦的 QCon 北京站上,我們特別策劃了「OpenClaw 生態(tài)實踐」專題,將聚焦一線實踐與踩坑復盤,分享企業(yè)如何構(gòu)建私有 Skills、制定安全護欄、搭建審計與回放機制、建立質(zhì)量 / 效率指標體系,最終把自托管 Agent 從可用的 Demo 升級為可靠的生產(chǎn)系統(tǒng)。
今日薦文
你也「在看」嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.