機器人濃度最高的一屆春晚后，具身智能離走進千家萬戶還有多遠？

2026-03-18 16:35:16　來源: AI前線

北京舉報

分享至

作者 | QCon 全球軟件開發(fā)大會

策劃 | Kitty

編輯 | 宇琪

具身智能作為 AI 從數(shù)字世界邁向物理現(xiàn)實的核心躍遷，是通往 AGI 的關(guān)鍵路徑，卻依然受困于模型泛化性不足、數(shù)據(jù)采集難、閉環(huán)難以實現(xiàn)等深層難題，真正的產(chǎn)業(yè)落地仍舉步維艱。那么，具身智能究竟卡在哪兒了？

近日 InfoQ《極客有約》X QCon 直播欄目特別邀請地瓜機器人算法副總裁隋偉博士擔任主持人，和地瓜機器人具身智能負責人何泳澔博士、樂享科技 CTO 李元慶、北京科技大學副教授彭君然博士一起，在2026 年 QCon全球軟件開發(fā)大會（北京站）即將召開之際，共同探討具身智能落地實戰(zhàn)中的卡點。

部分精彩觀點如下：

工業(yè)場景并不需要追求通用性，如果能將某個高價值工位的任務做到穩(wěn)定、可靠、高效，這本身就足以支撐一家公司達到百億估值。
如果想讓 AI 實現(xiàn)可控生成，就必須保證每一個環(huán)節(jié)都是可控的，全鏈路可控才能實現(xiàn)整體可控。無人駕駛是這樣做的，從實驗室走向落地同樣應該如此。
這么多年做機器學習，我一直認為保證數(shù)據(jù)質(zhì)量是第一位的，模型反而是第二位的。
現(xiàn)階段不應該一股腦上具身，很多具身公司在做的事情，明顯有更低成本的自動化替代方案。‘

在 4 月 16-18 日將于北京舉辦的 QCon 全球軟件開發(fā)大會（北京站）上，我們特別設(shè)置了【具身智能與物理世界交互】專題。該專題將深度拆解具身智能技術(shù)鏈路，探討模型現(xiàn)狀、核心挑戰(zhàn)與機會，加速具身智能技術(shù)研發(fā)轉(zhuǎn)化與產(chǎn)業(yè)規(guī)模化落地。查看大會日程解鎖更多精彩內(nèi)容：https://qcon.infoq.cn/2026/beijing/schedule

以下內(nèi)容基于直播速記整理（經(jīng) InfoQ 刪減）。

完整直播回放可查看：http://gk.link/a/12HKJ

隋偉：我們今天談“卡”，有一種聲音認為“技術(shù)發(fā)展需要時間，不算卡”；另一種聲音認為“商業(yè)化不及預期，就是卡住了”。在老師們看來，我們現(xiàn)在的狀態(tài)，是“在爬坡”還是“被卡住”？

何泳澔：具身智能從邊緣領(lǐng)域逐步成為主流焦點的根本驅(qū)動力在于大模型的突破性進展，直接激發(fā)了整個賽道的想象空間。此前大模型能力局限于數(shù)字空間，無法與物理世界交互；彼時的具身也還是基于傳統(tǒng)模塊化能力構(gòu)建的。大模型出現(xiàn)之后，業(yè)界迅速捕捉到一個方向：將大模型與硬件結(jié)合，或許能讓硬件能力實現(xiàn)跨越式發(fā)展。有了硬件加持，高級智能便得以與物理世界交互，想象空間巨大。

與物理世界交互，意味著需要大量傳感器，視覺類傳感器是主流，力覺類也在逐步成為重要組成部分。傳感器增多，數(shù)據(jù)維度與模態(tài)隨之增加，學習難度呈指數(shù)級上升。因此我們現(xiàn)在的體感是：時不時出現(xiàn)引人矚目的成果，隨后沉寂相當長一段時間，令人心生疑慮，而后又突然出現(xiàn)突破性進展，重新振奮信心。我認為任何創(chuàng)業(yè)方向都是在樂觀與悲觀并存的狀態(tài)下推進的，遭遇卡點或商業(yè)化不及預期都是可以理解的。許多人提到，這一波 AI 技術(shù)浪潮有可能成為人類歷史上最后一波技術(shù)創(chuàng)新。一旦這些問題真正解決，人類將進入高速發(fā)展期，奇點也將隨之到來。

李元慶：從現(xiàn)狀來說，機器人走進千家萬戶、滲透工業(yè)各行各業(yè)確實尚未實現(xiàn)，從資本和企業(yè)的視角看確實存在卡點。但以無人駕駛為參照，耦合度和復雜度較高的系統(tǒng)通常需要經(jīng)歷約五年的成長期、穩(wěn)定期和成熟期。具身智能這一概念大約在 2023 年前后才開始廣泛傳播，才剛剛起步。三年前，市面上大多還是小舵機機器人、小型人形機器人乃至四足機器狗，甚至不太敢出現(xiàn)在展臺上。但今年春晚，宇樹的機器人在臺上做跑酷，跳躍高度令人震驚。

從另一個角度看，耦合度和復雜度較高的系統(tǒng)在中國市場發(fā)展，通常需要 400 到 500 家企業(yè)持續(xù)攻關(guān)才能推動市場化運營，目前具身智能領(lǐng)域的企業(yè)數(shù)量尚未達到這一規(guī)模。待到那個階段，或許會經(jīng)歷一輪對過高預期的祛魅，但也必然留存下扎實可靠的技術(shù)。

總體而言，ToB 方向各家已在用各種策略推進落地，雖還無法直接替代各行各業(yè)，但已能解決部分問題。ToC 方向，承載情緒價值的會說話的玩具已十分典型。導航與人機交互已初具雛形，具備小型記憶與推理能力，若能在靈巧操作和長鏈條任務復雜推理上進一步突破，具身智能其實離大眾并不遙遠。

彭君然：ToB 層面目前并非卡住了，而是處于磨合期，涉及幾個層面：第一是需求，機器人能做導航、能做運動控制，但工廠真正的需求是什么？目前頭部企業(yè)中估值百億以上的約有 50 家，基本都在做 ToB，各家都在與垂直領(lǐng)域工廠對接，探討如何用自身方案解決客戶需求。第二是痛點顆粒度，哪些問題必須用具身解決，哪些用工業(yè)自動化更合適？

第三是經(jīng)濟賬，政府補貼之后，需要達到多高的良品率或提升多少效率才能盈利？這為行業(yè)提供了一個過渡期，給出了明確的成本導向。現(xiàn)在一臺機器人賣 50 萬、70 萬尚屬高位，但市場可能只能接受 20 萬左右。我也聽說過一個案例：頭部企業(yè)報價 400 萬，一家規(guī)模僅其十分之一的團隊報價 200 萬，工廠最終選擇了后者，可見 ToB 市場成本敏感程度極高。

ToC 方面，目前尚未真正進入磨合期。當前率先走進家庭的主要是以情緒價值為主的產(chǎn)品，機器人尚不了解家庭環(huán)境，需要先找到進入家庭的途徑，即便此時其他功能幾乎全依賴大模型或視頻通話等非具身能力。但一旦進入家庭，機器人便能對用戶和環(huán)境建立更深入的了解，C 端用戶的購買傾向與產(chǎn)品價值也在雙向磨合中逐步匹配。所以我認為目前完全沒有卡點，整體發(fā)展相當順暢。

隋偉：何博，您在演講中提出“VA 比 VLA 更適配工業(yè)”，這個判斷本身就隱含了一個“卡點”——大模型進不了產(chǎn)線。想先請您用一分鐘概括：那個最根本的“不適配”到底在哪？

何泳澔：VLA 全稱 Vision-Language-Action，以視覺與語言模態(tài)共同作為輸入來生成動作；VA 則僅以視覺作為輸入來預測動作，兩者之差正是中間的 L——語言。在工業(yè)場景中，整體環(huán)境高度結(jié)構(gòu)化，流程基本確定，不需要通過自然語言來引導機器人。

語言本質(zhì)上是一種交互手段，更像 UI 層，面向 C 端時 L 或許是核心，但在工廠中它不僅作用有限，還帶來額外的計算開銷和訓練數(shù)據(jù)復雜度。基本可以理解為，工業(yè)場景與 C 端通用場景之間的本質(zhì)差異，是專用與通用的區(qū)別。

隋偉：元慶老師，您在演講中明確提出，“具身 Agent 是破解瓶頸、銜接 VLA/VA 與物理世界的核心載體”。您所說的這個“Agent”，和業(yè)界常說的“大模型”、“機器人軟件系統(tǒng)”，最本質(zhì)的區(qū)別是什么？它為什么是“核心”？

李元慶：在做端到端的過程中，我發(fā)現(xiàn)從指令到最終動作軌跡，往往無法完整執(zhí)行任務，成功率低、節(jié)拍慢、效果差。核心問題在于：要讓模型指揮任務，必須將所有關(guān)鍵信息完整提供給它。舉個例子：讓機器人幫我把水杯拿來，它立刻面臨一系列問題：去哪拿？兩個水杯哪個是你的？要不要加水？加什么？人的指令高度壓縮，而完成任務所需的信息嚴重缺失。

端到端在現(xiàn)階段無法落地，因為無論從視覺、指令還是語義地圖中，都無法提取完整信息，人類自然語言壓縮了太多內(nèi)容。因此我堅信這一階段率先落地的應該是 modularl-based 方案，而 Agent 正是這一路線下的典型策略。Agent 涵蓋 perception、decision-making、memory 與 action 的完整閉環(huán)，與強化學習范式高度相似，且各單點目前都已有可落地的解法。

我相信未來存在 model as a product 的形態(tài)，一個 AI 模型解決一切問題，這非常接近 AGI。但在此之前，AI 外部還需要大量工程化的殼來輔助，通過更好的 prompt 和不斷補充的信息來構(gòu)建 Agent。

此外，機器人軟件系統(tǒng)很像操作系統(tǒng)，目前基于 AI 架構(gòu)設(shè)計的軟件系統(tǒng)還未得到充分應用。我們還看到，硬件開發(fā)過程中底層軟件和嵌入式驅(qū)動仍在大量重復開發(fā)，根源在于技術(shù)路徑尚未定型、產(chǎn)品導向尚不清晰，相關(guān)標準與協(xié)議仍不夠成熟。如果有一個軟件系統(tǒng)天然適配 AI 所需的高帶寬、高實時響應、高并行 GPU 運算及異步計算，同時能輕量化運行在機器人本體上，將是極為值得期待的產(chǎn)品。

隋偉：彭老師，從高校研究者的視角，您覺得產(chǎn)業(yè)界現(xiàn)在對“空間智能”最大的誤解是什么？這個誤解本身，是不是一個“卡點”？

彭君然：我認為并不存在誤解，因為空間智能這個詞本身太寬泛了，場景重建、位姿估計、SLAM、三維生成、資產(chǎn)生成乃至世界模型，都在其范疇之內(nèi)。問題不在于誤解，而在于討論時術(shù)語未能統(tǒng)一，各說各的，實際上都是在談某一個具體技術(shù)方向，卻用了寬泛的表述，這倒不構(gòu)成卡點。

算法之卡

隋偉：何博您在演講提綱中提到“注意力放在 VA 上，潛臺詞是沒考慮通用性”。那我想追問：工業(yè)場景真的不需要通用性嗎？一條產(chǎn)線今天擰螺絲、明天裝手機，這不就是通用性需求嗎？“工業(yè)通用性”和“AGI 通用性”的區(qū)別到底在哪？

何泳澔：我為工業(yè)方案歸納了三個依次遞進的關(guān)鍵詞：穩(wěn)定（機器不能宕機）、可靠（功能成功率接近 100%）、高效（在前兩者基礎(chǔ)上追求），這三個關(guān)鍵詞與通用性關(guān)聯(lián)不大。工業(yè)場景中硬件首先無法通用，尤其是操作類任務，不同工位的末端執(zhí)行器大概率不同。但通用性可以體現(xiàn)在模型層面：任務不同，底層模型架構(gòu)可以相同，針對不同任務采集數(shù)據(jù)訓練出不同能力的模型，模型結(jié)構(gòu)保持一致。因此工業(yè)場景并不需要追求通用性，如果能將某個高價值工位的任務做到穩(wěn)定、可靠、高效，這本身就足以支撐一家公司達到百億估值。

隋偉：那 VLA 和 VA 目前能達到這個程度嗎？工業(yè)操作有些需要毫米級乃至亞毫米級的精度，現(xiàn)有模型能直接解決嗎？

何泳澔：解決不了。即便 VA 類模型更適配工業(yè)，若要完成高精度任務并保證高成功率，單靠模型肯定不夠。需要從整體架構(gòu)設(shè)計入手，可能采用模塊化方案，其中某些環(huán)節(jié)引入 VA 算法，還需要配套的數(shù)據(jù)采集方案和仿真能力。解決工業(yè)問題是極其綜合的工程，絕非單一模型所能勝任。

隋偉：所以未來工業(yè)智能不會是一個模型通吃，而更可能是模型超市，不同模型解決不同任務。

何泳澔：是的，不同場景、不同任務，組合方式都會不一樣。

隋偉：隨著技術(shù)發(fā)展和數(shù)據(jù)積累，這些模型有沒有可能走向大一統(tǒng)？

何泳澔：投入足夠大也許有可能，但過程中隨時會出現(xiàn) ROI 層面的變化。當某個節(jié)點 ROI 已經(jīng)最優(yōu)，就沒必要繼續(xù)推進通用性了。對工業(yè)場景而言，追求通用性可能是一種執(zhí)念，而這種執(zhí)念并無必要。

隋偉：工業(yè)場景本身就是相對專業(yè)化的領(lǐng)域。

何泳澔：正是如此，而且正因為有難度，反而可以推動工廠配合進行場景改造。這件事歸根結(jié)底由投入產(chǎn)出來定義，而非純粹出于“希望它變得通用”的技術(shù)愿景。

隋偉：元慶老師，您提出要“避免實驗室好用、現(xiàn)場失效”。從 Agent 架構(gòu)設(shè)計的角度看，導致“現(xiàn)場失效”的最主要的技術(shù)原因是什么？是感知層對環(huán)境變化不適應，還是決策層規(guī)劃太慢，或是執(zhí)行層的指令翻譯出錯？

李元慶：如果先不談算法，我認為從實驗室走向落地最典型的挑戰(zhàn)就是信號問題。邊端協(xié)同場景下，一旦網(wǎng)絡(luò)帶寬不足或出現(xiàn)丟包，機器人就會直接宕機。

以 Agent 各層次來看：perception 層面，實驗室里 7B 左右的模型基本什么都能識別，但真實場景中物體大量重疊、顏色色差、傳感器跳變、光照影響，紅色可能被識別成橙色，底層感知整個就亂了。決策層面，只要存在一點時延或誤差，甚至中間有動態(tài)陰影經(jīng)過，判斷就會完全失準。

執(zhí)行層面，硬件精度、執(zhí)行準確度與策略推理之間哪怕存在微小誤差，影響都會非常顯著。整體來看，這是一個極其復雜的系統(tǒng)。AI 的可控生成，其實一定程度上就是保證每一個環(huán)節(jié)都是可控的，全鏈路可控才能實現(xiàn)整體可控。無人駕駛是這樣做的，從實驗室走向落地的產(chǎn)品同樣應該如此。

隋偉：兩者對場景的要求確實不同。實驗室更多是解決創(chuàng)新性問題，而真正到現(xiàn)場就得應對各種 corner case。

李元慶：而且具身智能從一開始就在解決 scaling 和通用性的問題，從來沒有進入過能用 SOP 去測試的成熟階段。我可以負責任地說，我們的實驗室在場景和落地細節(jié)不清晰的情況下，很多性能指標就沒怎么評估準確過。

隋偉：您也提到“多智能體協(xié)同、長期記憶幾乎沒有成熟方案”。這個問題在工業(yè)場景下是不是特別突出？比如一條產(chǎn)線上多個機器人協(xié)作，或者一個機器人需要記住昨天沒干完的活。Agent 框架能怎么解決這個問題？還是說，這超出了當前 Agent 的能力范圍？

李元慶：能走向落地的記憶系統(tǒng)應該是分層的、多模態(tài)的，具備時空關(guān)聯(lián)，支持可檢索與可推理。以往實現(xiàn)記憶大致有三種方式：內(nèi)隱記憶（將內(nèi)容訓入模型）、外顯式記憶（結(jié)構(gòu)化寫入文件后檢索）、embedding 索引檢索。

工廠場景中如果多機需要協(xié)作共享日志，不如直接用成熟的通信工具解決，而不必強行套用 AI 方案。用合適的技術(shù)解決合適的問題，這正是 Agent 的魅力：它并非 all-in AI，而是將以往自動化領(lǐng)域積累的結(jié)構(gòu)化信息，以更巧妙的方式整合進來。從黑盒外部看到的是完整結(jié)果，打開內(nèi)部會發(fā)現(xiàn)是拼湊起來的模塊，這完全沒有問題。

隋偉：元慶老師提到的 Agent 架構(gòu)中，有一個“基于 World Model 的意圖預判與規(guī)劃”層。何博，在您的工業(yè)操作實踐中，您覺得引入這種“預判”能力，對于提升操作的柔性和成功率，是必需的嗎？它的計算開銷會不會成為新的瓶頸？

李元慶：關(guān)鍵在于要不要用。字節(jié)在 Flamingo 之后就開始做 imagination，特斯拉 FSD 也將其納入。在算力充裕的前提下使用沒有問題，收益也很明確：在動態(tài)環(huán)境下能更快響應，提高成功率。至于開銷，取決于產(chǎn)品定義，如果產(chǎn)品需要在這樣的工況下運行，就應該承擔相應的算力開銷。

以前學 MPC 時，它用短規(guī)程動力學模型做規(guī)劃，加入預測來做滾動誤差迭代。自動化領(lǐng)域其實早就存在解決類似問題的思路，world model 與之非常相似，只不過處理的是更長規(guī)程、多模態(tài)的問題。

何泳澔：我們最近正在研究 world model 與操作任務的結(jié)合，初步結(jié)論是肯定能起到正向作用。主流 world model 大致有兩種形態(tài)。第一類在像素空間預測未來，通過預測未來幀來理解物理規(guī)律和事件演化，視頻生成模型就可以視為這一類，具身領(lǐng)域知名的如 World Labs 的 Marble 即屬此類。

第二類是 LeCun 提出的 JEPA 路線，不在像素空間預測，因為其中干擾和噪聲太多，而是在隱空間預測特征的演化。兩種路線都已獲得資本的大額押注。world model 對操作之所以有用，在于以往基于簡單視覺基礎(chǔ)模型描述觀測，只能整合當前和歷史信息；而在 world model 范式下預訓練的基礎(chǔ)模型，有可能融入對未來信息的感知，觀測表達能力更強。學術(shù)界已有工作證明這一方向有效。此外，world model 在具身領(lǐng)域未來必然走向多模態(tài)集成，力覺等模態(tài)都將被納入，最終有可能發(fā)展為多模態(tài)大模型的終極方案。

隋偉：彭老師在 world model 方向深耕多年，您認為它對具身會有哪些幫助？

彭君然：目前資本投入最大、落地最好的是大模型 Agent。以頭部大模型訓練代碼能力為例，他們早已超越 SFT 階段，同時起 5000 個 Docker 節(jié)點，每個節(jié)點做數(shù)百輪對話，在 post-training RL 階段對是否報錯、是否通過單元測試、顯存和效率等分別給予 reward。類比到 world model：最前沿的方案就是把 world model 作為 reward 來源，在 post-training 階段為 VLA 提供評估信號，思路與語言模型訓練 code Agent 高度相似。

從這個角度出發(fā)，world model 最關(guān)鍵的作用是充當評估器和 reward 來源。涉及兩件事：VLA 輸入多模態(tài)信息、輸出 action；world model 根據(jù) action 預測未來的 observation，再對不同 observation 的好壞做出評價，將評價反饋回來。我比較認同的定義是：world model 就是從 action 到 observation 的預測，加上對 observation 給出評價的能力。

隋偉：從空間智能角度看，無論是 VA 還是 VLA，它們所依賴的視覺輸入，目前是否本身就“先天不足”？比如，模型是否只看到了物體的“樣子”（RGB），而看不到對物理交互至關(guān)重要的“材質(zhì)”（摩擦力、反射率）和“功能”？

彭君然：我認為確實需要更多信息，但不代表必須包含材質(zhì)標注，材質(zhì)其實可以從視覺中獲取。我們?yōu)橛螒蚬咀?AIGC 時發(fā)現(xiàn)，建模師給資產(chǎn)賦予材質(zhì)完全靠視覺認知，《荒野大鏢客》的高度逼真材質(zhì)正是這樣實現(xiàn)的。閉上一只眼睛看眼前的環(huán)境，你也能分辨混凝土、光滑木頭和粗糙木頭。因此摩擦力等信息，純視覺是可以獲取的。

但力覺依然關(guān)鍵。很多情況下不同力作用下的觀測結(jié)果可能完全相同，只有到達臨界點時視覺才會出現(xiàn)微小變化，一旦力再加大、觀測產(chǎn)生顯著變化，往往已經(jīng)無法挽回。對安全性要求高或涉及特殊操作的場景，單靠視覺是不夠的。

何泳澔：單純做 next frame 預測，能否讓模型學到物理規(guī)律影響下的運動行為？我感覺有一派認為純從視頻就能搞定物理問題，但這套方式歸根結(jié)底是統(tǒng)計學習，必然有處理不了的情況。

彭君然：確實有局限性，畢竟不是數(shù)值解。但關(guān)鍵問題在于：在非數(shù)值解的條件下，是否足以為 VLA 提供合適的 reward？這是另一個層面的問題。

李元慶：流形嵌入理論有一個核心觀點：運動細節(jié)在采集的數(shù)據(jù)里根本沒有被模擬到，大量視頻只有杯子靜置和碎裂兩個狀態(tài)，中間物理動態(tài)變化的過程完全缺失。我以前做 GPU 時，compute shader 基于物理引擎做圖形擬合，效果看起來像那么一回事，但實際上不是。物理引擎如今應用相當廣泛，為什么在視頻生成里反而跑得更快？這里面還有些問題沒有厘清。

何泳澔：我有一個直覺：既然已有成熟的物理引擎，以數(shù)學公式的方式顯式地納入了物理規(guī)律，那么如何將它與 world model 結(jié)合，讓模型在統(tǒng)一的物理規(guī)律下實現(xiàn)泛化？

隋偉：物理引擎是規(guī)則化的方式，world model 還是希望通過 learning 來學習更復雜的物理規(guī)律。

何泳澔：對，這正是兩類 world model 的區(qū)別：一類執(zhí)著于在像素空間完美還原；LeCun 的思路是認為這沒有意義，直接在 latent space 預測，從而直達最關(guān)鍵的信息，其中也有可能包含物理規(guī)律。能否真正做到還需要觀察，他們已有相關(guān)論文，結(jié)果看上去比較 promising。

數(shù)據(jù)之卡

隋偉：元慶老師，您把“數(shù)據(jù)極度稀缺”列為第二大痛點。但您也提到 Agent 能實現(xiàn)“反饋層：數(shù)據(jù)閉環(huán)優(yōu)化”。能不能具體解釋一下，一個設(shè)計良好的 Agent，是如何在真實物理交互的過程中，自動采集、篩選、并利用數(shù)據(jù)來優(yōu)化自身，從而部分緩解“數(shù)據(jù)饑渴”的？

李元慶：OpenVLA 很典型，它把數(shù)據(jù)和操作流程做成了閉環(huán)并實現(xiàn)無限迭代。我們做 VLA 時用到過 HIL-SERL 算法：先由人工示教 20 到 30 條數(shù)據(jù)，基于 reward 構(gòu)建 RL 緩沖區(qū)，再用 RLPD 策略訓練。目前已有團隊將這一思路作為重點方向，真機可靠性也有了顯著提升，但目前數(shù)據(jù)量肯定還是不夠的。

此前業(yè)界猜測具身基礎(chǔ)模型約在 14B 左右，需要百萬小時量級的視頻數(shù)據(jù)。但我現(xiàn)在感覺，如果能找到與自身高度匹配的開放數(shù)據(jù)集，合理構(gòu)建數(shù)據(jù)配比，解決策略比以前便宜很多了。

自閉環(huán)、OpenVLA 架構(gòu)、RLPD，這三種方式或許能在這個階段更新很多模型公司的數(shù)據(jù)獲取方式。

隋偉：那真機強化學習在實際場景中具有可行性嗎？

李元慶：以前覺得讓 VLA 插 USB 極其困難，但 SERL 做到了，這是工程事實。不過從黑盒角度看，強化學習這條路的上限相對有限。我當年走 MPC，一直卡在 reward 難以收斂的問題上。但大模型具備世界常識，如果能讓 reward 基于世界常識定義并快速迭代，以前很多走不通的路或許能再走一走。

隋偉：用 world model 給 reward，是提供量化數(shù)據(jù)來指導訓練嗎？

李元慶：以前的 reward 就是定義一套固定的 constraints 和 rules，不停地往里 overfit。如果能引入 world model，reward 就可以在訓練過程中持續(xù)迭代優(yōu)化，把 overfit 到具體指標的問題轉(zhuǎn)變?yōu)橼厔菪砸龑В芏嘁郧皝G失精度的地方也許可以再提回來。

隋偉：何博，您提出“軌跡數(shù)據(jù)標準化”來降低模型訓練震蕩。這個思路很有意思，有點像給數(shù)據(jù)“消毒”。能不能透露一下，這個“標準化”處理，是會損失一些數(shù)據(jù)的多樣性，還是能去蕪存菁？

何泳澔：背景是這樣的：遙操作采集數(shù)據(jù)時，操作者控制主臂帶動從臂，采集到的軌跡不可避免地含有噪聲，比如停頓、無意義片段、手部抖動導致的不平滑軌跡。

不同操作者習慣不同，軌跡差異更大。VLA 和 VA 的策略預測大多基于擴散模型或 flow matching，強行擬合含噪數(shù)據(jù)，模型也會把噪聲學進去。我們的思路是：對所有采集軌跡進行處理，使其干凈且流暢度一致，讓后續(xù)策略學習更簡單高效。

第一階段目標是在末端軌跡層面，讓運動學與動力學特征高度一致。具體做法是構(gòu)造相關(guān)項建立 cost function 優(yōu)化軌跡，剔除質(zhì)量較差的點，只保留優(yōu)質(zhì)軌跡點訓練，本質(zhì)是一個采樣過程。相比均勻采樣，這種方式在我們的實驗中精度提升了 20 個百分點。這是數(shù)據(jù)預處理流程，不修改模型本身，訓練前先過一遍算法再訓練。結(jié)果非常正向，接下來會在更復雜情況下推進。

這么多年做機器學習，我一直認為保證數(shù)據(jù)質(zhì)量是第一位的，模型反而是第二位的。

隋偉：彭老師，您的研究涉及“生成”路徑。未來有沒有可能，我們不再需要辛苦采集真實數(shù)據(jù)，而是像 Sora 生成視頻那樣，直接“生成”一個機器人完成裝配任務的完整軌跡數(shù)據(jù)，而且自帶物理標注？

彭君然：大概率是這個方向。從 scalability 角度看，訓練語言模型的數(shù)據(jù)量比具身多出 5 到 6 個數(shù)量級，現(xiàn)有數(shù)據(jù)量遠遠不夠。目前數(shù)據(jù)來源主要有三種：實采、仿真引擎生成或三維重建導入仿真、從視頻或世界模型中獲取。即便雇 400 人不間斷地實采，泛化性依然有限，因為無法在不侵犯隱私的前提下進入真實家庭采集，業(yè)界普遍認為 scale up 還是要靠視頻生成模型或世界模型。但生成數(shù)據(jù)是否需要物理標注是個難點，世界模型是用純視頻訓練的，很難獲取力學標注，而真實操作場景中力的反饋至關(guān)重要。

我們的探索方向是：不把力的絕對大小作為標注，而是把力的梯度，即力發(fā)生階躍時的變化量，作為物理標注。力發(fā)生臨界性劇變時，視覺上也會有顯著變化，兩者可以互相映射。

隋偉：生成式數(shù)據(jù)與真實數(shù)據(jù)之間的 gap 能彌補嗎？

彭君然：三種方式各有局限：UE/PCG 生成存在 sim-to-real gap；重建方式物理交互真實性難以保證；生成模型是最有希望的路線。即便存在偏差，就像近似解把級數(shù)展開的小項丟掉，當數(shù)據(jù)量足夠大時主成分被保留，誤差被攤薄，整體效果依然可期。

隋偉：從空間智能角度看，最重要的數(shù)據(jù)因子是什么？

彭君然：取決于具體任務，穿針引線、拆箱、擦拭等必須依賴力覺，有些任務則不需要，但視覺加力覺基本就夠了。

隋偉：既然數(shù)據(jù)這么貴、這么難，那有沒有一種可能：我們先不追求“數(shù)據(jù)驅(qū)動”，而是用“模型驅(qū)動”，把物理規(guī)律、常識知識先編碼進模型，讓它更“聰明”地學習，從而大幅降低數(shù)據(jù)需求？這條路可行嗎？

何泳澔：目前看來沒有成熟方案，我認為最終還是會回歸數(shù)據(jù)驅(qū)動。

李元慶：我認為這件事其實已經(jīng)在用了，F(xiàn)SD 就是典型，高精地圖和車道線本質(zhì)上就是把先驗知識注入進去。算法層面：GAN 通過對抗降低數(shù)據(jù)需求；PPO 中 critic 和 actor 將 constraints 和 rule-based 內(nèi)容注入其中。更典型的是 WBC 加 MPC，WBC 將物理約束通過 teacher policy 形式注入，大幅降低數(shù)據(jù)需求，加快模型收斂。這條路一定可行，因為已經(jīng)有人做出了結(jié)果。

隋偉：也就是說，learning 方法負責突破上限，規(guī)則和先驗知識負責兜底。

李元慶：數(shù)學建模和數(shù)值分析的積累不應被拋棄。模型具備數(shù)學能力，一個重要原因是代碼中以數(shù)學模型的方式內(nèi)嵌了大量物理規(guī)律和常識，這些東西一直在以這種方式被灌入。

隋偉：如果規(guī)則足夠明確，就可以優(yōu)先利用，沒必要訓一個有隨機性的模型來回答 1+1=2。

彭君然：模型要做出決策，必須先把觀測空間變成可計算的空間，這個轉(zhuǎn)換本身就存在大量簡化。很多場景可以抽象為矢量空間，物理規(guī)律和常識在其中非常容易 apply。但像插 U 盤這類精細操作，難以抽象出足夠好的矢量空間，物理知識也就無法直接機械套用。這不是可不可行的問題，而是需求、方案與任務難度之間整體匹配的問題。

物理交互之卡

隋偉：彭老師，您演講題目是“空間智能初探：重建與生成的雙路徑實踐”。您能給大家簡單介紹一下“重建”和“生成”這兩種技術(shù)路線的差別嗎？

彭君然：我的報告涵蓋重建、生成和世界模型三條路線，視角偏工業(yè)導向，核心是什么事能給工業(yè)界帶來價值。從需求出發(fā)：重建的目標在我的視角下并不是為了訓練。許多 ToB 場景需要做 POC，但工廠產(chǎn)線不能停，可能只有深夜兩個小時可以進場，效率極低。如果能用數(shù)字孿生方式對場景進行 1:1 重建，團隊就可以在任何時間、任何地點并發(fā)地完成 90% 的 POC 工作，大幅提升效率。

生成的價值則在于：重建是對現(xiàn)實的復刻，若需要對場景進行編輯或產(chǎn)生多樣化變化，就需要生成出成千上萬的測試場景來驗證方法的魯棒性。我們還有另一類生成方案，用大語言模型驅(qū)動 UE 或 Blender 生成海量場景，這些引擎的物理仿真和 URDF 導入做得相當好。

第三條路線世界模型，才是追求 scale up 的終極目標。走過大模型這條路，我們始終擔心押注前兩條路而錯過第三條路的決定性突破，所以三條路線都在同步布局。

隋偉：復刻現(xiàn)有場景，生成能產(chǎn)生多樣化內(nèi)容，世界模型能生成更豐富的信息嗎？

彭君然：對。前兩種方式無法借力大語言模型或視頻生成模型的成功，只有第三種可以，所以第三種前景更大。

隋偉：何博，在您的工業(yè)操作實踐中，您覺得當前機器人對物理世界最“無知”的地方是什么？是不知道東西有多重（動力學），還是不知道表面有多滑（摩擦系數(shù)），還是不知道一碰就倒（穩(wěn)定性）？

何泳澔：這幾類信息都缺，沒有哪個是最缺的。從工程實踐來看，力覺在工業(yè)落地中是必須存在的模態(tài)，可以分成不同層級：粗粒度只關(guān)注關(guān)節(jié)力矩，更高精度則加裝六維力傳感，進一步細化則在末端加裝觸覺傳感，目前已有分辨率相當高的方案可用。

我們的做法是按這個步驟逐步引入更復雜的力覺模態(tài)，但每種模態(tài)的數(shù)據(jù)形式和結(jié)構(gòu)各不相同，直接影響數(shù)據(jù)采集的方式和難度。

隋偉：也就是引入更多模態(tài)，代價是采集效率降低、成本提高。

何泳澔：對，但核心問題是：必須用新的模態(tài)來突破現(xiàn)有方案成功率的天花板。單一視覺模態(tài)已有明顯瓶頸，必須引入力覺才能突破。

隋偉：不過視覺的上限可能比想象中高得多，F(xiàn)SD 純視覺的上限能接近視覺加激光雷達的水平。算法和數(shù)據(jù)能力足夠強，純視覺也是可行路。

何泳澔：純視覺之所以可行，是因為如果能通過純視覺還原場景所有細節(jié)，就相當于擁有了上帝視角。但難度極高，所以才需要引入更多模態(tài)來代償。

隋偉：一個能實際用于 Agent 決策的 World Model，和學術(shù)界追求的“完美預測下一個畫面”的世界模型，最大的不同在哪里？工業(yè)場景需要的 World Model，到底應該“模”什么？

何泳澔：先有雞還是先有蛋的問題：你希望 world model 能預測出好的未來，前提是已經(jīng)在這個場景用大量數(shù)據(jù)訓練過它。既然已經(jīng)能獲取那么多數(shù)據(jù)，為什么不直接用來訓練原本的任務？

李元慶：我的感受是：有了更好的刀，才能有更好的尺；有了更好的尺，又能磨出更好的刀。兩者不相悖，而是螺旋上升的關(guān)系。

彭君然：VLA 訓練需要帶 action 標注的機器人數(shù)據(jù)，量相對有限；world model 的訓練來源是 web 視頻，量要大得多，兩者用的不是同一個數(shù)據(jù)集。前提假設(shè)是 web 視頻或視覺信息足以提供有效的 reward 信號，方案是基于這個前提設(shè)計的。

系統(tǒng)落地之卡

隋偉：元慶老師，從您的經(jīng)驗看，現(xiàn)在想用具身智能改造產(chǎn)線的企業(yè)，他們最容易低估的“隱形成本” 是什么？是部署調(diào)試時算法工程師的大量駐場時間，還是為了讓環(huán)境適應機器人而做的改造費用，或者是后期數(shù)據(jù)維護和模型迭代的持續(xù)投入？

李元慶：你提到的那幾項都是顯性成本，更值得關(guān)注的是企業(yè)主的決策成本。因為信息不準確或不全面做出錯誤決策，后續(xù)一連串投入全部變成巨額成本。而且每一個決策都會成為人力、資本和代碼開發(fā)的杠桿，杠桿一旦形成，費用極其高昂。

大家看到的具身智能似乎已經(jīng)很穩(wěn)定，但真正落地時會發(fā)現(xiàn)還有很多問題沒解決，而能講實話、做出準確評估的人很難找到。決策成本的根源正是信息不對稱、不全面和不準確，最前期就已經(jīng)在產(chǎn)生非常高昂的成本了。

隋偉：要評估成本，就得衡量機器人進入場景能帶來多大價值。具身技術(shù)在工業(yè)場景下能做到什么程度？相對于傳統(tǒng)工業(yè)自動化的優(yōu)勢在哪里？

何泳澔：在絕大多數(shù)場景下，具身方案目前比不過工業(yè)自動化；在部分高價值、高難度的場景，兩者都做不了，仍然需要人工。中間存在一個 gap，高度定制化的工業(yè)自動化能覆蓋，但成本很高；具身也有可能覆蓋，優(yōu)勢在于能將某些環(huán)節(jié)沉淀為通用能力，在通用性與定制化之間找到平衡點，這是具身可能發(fā)揮價值的地方。但現(xiàn)階段不應該一股腦上具身，很多具身公司在做的事情，明顯有更低成本的自動化替代方案。

隋偉：也就是說具身的價值在于解決傳統(tǒng)自動化做不了的柔性或長程任務，最適合的技術(shù)才是最好的。

何泳澔：具身具備邊際成本遞減的能力，完全定制的工業(yè)自動化在這方面比較難。

隋偉：彭老師，您在學校里培養(yǎng)學生，如果目標是去產(chǎn)業(yè)界解決這些“工程煉獄”問題，您會重點教他們什么？學校教育和產(chǎn)業(yè)需求之間的“最后一公里”卡在哪？

彭君然：最需要解決的不是最后一公里，是第一公里，甚至是第一米。在 AI 日益普及的今天，最關(guān)鍵的能力是盡早學會認知價值、預判未來、做出合理決策，其他一切在這件事面前都是徒勞。

展望未來

隋偉：何博，對于正在做機器人操作算法的工程師，您最想建議他們“不要在什么地方浪費時間”？

何泳澔：不要把技能棧鎖定在某一個點上，建議全棧了解：從控制機械臂，到 VA/VLA 模型訓練、部署，再到整體方案設(shè)計。這些東西沒有想象中那么難，把經(jīng)典代碼實操一遍基本就能掌握。全棧了解能建立全局視角，之后再形成自己的價值判斷，深入最有前景的方向，最好還能參與一個實際的工業(yè)項目。

隋偉：元慶老師，未來 2-3 年，在 Agent 架構(gòu)層面，您認為最有可能取得突破、從而打通一個關(guān)鍵卡點的技術(shù)方向是什么？

李元慶：Perception 落地趨勢越來越明顯，多模態(tài)對齊和 reasoning 的標注策略也越來越清晰。但 action 仍是最核心的卡點——Mobility（navigation 和 locomotion）和 manipulation，我們對真實物理世界物體交互的探索還有很多未完全探知之處。

隋偉：對于正在選擇研究方向的研究生，未來五年，具身智能領(lǐng)域最值得深耕的學術(shù)方向是什么？

彭君然：這個粒度太難預測了，而且也不一定非是具身智能。隨著年紀增長，我越來越覺得要跟著國家政策走，多看看下一個五年計劃，還是能發(fā)現(xiàn)新機遇的。

隋偉：請每位嘉賓用一句話預測：具身智能在工業(yè)場景的“iPhone 時刻”（即規(guī)模化復制的引爆點），最有可能因為什么事件或技術(shù)突破而到來？

何泳澔：如果一臺具身機器人能在某個工位上持續(xù)完成任務一個月，它就真正具備了長期商業(yè)落地的價值。

李元慶：我覺得 teleoperation 是真實可行的方向，機器人足夠魯棒、硬件足夠便宜、時延問題基本解決，就可以讓不同時區(qū)的工人承擔三班倒的工作。teleoperation 落地，就意味著商業(yè)閉環(huán)和數(shù)據(jù)閉環(huán)同步實現(xiàn)，就像 L2 無人駕駛一樣。

彭君然：ToB 業(yè)務的本質(zhì)是經(jīng)濟賬，iPhone 時刻其實并不恰當。補貼退去之后，如果經(jīng)濟賬仍然輸給工業(yè)自動化，那就需要重新思考了。

何泳澔：那就是諾基亞時刻了。

嘉賓介紹

主持人：

隋偉博士 / 地瓜機器人算法副總裁

2011 年，他于北京航空航天大學探測制導與控制技術(shù)專業(yè)畢業(yè)，之后進入中科院自動化研究所深造，并取得博士學位，其研究方向為模式識別與智能系統(tǒng)。2016 年 7 月博士畢業(yè)后，擔任模式識別國家重點實驗室助理研究員，負責 3D 視覺感知方向的研發(fā)工作。

2019 年 1 月隋偉博士加入地平線，任高級算法工程師，主要負責機器人和自動駕駛場景下，基于旭日和征程系列芯片的 2.5D 及 3D 視覺算法研發(fā)。2020 年 12 月 - 2023 年 12 月，任研發(fā)總監(jiān)，帶領(lǐng)團隊（30 人）成功開發(fā)了地平線高階自動駕駛 BEV 感知方案，并且搭建了國內(nèi)首套最為完備且先進的 4D Label 標注系統(tǒng)。目前旭日系列芯片出貨量已達數(shù)百萬片，BEV 感知方案也已在多個車型上定點量產(chǎn)，為自動駕駛領(lǐng)域的發(fā)展做出了重要貢獻。隋偉博士在 ICRA、IROS、CVPR、TIP、TVCG 等國內(nèi)外知名期刊和會議上先后發(fā)表學術(shù)論文 20 余篇，擁有專利 40 多項。此外，他長期擔任 ICRA、IROS 等機器人會議的審稿人，同時擔任《智能駕駛和機器視覺》《智能駕駛與多維重建》等自動駕駛相關(guān)著作的主編。

2023 年 11 月至今任地瓜機器人算法 VP ，負責面向消費機器人和具身智能的軟件算法方案研發(fā)。

嘉賓：

何泳澔博士 / 地瓜機器人具身智能負責人

何泳澔，中國科學院自動化研究所模式識別與人工智能專業(yè)博士。現(xiàn)任地瓜機器人具身智能負責人，長期深耕計算機視覺、多模態(tài)學習，自動駕駛，具身智能前沿領(lǐng)域。

曾任中科院自動化所助理研究員。在產(chǎn)業(yè)化方面，作為銀河水滴科技技術(shù)聯(lián)合創(chuàng)始人及中科慧遠首席 AI 科學家，主導了步態(tài)識別、工業(yè)表面缺陷檢測等多項核心技術(shù)的算法研發(fā)與商業(yè)化落地。在機器人領(lǐng)域，曾負責地平線自動駕駛 BEV 感知架構(gòu)設(shè)計，現(xiàn)聚焦于端側(cè) AI 芯片配套算法及具身智能感知決策系統(tǒng)的研發(fā)。學術(shù)影響力方面，在相關(guān)領(lǐng)域發(fā)表學術(shù)論文近 20 篇，獲授權(quán)專利 10 余項。其開源算法在 GitHub 獲得約 2000 Stars，并運營有萬粉級 AI 技術(shù)自媒體。兼具扎實的學術(shù)研究基礎(chǔ)與豐富的工業(yè)界大規(guī)模落地經(jīng)驗。

李元慶樂享科技 / CTO

現(xiàn)任樂享科技 CTO。前華為云，具身智能具身規(guī)劃負責人、ROBO_AGENT 負責人、2024 具身智能 KEYNOTE 技術(shù)負責人，負責盤古大模型具身智能規(guī)劃、Multi AGENT 執(zhí)行系統(tǒng)、多模態(tài)大模型會戰(zhàn)、多模態(tài)具身規(guī)劃大模型等。

彭君然博士 / 北京科技大學副教授

本科畢業(yè)于清華自動化系，博士畢業(yè)于中科院自動化所，長期圍繞空間理解與構(gòu)建開展研究，在該領(lǐng)域發(fā)表論文 30 余篇，其中作為一作和通訊作者在 IEEE T-PAMI、IJCV、CVPR、NeurIPS、ICLR、ECCV 等頂級期刊和會議發(fā)表論文 20 余篇，主導代表性工作包括 CityGaussian，SceneX，GAIA 等。研究成果在面向國家公共安全需求的智慧城市建設(shè)和面向經(jīng)濟民生需求的具身智能領(lǐng)域若干場景落地，包括華為、騰訊、航天科工等，對智慧城市建設(shè)和具身無人系統(tǒng)構(gòu)建具有重要意義。

會議推薦

OpenClaw 出圈，“養(yǎng)蝦”潮狂熱，開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下，自托管 Agent 形態(tài)迅速普及：多入口對話、持久記憶、Skills 工具鏈帶來強大生產(chǎn)力。但這背后也暴露了工程化落地的真實難題——權(quán)限邊界與隔離運行、Skills 供應鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團隊研發(fā) / 運維流程并形成穩(wěn)定收益。

針對這一系列挑戰(zhàn)，在 4 月 16-18 日即將舉辦的 QCon 北京站上，我們特別策劃了「OpenClaw 生態(tài)實踐」專題，將聚焦一線實踐與踩坑復盤，分享企業(yè)如何構(gòu)建私有 Skills、制定安全護欄、搭建審計與回放機制、建立質(zhì)量 / 效率指標體系，最終把自托管 Agent 從可用的 Demo 升級為可靠的生產(chǎn)系統(tǒng)。

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.