網易首頁 > 網易號 > 正文申請入駐

具身智能，車企的第二商業戰場

2025-01-02 20:40:19　來源: 新浪汽車出品

北京舉報

分享至

2024年已經過去，但2024年最后幾個月的車圈動向，給2025年留下了很多遐想空間。

相比于“飛行汽車”在汽車領域的長周期提及和迭代，2024年最后一個月，“具身智能”這個詞在車圈出現頻次非常之高。12月26日，廣汽發布了人形機器人GoMate，比亞迪也宣布招募具身智能團隊。小鵬、長安、奇瑞、上汽、北汽、東風，都在2024年組建團隊或者和創業公司簽約聯合開發。而賽力斯和小米則稍早一點，在2023年開始動作。華為和寧德時代、地平線、速騰（參數丨圖片）聚創、科大訊飛等供應商，也在投資機器人業務。

事實上，這也不是一個全新領域，只不過車圈剛介入而已。自2023年英偉達CEO黃仁勛高呼“AI的下一個浪潮將是具身智能”，這個概念就火了。而特斯拉2024年10月展示的機器人，研發至少啟動兩三年了。兩年時間，中美有關具身智能的創業公司多如牛毛，就在車企當回事的時候，非頭部具身智能創業公司拿融資已經很困難了。

具身智能≠人形機器人

那么問題來了，“具身智能”是否就是“人形機器人”？后者已經在科幻片里出現好幾十年了，而前者只能追溯到幾年前。兩者在外觀形態上可能有少許交集，但概念上完全不是一回事。

具身智能（Embodied Intelligence）之所以看著別扭，多少帶點翻譯腔，但確實是目前最為簡潔的描述。

雖然具身智能沒有共識的定義，但不妨礙大家爭著給它定義。斯坦福大學AI學者李飛飛給出的定義是：“具身的含義，不是身體本身，而是與環境交互以及在環境中做事的整體需求和功能。”

這個定義不那么易懂，但可以看出，具身智能必須與物理執行能力有關，是不是人形倒不重要（但應有實體，而非單純的代碼）。我們可以將其簡單理解為一種認知-行為智能，就像自動駕駛是某種意義上的認知-空間智能一樣。

假設，我們支使一個“具身智能”去“倒掉廚房垃圾”，這個指令的理解和執行對人類來說再簡單不過，但對于機器人卻很復雜。后者應該將其拆解為一系列“子指令”——運動到廚房，搜索并辨識垃圾，分類裝袋（獲取袋子是另一個任務分支），確認無遺撒，抓握提起，打開房門，乘電梯下樓，搜索定位垃圾桶，移動到位，分類放入，原路返回。

圖：目前的機器人只能在特定場景中執行固定任務

這些動作牽扯的技術棧非常廣，包括語音識別、自然語言辨識，指令拆解，任務目標辨識、3D姿態穩定、機械移動、執行評估反饋等，更別提可能的任務分支。這就是本世紀初炒作了一陣子的人形機器人概念，最后偃旗息鼓的原因。因為人們發現，根本寫不出通用機器人的代碼。機器人只能在特定場景中執行固定任務，比如掃地機器人、跳舞機器人、工業噴漆機器人（機械臂）等。

好消息是，現在的大模型訓練帶來了新靈感。大家都看到了VLM（視覺和自然語言處理模型）、LLM（大語言模型）可以辨識模糊語義（人類也擅長辨識模糊語義），也可以教會AI在從未定義過的場景中做自主決策。再往前一步，走到物理執行層面，即解決本體與環境互動問題，那不就做出具身智能來了嗎？有人將具身智能訓練（多模態輸入增強模型對物理現實的理解），描述成為智能注入靈魂（主觀性），確實有些道理。

具身智能依然處于初級階段

和大模型不同，發展到具身智能階段，就不應該等著人類“填喂”給它數據并訓練它（雖然初始可能這么做），它應該主動獲取數據，并自我訓練，然后擴張自己的能力。這里面的主動性，也是區別具身智能和人形機器人的關鍵。

順便說一句，人類與環境互動，多數時候無須中央算力（大腦）。我們的小腦、肢體關節、皮膚，都能瞬時完成與環境互動，當然前提是我們對特定環境熟悉（自我訓練）。

現在這股風吹到了汽車圈，除了特斯拉投資比較早，似乎也做出了產品（是否擁有典型的具身智能，尚存疑問），跟進的基本都是中國車企，這一現象很有意思。

諸多的券商投研報告，都很樂意用數字來描述某新興產業的未來市場價值，動輒百億千億，還得是美元。這種餅畫多了，報告都看得麻木。但毫無疑問，具身智能如果做成，商業前景無疑廣闊，遠超智能駕駛的商業價值，甚至還能和汽車產業掰一下手腕。

圖：具身智能產業發展歷程

現在全球汽車產業大概價值30多萬億人民幣（2023年數據），而其帶動的上游產業鏈，解決的就業崗位和周邊產業，其經濟乘數效應，在所有工業門類中無出其右。

相比而言，具身智能如果以產業標準來看，依然處于相當初級的階段，即長期不招投資人待見的“備胎”學術門類，只不過，現在窺見了可能的技術路徑，具備了工程化的可行性（即工程當中的“可研”）。

但如果從投資角度來看，又完全不一樣了。一個具備廣泛應用前景的商業模式，投資人會急切地尋找投資標的，搶著將支票塞到創始人口袋里。這種事，10年前已經看到多次了。只有當第一波創業企業在PPT和demo做出來之后裹足不前，耗盡前期資金，才能迫使部分投資人冷靜下來。

做個不完全嚴謹的比喻，目前的具身智能，無論投資還是技術階段，可能相當于智駕產業在2016年時的狀態。

智駕護城河已變淺

一個依然處于雛形的產業，為何依然讓諸多車企紛紛投資？

理由與投資飛行汽車有相似之處。畢竟智駕和具身智能，對大模型投資是貫通的。兩者的軟件（感知、視覺、算法、規控策略）技術路徑相近，硬件上電池、電機、控制芯片要求差不太多（具身智能對環境工況要求稍低），何況兩者都是大模型的商業變現途徑。智駕對空間控制精度的要求不及具身智能，但智駕對于時間精度的要求又往往高于后者。總之，兩者在技術和工程上，彼此映照。

換言之，智駕相當于具身智能的子集，理論上具身智能可以替代任何人類非創造性勞動。

對于現在的主流車企而言，投了上萬張算力卡構建大模型，廣泛部署了用戶端數據采集能力，招募了如此龐大而高成本的人力資源，為什么不順帶進入具身智能領域？

再進一步分析，現在智駕收斂到“端到端”路徑，加之車企同時在組織人馬自研，智駕公司的商業道路收窄，拿到車企的長期訂單越來越困難（除了少數供應商），而相關知識的擴散速度超出了此前的估計，智駕產業的護城河正在日益變淺。

圖：智駕與具身智能的大模型投資是貫通的

業內普遍的共識是，L4目標（Robotaxi）無法用端到端路線解決。現在致力于L4的商業變現的公司，仍陷在虧損的爛泥坑里，原因并非是L2+那種規模效應不足的問題，而是技術上沒有徹底走通。所以，車企智駕起步普遍晚于創業公司（除了特斯拉），而入局之后才認識到智駕的商業變現存在瓶頸

既然投資如此龐大，那么做具身智能也就成為必然選擇。車企的意圖，恐怕嘗試利用既有資源（人力和技術資產）開辟第二商業戰場。

有意思的是，2024年12月，小米、地平線、百度等負責智駕的高管，紛紛離職創立或者加入具身智能公司。技術出身的智駕研發一線高管，對行業趨勢的認知，想必更敏感一些。

兩者技術至少部分相通，智駕的商業想象力正在走弱，而具身智能則顯得前途無量，轉投新業態太正常不過。

無共識階段才是最大機會

即便智駕與具身智能投資邏輯一貫而通，但業內更愿意強調二者的差異性。

前者，智駕車輛行為由規則兜底，依靠數據驅動迭代；后者，學習的是生物體，通過長期與環境交互，進化出復雜的行為模式。也就是說，具身智能因此也必須重點提升自主性和適應性。

很多公司的智駕部署量，現在已經達到幾十萬甚至百萬，海量數據來源不成問題。數據和訓練是智駕成長的基石。具身智能也需要數據輸入，數據量嚴重偏少，且現在還看不到具身智能主動攝取數據的管道。

有些公司（譬如蔚來），希望透過構造世界模型，形成解釋現實世界的認知框架，并最終解決智駕的預測問題（基于對物理和交通規則，預測未來幾秒，是人開車的普遍思維模式）。世界模型的本質，是AI構造AI。準確地說，是AI構造“經驗庫”。

現在，也有人試圖用世界模型，分層解決具身智能的執行精度問題。簡言之，就是VLM疊加物理世界的運行常識，但根據LLM做高級決策（像人那樣，用直覺實現從模糊語義到精確執行），這樣就能避免使用大量數據訓練。但是，如此直接輸出動作，泛化能力可能相當有限。

打個比方，我們從桌面拿起一本厚重的書，大腦不會給肢體輸出各個手指應該張開多大角度，每根手指發力多少的指令。我們甚至無須根據重量和靜摩擦力感知來微調，因為我們的經驗庫已經非常適應這一任務。若換做拿起紙杯咖啡，就不會用同樣的力度，因為早就知道會把杯子捏變形。我們不愿意教具身智能識別所有物體（也做不到），我們希望它自己悟出合適的拾取方式。

圖：目前所能看到的機器人表演，可能都不是嚴格意義的具身智能

我們懷疑，現在看到的很多機器人做家政表演，開發人員都在幾個有限動作數據上“過擬合”了而已，根本無法適應泛在場景。所以，從嚴格意義講，這并不算具身智能。無法擺脫對海量訓練數據的依賴，具身智能就不會獲得泛在能力。

盡管技術實現存在多個瓶頸，具身智能仍然具有潛在的非凡商業價值。現在，具身智能從定義到技術路徑，再到首批應用場景，都沒有形成共識。而無共識階段恰恰是最佳創業階段，很多資本都有在發展初期布局的宏大意圖。

車企自然也不例外。如今車企憑借優勢資源大規模進入，短期內可能緩解了具身智能行業投資焦慮，但從長期來看，則有可能將多數具身智能的創業公司收編或者擠出這一行當，重演智駕的發展規律。

注:圖片部分來源網絡，如有侵權，聯系刪除。

低空經濟還在夢想階段日產+本田尚未清晰的效率之戰雷克薩斯國產能復刻特斯拉嗎

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.