網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

對話松延動力、穹徹智能天使投資人｜WRC很熱，但具身領(lǐng)域兩年內(nèi)會有公司掉隊

2025-08-13 22:16:38　來源: 四木相對論

北京舉報

分享至

具身智能行業(yè)剛上演了一場高濃度的大賞。

在剛剛落下帷幕的 WRC（世界機器人大會）上，200余家國內(nèi)外企業(yè)帶著1500多件展品亮相，推出超過百款新品。

*參考閱讀：

花式落地背后，是行業(yè)在一年內(nèi)的火速推進。

2025年被視為具身智能落地元年，目前已有宇樹、智元機器人等多家機器人企業(yè)宣布完成億級營收。在機器人公司眼中，工廠、養(yǎng)老院、家庭、餐廳、景區(qū)，都是它們的目標場景。

然而，在商業(yè)落地飛快的背后，各家具身公司對技術(shù)路徑仍處于非共識狀態(tài)。就在這兩天，王興興對數(shù)據(jù)、VLA 的觀點還遭到了一些具身創(chuàng)業(yè)者的吐槽。

*王興興在2025WRC上接受采訪

這種模型、數(shù)據(jù)、本體三方廠商割裂的現(xiàn)象，讓一些人開始懷疑，正因為目前具身還沒實現(xiàn)真正的智能，三方廠商才彼此甩鍋。

針對技術(shù)路線的分野、商業(yè)化和投資的狂飆，我們專訪了小苗朗程管理合伙人方正浩。他從2023年開始出手具身智能，針對不同的技術(shù)路線，布局了不同的公司。

2023年，方正浩在天使輪投資了穹徹智能、西湖機器人、松延動力3家明星企業(yè)。

其中，穹徹智能走以力為中心的具身大模型路線，聯(lián)合創(chuàng)始人盧策吾教授是上海交通大學(xué)人工智能學(xué)院副院長，師從知名學(xué)者李飛飛和 Leo Guibas 教授。今年4月，它宣布完成數(shù)億元的 Pre-A++ 輪融資。

西湖機器人則是 VLA+RL 融合架構(gòu)路線的代表，是西湖大學(xué)智能實驗室轉(zhuǎn)化項目，由王東林博士團隊創(chuàng)辦。目前，它的產(chǎn)品已經(jīng)在物業(yè)、醫(yī)院、商業(yè)園區(qū)等場景落地。

松延動力創(chuàng)始人姜哲源則是很多 AI 投資人最喜歡的畫像，清華本碩博背景，25歲輟學(xué)創(chuàng)業(yè)。在今年的機器人馬拉松比賽上，他和自己的機器人一炮而紅。

作為很早就出手具身項目的投資人，當機器人整機在資本市場大火時，方正浩開始將目光轉(zhuǎn)向機器人傳感器、核心零部件等上游供應(yīng)鏈企業(yè)。2025年，小苗朗程投資了觸覺傳感器公司千覺機器人。

*小苗朗程管理合伙人方正浩

在這次世界機器人大會期間，我們和方正浩聊了聊他對具身智能技術(shù)路線、商業(yè)前景和投資趨勢的判斷。

以下為對話整理，略有刪減：

從數(shù)據(jù)到模型，具身的非共識探索期

四木相對論：你投資的第一家具身智能企業(yè)是什么？

方正浩：最早我們投資的具身智能企業(yè)是非夕科技。投的時候業(yè)內(nèi)還沒有具身的概念，它主要做機器人的力反饋+自主決策技術(shù)。從時間線上看，投得早的應(yīng)該是非夕了，投很多年了。后來非夕孵化了穹徹智能，我們也是穹徹天使輪的領(lǐng)投方。

四木相對論：從很早投非夕到布局穹徹，等于看著行業(yè)里有了具身的概念。后來你投具身賽道的邏輯是什么？

方正浩：在所有的人工智能落地場景里，AI 和機器人的結(jié)合應(yīng)該是想象空間最大的一個。大語言模型解決了機器人和人類交互的問題。多模態(tài)的具身模型，有機會去解決機器人的不同場景下的泛化能力和通用操作的問題。

所以，2023年我們投資了3家具身領(lǐng)域的公司。

到2024年，整機和具身大腦還有投資機會，同時上游供應(yīng)鏈企業(yè)也迎來發(fā)展機會，我們開始布局機器人傳感器、零部件環(huán)節(jié)。具身智能有可能發(fā)展為底層的基礎(chǔ)設(shè)施平臺，我們現(xiàn)在的思路就是去提前布局，投一些產(chǎn)業(yè)空白的環(huán)節(jié)，推動行業(yè)發(fā)展。

四木相對論：距離第一次投具身智能過去了兩年。現(xiàn)在一個最熱的話題就是機器人模型，你覺得具身智能模型的技術(shù)成熟度如何?

方正浩：技術(shù)成熟度上還有非常大問題。各家推出的具身大腦不具備泛用性。當下大模型在落地某一個場景時，還需要針對任務(wù)做大量的數(shù)據(jù)反饋和閉環(huán)，還沒有AI想實現(xiàn)的泛用性和通用性涌現(xiàn)。

四木相對論：VLA 和分層架構(gòu)是當下大模型談?wù)撦^多的兩種訓(xùn)練技術(shù)路徑，你更看好哪種路徑？

方正浩：端到端的 VLA 路線很火，谷歌的 Gemini Robotics、英偉達的Groot、微軟的 Magma、國內(nèi)智元都采用了這種路線。VLA 很有潛力，但需要配合大量仿真數(shù)據(jù)和真實數(shù)據(jù)才能落地。

*端到端VLA模型圖解

現(xiàn)在的 VLA 更多是看到物體，用語言操縱它，具備了一定的物體識別能力。到落地各個場景時，機器人如何和物體互動，如何完成任務(wù)，這個事情都還處于非常初步的階段。

那另一種分層式的架構(gòu)，大腦、小腦和肢體都是分開的，大語言模型負責規(guī)劃小模型和硬件，通過快速反饋實現(xiàn)控制，這種在短期內(nèi)會更容易實現(xiàn)。

還有一些更細分的路線，比如更側(cè)重力覺的路線。人和現(xiàn)實物理間的交互絕大部分其實都是靠手眼協(xié)作完成，手眼協(xié)作還需要對物體的力反饋有一個認知。

每一種路徑我們其實都有布局，像西湖機器人是做VLA+RL（人形機器人運動控制）的，穹徹是以力覺為中心的具身大模型路線。現(xiàn)在賽道還在演進，很難判斷終極路線。

四木相對論：你覺得限制具身智能大模型發(fā)展的因素有哪些？有人說是數(shù)據(jù)，有人說是架構(gòu)。

方正浩：當前具身智能發(fā)展還存在一些明顯短板。第一個是數(shù)據(jù)采集與訓(xùn)練仿真的協(xié)同問題，這一核心環(huán)節(jié)目前還沒有找到徹底攻克的方案，導(dǎo)致實際場景中的數(shù)據(jù)利用率和仿真訓(xùn)練的落地效果都受到限制。

第二個短板在于感知維度的完整性。目前技術(shù)路徑大多依賴視覺與語言的融合，但僅靠這兩種模態(tài)遠遠不夠 —— 如果缺乏力覺、觸覺等更貼近物理交互的感知維度，具身智能就難以實現(xiàn)真正意義上的端到端學(xué)習(xí)。

畢竟當前主流方案里，“vision（視覺）+ language（語言）” 的二元框架，在復(fù)雜物理環(huán)境交互中能覆蓋的場景太有限了，必須補充更多元的感知維度才能突破瓶頸。

四木相對論：力覺信息與具身模型之間的關(guān)系是怎樣的，它如何融入到大模型的感知和決策系統(tǒng)中？

方正浩：力覺信息更適合與小腦結(jié)合進行底層控制，如條件反射般進行控制，與大模型尤其是世界模型的融合還有待技術(shù)突破。

在當前的具身智能系統(tǒng)中，力覺信息通常并不是直接輸給大模型處理，而是更常與類“小腦”的控制模塊結(jié)合，用于執(zhí)行預(yù)測控制、誤差補償和動態(tài)閉環(huán)反饋。

這樣做的原因在于，力覺數(shù)據(jù)頻率高、數(shù)據(jù)量大、實時性強，不適合大模型的長上下文推理路徑處理。目前主流路徑是將力覺數(shù)據(jù)先通過神經(jīng)編碼器轉(zhuǎn)化為低維 embedding 或事件 token，再作為輔助模態(tài)傳入大模型，做任務(wù)規(guī)劃或策略生成。

與此同時，大模型也開始嘗試在多模態(tài)預(yù)訓(xùn)練中引入力覺模態(tài)，使機器人具備基礎(chǔ)的“觸覺語義理解”能力，例如感知“軟”、“滑”、“有阻力”等物理屬性。

另外，業(yè)界正在探索世界模型。在感知層目前只有物體的二維+深度信息，未來會是多維信息，包括應(yīng)該用怎樣的力和眼前的物體進行交互，力覺信息也成為世界模型的一部分。

未來，大模型也許會具備“具身反思”的能力。也就是，通過力覺失敗經(jīng)驗反推抓取策略或重新規(guī)劃任務(wù)，即為和強化學(xué)習(xí)深度融合。

四木相對論：那么行業(yè)對具身智能大模型落地所需的本體精細度有形成共識嗎？如何看待大模型和硬件本體之間的關(guān)系？

方正浩：在硬件精細度上，大家現(xiàn)在還沒形成共識，不同企業(yè)和研究機構(gòu)基于不同的理念和目標，采用了差異化的硬件設(shè)計思路。

波士頓動力的 Atlas 就采用了精細化的設(shè)計，用了液壓驅(qū)動技術(shù)，配備高精度傳感器，還搭載了高自由度、結(jié)構(gòu)復(fù)雜的零部件。

*波士頓動力的 Atlas

零部件越精細，執(zhí)行能力肯定會越強，能完成更復(fù)雜的操作和執(zhí)行精度任務(wù)。但這樣做之后成本會出現(xiàn)問題，可能需要上百萬元，大規(guī)模降本之后也要幾十萬元。像特斯拉的 Optimus ，它降低了執(zhí)行器的靈敏度來大幅降低成本，更多是產(chǎn)業(yè)化的思路。

我認為未來軟硬件協(xié)同設(shè)計，包括標準化的器件平臺，會是一個方向。像低配的軟件平臺和大腦平臺來兼容低配的硬件，那高配的硬件也有高配的軟件來兼容。

很像智能手機和電腦，英特爾的賽揚、奔騰、酷睿、至強，都可以被同一套系統(tǒng)兼容，只是應(yīng)用場景不同，需要的硬件配置不一樣。

四木相對論：適配于雙足機器人和一體化底盤的機器人的具身智能模型，訓(xùn)練難度差別大嗎？

方正浩：不是很大，現(xiàn)在下肢部分的技術(shù)難度已經(jīng)解決得差不多了，真正難的還是感覺統(tǒng)合和手這一端。

業(yè)內(nèi)廠商還是想做通用的平臺，希望兼容兩足、四足等不同形態(tài)的機器人硬件。我們投的這些企業(yè)，大家也都在致力于研究統(tǒng)一的大模型，想兼容各類形態(tài)的產(chǎn)品、場景。

四木相對論：具身智能模型的泛用性是業(yè)內(nèi)備受關(guān)注的一個話題，你前面也提到了當下模型在泛化性上的不足，這個問題該如何解決呢？

方正浩：其實所有的廠商除了設(shè)計針對不同場景的泛用性大小腦，也在設(shè)計可以兼容不同硬件的大小腦，實現(xiàn)和硬件解耦，各類硬件數(shù)據(jù)可遷移。這也是當下“大腦”研究的一個重要問題。

我認為它需要一套智能大腦適應(yīng)不同的平臺，而核心是抽象和模塊化的設(shè)計。

現(xiàn)在一些研究工作提出把大腦和小腦分層架構(gòu)通過標準接口實現(xiàn)即插即用。這里面需要解決動作的映射和狀態(tài)的同步問題。大腦輸出的高層動作鏈必須轉(zhuǎn)化成各個平臺的具體的關(guān)節(jié)控制，需要共享環(huán)境和機器人的狀態(tài)，同時也要考慮異構(gòu)硬件的反饋閉環(huán)。

不同平臺的感知和動力學(xué)不同，可能系統(tǒng)也要自適應(yīng)地去調(diào)整策略。它還是需要設(shè)計統(tǒng)一的認知和決策接口，然后通過類似于技能庫、控制器的模塊化設(shè)計，來映射物理執(zhí)行，這樣才能實現(xiàn)大腦和不同的硬件的融合。

四木相對論：如何高通量地采集高質(zhì)量的多模態(tài)數(shù)據(jù)一直是具身智能領(lǐng)域的訓(xùn)練瓶頸之一，真實數(shù)據(jù)和合成數(shù)據(jù)之爭，也成了具身領(lǐng)域的非共識，你怎么看這兩種數(shù)據(jù)路線？

方正浩：真實數(shù)據(jù)更多是用來做細節(jié)訓(xùn)練和驗證，而合成數(shù)據(jù)可以用于大規(guī)模的預(yù)訓(xùn)練，及一些極端場景的訓(xùn)練。

和自動駕駛不同，具身智能真實數(shù)據(jù)的采集成本很高，且通量較低。哪怕是L2級別的自動駕駛，也可以通過傳感器獲得大量車手的真實駕駛數(shù)據(jù)反饋，但機器人需要做到95分才能在行業(yè)落地，否則存在大量可靠性、魯棒性和安全性的問題，數(shù)據(jù)采集挑戰(zhàn)很大。

我們投資的穹徹智能，就是用外骨骼和遙操作來采集真實的數(shù)據(jù)，并通過仿真數(shù)據(jù)來提高規(guī)模和多樣性。首先要通過真實采集的方式來做訓(xùn)練和細節(jié)，然后要通過模擬合成來做大模型預(yù)訓(xùn)練，相輔相成才能解決泛化問題。

具身已落地簡單場景，但前路還很長

四木相對論：就你的觀察，不同類型的機器人分別更適合用于什么場景？

方正浩：從場景看，下肢的形態(tài)比較多，像雙足、四足、輪式，還有更復(fù)雜的結(jié)構(gòu)，都有自己適合的場景。

比如說在平地，輪式和履帶式比較適合。如果沒有越障、爬樓或復(fù)雜地形，輪式和履帶式完全夠用，成本比較低，魯棒性也比較高。

*銀河通用機器人

如果是工廠，雙足、四足都可以考慮。在戶外的復(fù)雜地形，四足可能更有優(yōu)勢。

雙足的人形機器人更適合一些需要和人互動和共處的場景。這些場景是為人類使用習(xí)慣設(shè)計的，雙足形態(tài)更像人，理論上也會更好互動。

不同場景下會有不同方案的落地可能。從可靠性講，雙足是相對來說最弱的，它的生產(chǎn)成本和控制難度都會更高一些。現(xiàn)在大家表演的前空翻、后空翻，更多還是展示。

四木相對論：你認為哪種形態(tài)的落地范圍會更廣？現(xiàn)在雙足也會有爭議。

方正浩：長遠來講，我們肯定更看好雙足機器人。無論是高端還是低端，它的市場空間都是最大的。但它的落地周期也最長，無論是控制難度還是成本，都沒有優(yōu)勢。

相對來講輪式是最穩(wěn)定的，無論是工業(yè)機器人、AGV、AMR，履帶式和輪式都是相對比較成熟的。而且從供應(yīng)鏈角度，成本和可靠性上也最有優(yōu)勢。

四木相對論：有人說2025年是具身智能落地元年，現(xiàn)在各家都宣布了落地場景，據(jù)你觀察，目前具身智能實際落地進展如何？

方正浩：從場景來看的話，其實服務(wù)場景的落地周期還是挺長的。像養(yǎng)老場景，還有家庭那種需要任意操作的場景，難度和自動駕駛的L4、L5級別類似，落地難度非常大。

現(xiàn)在能落地的還是一些簡單場景。比如說展示場景，還有商店里的服務(wù)場景。

*貨架整理場景

它們的共性很明顯：首先是任務(wù)明確，不會有太多模糊的需求；第二是環(huán)境相對可控，不會突然出現(xiàn)太多不可預(yù)測的情況；第三就是需求量也還可以，所以落地起來會更容易些。

再說到工業(yè)或者產(chǎn)業(yè)場景，傳統(tǒng)工業(yè)場景對節(jié)拍、精度要求很高，對泛化性要求也沒那么高，其實和具身智能的兼容性沒那么強。

但像清潔配送、餐廳送餐、行李搬運這些場景，已經(jīng)有具身智能落地應(yīng)用的雛形了。它們需要一定的泛用性，對節(jié)拍的要求沒那么嚴格，反而更適合具身智能落地。

四木相對論：上一代的服務(wù)機器人四小龍已經(jīng)解決了很多場景的需求，還需要具身智能嗎？

方正浩：有一些場景是原來的技術(shù)沒辦法完全解決的，比如說行李搬運、配送。也有一些場景，用現(xiàn)在的技術(shù)可以更好升級解決方案，像商業(yè)清潔場景，之前的服務(wù)機器人解決得就并不好，還存在比較大的迭代空間。

四木相對論：工業(yè)領(lǐng)域你有看到什么效果還不錯的落地場景嗎?

方正浩：我認為一個比較好的場景是上下料環(huán)節(jié)。工業(yè)領(lǐng)域很多場景的邏輯性很強，是固定工位、固定操作，它不需要泛化性，對具身智能的需求也就不大，但物流搬運和上下料還是有一些需求的。像我們投資的西湖機器人，它應(yīng)該今年就會有場景落地的商業(yè)化。

四木相對論：你認為人形機器人多久可以進入家庭場景？

方正浩：可能10年左右吧。當然這里是說全尺寸的人形機器人，現(xiàn)在各種形態(tài)的陪伴機器人已經(jīng)進入家庭了。陪伴機器人也不需要是人形，可以是個小企鵝，甚至是一個蛋的形態(tài)。

四木相對論：你看好這種AI玩具產(chǎn)品嗎？

方正浩：玩具產(chǎn)品是有市場、有機會的，但商業(yè)模式上要謹慎考慮。比如說日本的 AI 寵物 LOVOT ，我去實地體驗過，它確實特別可愛，很有特點。不過它的受眾和市場非常有限，很難實現(xiàn)規(guī)模化。

*LOVOT AI 寵物

LOVOT 售價差不多1萬美金，大概6萬人民幣；或者是近3萬元的售價，加上每月880元也就是一年1萬多的訂閱費用，這個定價不符合絕大部分消費者的承受能力。

這個領(lǐng)域的頭部創(chuàng)業(yè)公司大家都看到了。他們有幾億營收，但我覺得不一定盈利。現(xiàn)在很多機器人走線上渠道銷售，存在很大的退貨風險。很多用戶收到機器人后，會發(fā)現(xiàn)產(chǎn)品和自己預(yù)期的差距挺大的。

*大象機器人

四木相對論：或許AI玩具賽道的研發(fā)成本也更低。

方正浩：對，現(xiàn)在陪伴機器人主要是陪聊天，沒有其他什么功能。LOVOT 還復(fù)雜一點，里面有上百個傳感器，包括維持37度的體溫，維持寵物和人的互動，你各種角度撫摸、觸碰它，它都會給你不同的反饋。

但要做一個相對復(fù)雜的產(chǎn)品，還是有一定的成本和門檻的。LOVOT 連聊天都不行，國內(nèi)的一些產(chǎn)品還是以聊天為主，但過于同質(zhì)化，沒有令人眼前一亮的AI陪伴產(chǎn)品出現(xiàn)。

兩年內(nèi)，會有一些公司掉隊

四木相對論：如今具身智能領(lǐng)域已有數(shù)百家公司，如果現(xiàn)在再投資這個賽道會有什么不同？

方正浩：會非常謹慎。現(xiàn)在具身賽道已經(jīng)過熱了，投資行業(yè)也已經(jīng)恢復(fù)到一個比較理性的狀態(tài)。

四木相對論：大模型的“六小龍”已經(jīng)分化，具身領(lǐng)域的企業(yè)有跑出差距嗎？

方正浩：具身智能公司還談不上跑得快、跑得慢。因為大家都還沒到量產(chǎn)的時候，可能到今年年底能更清晰一些。

四木相對論：現(xiàn)在具身智能企業(yè)的出貨量怎么樣？

方正浩：2025年全球人形機器人出貨量在數(shù)萬臺量級，各大廠商都在加速量產(chǎn)布局。很多家中國人形機器人廠商計劃2025年交付數(shù)百至上千臺人形機器人。

前段時間智元、宇樹在杭州拿下總規(guī)模1.24億的人形機器人訂單，優(yōu)必選拿下近億元的機器人設(shè)備采購項目，引發(fā)全行業(yè)關(guān)注，這也標志著人形機器人商業(yè)化起步。

四木相對論：國內(nèi)具身智能上游供應(yīng)鏈現(xiàn)在完善度如何？

方正浩：中國有不錯的硬件基礎(chǔ)，但現(xiàn)在供應(yīng)鏈的產(chǎn)能是相對不足的。

具身智能畢竟是一個新興的賽道，供應(yīng)鏈企業(yè)更多是服務(wù)于上一代機器人，一些適配 AI 模型所需的零部件仍在發(fā)展中。某種程度上，上游的產(chǎn)能也限制了下游的落地速度。

四木相對論：怎么看靈巧手的商業(yè)化？

方正浩：靈巧手反而是最沒量的，目前真實落地場景還比較少。多數(shù)場景只需要做夾持或抓握，上海有句話叫“三只手指頭捏田螺，十拿九穩(wěn)”，多數(shù)場景三個指頭完全可以夾起來各種東西。

四木相對論：你覺得具身智能領(lǐng)域最后能跑出多少玩家？

方正浩：有可能最后跑出來的就5-10家，但現(xiàn)在選手有幾百家，選擇投資下注的勝率還是比較有挑戰(zhàn)的。我看到現(xiàn)在整機已經(jīng)有些趨冷了。

四木相對論：具備什么基因的公司更可能跑出來？

方正浩：大腦公司在技術(shù)端要有絕對的長板，這就是技術(shù)公司最好的 PR。本體公司在商業(yè)落地上要走得遠。這是最大的區(qū)別。

具身智能大模型公司可以不急于商業(yè)化，現(xiàn)階段的商業(yè)化可能也就是定制化的外包項目。模型公司歸根到底還是要做出具有泛化性的大腦，還是要把技術(shù)打磨得足夠領(lǐng)先。

今年是融資的春天。具身應(yīng)該是今年一級市場最火的賽道，虹吸了很多賽道的基金。不過后面大家應(yīng)該就會慢慢冷靜下來，其實現(xiàn)在已經(jīng)開始冷靜了。

機器人的實際能力還是和預(yù)期有差距，行業(yè)也出現(xiàn)了大量的機器人公司，很難去判斷哪家是優(yōu)秀的。

四木相對論：什么時候行業(yè)格局會更清晰？

方正浩：明后年，應(yīng)該會有一些公司跑出來，一些公司掉隊。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.