具身智能行業(yè)剛上演了一場高濃度的大賞。
在剛剛落下帷幕的 WRC(世界機器人大會)上,200余家國內(nèi)外企業(yè)帶著1500多件展品亮相,推出超過百款新品。
*參考閱讀:
花式落地背后,是行業(yè)在一年內(nèi)的火速推進。
2025年被視為具身智能落地元年,目前已有宇樹、智元機器人等多家機器人企業(yè)宣布完成億級營收。在機器人公司眼中,工廠、養(yǎng)老院、家庭、餐廳、景區(qū),都是它們的目標場景。
然而,在商業(yè)落地飛快的背后,各家具身公司對技術(shù)路徑仍處于非共識狀態(tài)。就在這兩天,王興興對數(shù)據(jù)、VLA 的觀點還遭到了一些具身創(chuàng)業(yè)者的吐槽。
![]()
*王興興在2025WRC上接受采訪
這種模型、數(shù)據(jù)、本體三方廠商割裂的現(xiàn)象,讓一些人開始懷疑,正因為目前具身還沒實現(xiàn)真正的智能,三方廠商才彼此甩鍋。
針對技術(shù)路線的分野、商業(yè)化和投資的狂飆,我們專訪了小苗朗程管理合伙人方正浩。他從2023年開始出手具身智能,針對不同的技術(shù)路線,布局了不同的公司。
2023年,方正浩在天使輪投資了穹徹智能、西湖機器人、松延動力3家明星企業(yè)。
其中,穹徹智能走以力為中心的具身大模型路線,聯(lián)合創(chuàng)始人盧策吾教授是上海交通大學(xué)人工智能學(xué)院副院長,師從知名學(xué)者李飛飛和 Leo Guibas 教授。今年4月,它宣布完成數(shù)億元的 Pre-A++ 輪融資。
西湖機器人則是 VLA+RL 融合架構(gòu)路線的代表,是西湖大學(xué)智能實驗室轉(zhuǎn)化項目,由王東林博士團隊創(chuàng)辦。目前,它的產(chǎn)品已經(jīng)在物業(yè)、醫(yī)院、商業(yè)園區(qū)等場景落地。
松延動力創(chuàng)始人姜哲源則是很多 AI 投資人最喜歡的畫像,清華本碩博背景,25歲輟學(xué)創(chuàng)業(yè)。在今年的機器人馬拉松比賽上,他和自己的機器人一炮而紅。
作為很早就出手具身項目的投資人,當機器人整機在資本市場大火時,方正浩開始將目光轉(zhuǎn)向機器人傳感器、核心零部件等上游供應(yīng)鏈企業(yè)。2025年,小苗朗程投資了觸覺傳感器公司千覺機器人。
![]()
*小苗朗程管理合伙人方正浩
在這次世界機器人大會期間,我們和方正浩聊了聊他對具身智能技術(shù)路線、商業(yè)前景和投資趨勢的判斷。
以下為對話整理,略有刪減:
從數(shù)據(jù)到模型,具身的非共識探索期
四木相對論:你投資的第一家具身智能企業(yè)是什么?
方正浩:最早我們投資的具身智能企業(yè)是非夕科技。投的時候業(yè)內(nèi)還沒有具身的概念,它主要做機器人的力反饋+自主決策技術(shù)。從時間線上看,投得早的應(yīng)該是非夕了,投很多年了。后來非夕孵化了穹徹智能,我們也是穹徹天使輪的領(lǐng)投方。
四木相對論:從很早投非夕到布局穹徹,等于看著行業(yè)里有了具身的概念。后來你投具身賽道的邏輯是什么?
方正浩:在所有的人工智能落地場景里,AI 和機器人的結(jié)合應(yīng)該是想象空間最大的一個。大語言模型解決了機器人和人類交互的問題。多模態(tài)的具身模型,有機會去解決機器人的不同場景下的泛化能力和通用操作的問題。
所以,2023年我們投資了3家具身領(lǐng)域的公司。
到2024年,整機和具身大腦還有投資機會,同時上游供應(yīng)鏈企業(yè)也迎來發(fā)展機會,我們開始布局機器人傳感器、零部件環(huán)節(jié)。具身智能有可能發(fā)展為底層的基礎(chǔ)設(shè)施平臺,我們現(xiàn)在的思路就是去提前布局,投一些產(chǎn)業(yè)空白的環(huán)節(jié),推動行業(yè)發(fā)展。
四木相對論:距離第一次投具身智能過去了兩年。現(xiàn)在一個最熱的話題就是機器人模型,你覺得具身智能模型的技術(shù)成熟度如何?
方正浩:技術(shù)成熟度上還有非常大問題。各家推出的具身大腦不具備泛用性。當下大模型在落地某一個場景時,還需要針對任務(wù)做大量的數(shù)據(jù)反饋和閉環(huán),還沒有AI想實現(xiàn)的泛用性和通用性涌現(xiàn)。
四木相對論:VLA 和分層架構(gòu)是當下大模型談?wù)撦^多的兩種訓(xùn)練技術(shù)路徑,你更看好哪種路徑?
方正浩:端到端的 VLA 路線很火,谷歌的 Gemini Robotics、英偉達的Groot、微軟的 Magma、國內(nèi)智元都采用了這種路線。VLA 很有潛力,但需要配合大量仿真數(shù)據(jù)和真實數(shù)據(jù)才能落地。
![]()
*端到端VLA模型圖解
現(xiàn)在的 VLA 更多是看到物體,用語言操縱它,具備了一定的物體識別能力。到落地各個場景時,機器人如何和物體互動,如何完成任務(wù),這個事情都還處于非常初步的階段。
那另一種分層式的架構(gòu),大腦、小腦和肢體都是分開的,大語言模型負責規(guī)劃小模型和硬件,通過快速反饋實現(xiàn)控制,這種在短期內(nèi)會更容易實現(xiàn)。
還有一些更細分的路線,比如更側(cè)重力覺的路線。人和現(xiàn)實物理間的交互絕大部分其實都是靠手眼協(xié)作完成,手眼協(xié)作還需要對物體的力反饋有一個認知。
每一種路徑我們其實都有布局,像西湖機器人是做VLA+RL(人形機器人運動控制)的,穹徹是以力覺為中心的具身大模型路線。現(xiàn)在賽道還在演進,很難判斷終極路線。
四木相對論:你覺得限制具身智能大模型發(fā)展的因素有哪些?有人說是數(shù)據(jù),有人說是架構(gòu)。
方正浩:當前具身智能發(fā)展還存在一些明顯短板。第一個是數(shù)據(jù)采集與訓(xùn)練仿真的協(xié)同問題,這一核心環(huán)節(jié)目前還沒有找到徹底攻克的方案,導(dǎo)致實際場景中的數(shù)據(jù)利用率和仿真訓(xùn)練的落地效果都受到限制。
第二個短板在于感知維度的完整性。目前技術(shù)路徑大多依賴視覺與語言的融合,但僅靠這兩種模態(tài)遠遠不夠 —— 如果缺乏力覺、觸覺等更貼近物理交互的感知維度,具身智能就難以實現(xiàn)真正意義上的端到端學(xué)習(xí)。
畢竟當前主流方案里,“vision(視覺)+ language(語言)” 的二元框架,在復(fù)雜物理環(huán)境交互中能覆蓋的場景太有限了,必須補充更多元的感知維度才能突破瓶頸。
四木相對論:力覺信息與具身模型之間的關(guān)系是怎樣的,它如何融入到大模型的感知和決策系統(tǒng)中?
方正浩:力覺信息更適合與小腦結(jié)合進行底層控制,如條件反射般進行控制,與大模型尤其是世界模型的融合還有待技術(shù)突破。
在當前的具身智能系統(tǒng)中,力覺信息通常并不是直接輸給大模型處理,而是更常與類“小腦”的控制模塊結(jié)合,用于執(zhí)行預(yù)測控制、誤差補償和動態(tài)閉環(huán)反饋。
這樣做的原因在于,力覺數(shù)據(jù)頻率高、數(shù)據(jù)量大、實時性強,不適合大模型的長上下文推理路徑處理。目前主流路徑是將力覺數(shù)據(jù)先通過神經(jīng)編碼器轉(zhuǎn)化為低維 embedding 或事件 token,再作為輔助模態(tài)傳入大模型,做任務(wù)規(guī)劃或策略生成。
與此同時,大模型也開始嘗試在多模態(tài)預(yù)訓(xùn)練中引入力覺模態(tài),使機器人具備基礎(chǔ)的“觸覺語義理解”能力,例如感知“軟”、“滑”、“有阻力”等物理屬性。
另外,業(yè)界正在探索世界模型。在感知層目前只有物體的二維+深度信息,未來會是多維信息,包括應(yīng)該用怎樣的力和眼前的物體進行交互,力覺信息也成為世界模型的一部分。
未來,大模型也許會具備“具身反思”的能力。也就是,通過力覺失敗經(jīng)驗反推抓取策略或重新規(guī)劃任務(wù),即為和強化學(xué)習(xí)深度融合。
四木相對論:那么行業(yè)對具身智能大模型落地所需的本體精細度有形成共識嗎?如何看待大模型和硬件本體之間的關(guān)系?
方正浩:在硬件精細度上,大家現(xiàn)在還沒形成共識,不同企業(yè)和研究機構(gòu)基于不同的理念和目標,采用了差異化的硬件設(shè)計思路。
波士頓動力的 Atlas 就采用了精細化的設(shè)計,用了液壓驅(qū)動技術(shù),配備高精度傳感器,還搭載了高自由度、結(jié)構(gòu)復(fù)雜的零部件。
![]()
*波士頓動力的 Atlas
零部件越精細,執(zhí)行能力肯定會越強,能完成更復(fù)雜的操作和執(zhí)行精度任務(wù)。但這樣做之后成本會出現(xiàn)問題,可能需要上百萬元,大規(guī)模降本之后也要幾十萬元。像特斯拉的 Optimus ,它降低了執(zhí)行器的靈敏度來大幅降低成本,更多是產(chǎn)業(yè)化的思路。
我認為未來軟硬件協(xié)同設(shè)計,包括標準化的器件平臺,會是一個方向。像低配的軟件平臺和大腦平臺來兼容低配的硬件,那高配的硬件也有高配的軟件來兼容。
很像智能手機和電腦,英特爾的賽揚、奔騰、酷睿、至強,都可以被同一套系統(tǒng)兼容,只是應(yīng)用場景不同,需要的硬件配置不一樣。
四木相對論:適配于雙足機器人和一體化底盤的機器人的具身智能模型,訓(xùn)練難度差別大嗎?
方正浩:不是很大,現(xiàn)在下肢部分的技術(shù)難度已經(jīng)解決得差不多了,真正難的還是感覺統(tǒng)合和手這一端。
業(yè)內(nèi)廠商還是想做通用的平臺,希望兼容兩足、四足等不同形態(tài)的機器人硬件。我們投的這些企業(yè),大家也都在致力于研究統(tǒng)一的大模型,想兼容各類形態(tài)的產(chǎn)品、場景。
四木相對論:具身智能模型的泛用性是業(yè)內(nèi)備受關(guān)注的一個話題,你前面也提到了當下模型在泛化性上的不足,這個問題該如何解決呢?
方正浩:其實所有的廠商除了設(shè)計針對不同場景的泛用性大小腦,也在設(shè)計可以兼容不同硬件的大小腦,實現(xiàn)和硬件解耦,各類硬件數(shù)據(jù)可遷移。這也是當下“大腦”研究的一個重要問題。
我認為它需要一套智能大腦適應(yīng)不同的平臺,而核心是抽象和模塊化的設(shè)計。
現(xiàn)在一些研究工作提出把大腦和小腦分層架構(gòu)通過標準接口實現(xiàn)即插即用。這里面需要解決動作的映射和狀態(tài)的同步問題。大腦輸出的高層動作鏈必須轉(zhuǎn)化成各個平臺的具體的關(guān)節(jié)控制,需要共享環(huán)境和機器人的狀態(tài),同時也要考慮異構(gòu)硬件的反饋閉環(huán)。
不同平臺的感知和動力學(xué)不同,可能系統(tǒng)也要自適應(yīng)地去調(diào)整策略。它還是需要設(shè)計統(tǒng)一的認知和決策接口,然后通過類似于技能庫、控制器的模塊化設(shè)計,來映射物理執(zhí)行,這樣才能實現(xiàn)大腦和不同的硬件的融合。
四木相對論:如何高通量地采集高質(zhì)量的多模態(tài)數(shù)據(jù)一直是具身智能領(lǐng)域的訓(xùn)練瓶頸之一,真實數(shù)據(jù)和合成數(shù)據(jù)之爭,也成了具身領(lǐng)域的非共識,你怎么看這兩種數(shù)據(jù)路線?
方正浩:真實數(shù)據(jù)更多是用來做細節(jié)訓(xùn)練和驗證,而合成數(shù)據(jù)可以用于大規(guī)模的預(yù)訓(xùn)練,及一些極端場景的訓(xùn)練。
和自動駕駛不同,具身智能真實數(shù)據(jù)的采集成本很高,且通量較低。哪怕是L2級別的自動駕駛,也可以通過傳感器獲得大量車手的真實駕駛數(shù)據(jù)反饋,但機器人需要做到95分才能在行業(yè)落地,否則存在大量可靠性、魯棒性和安全性的問題,數(shù)據(jù)采集挑戰(zhàn)很大。
我們投資的穹徹智能,就是用外骨骼和遙操作來采集真實的數(shù)據(jù),并通過仿真數(shù)據(jù)來提高規(guī)模和多樣性。首先要通過真實采集的方式來做訓(xùn)練和細節(jié),然后要通過模擬合成來做大模型預(yù)訓(xùn)練,相輔相成才能解決泛化問題。
具身已落地簡單場景,但前路還很長
四木相對論:就你的觀察,不同類型的機器人分別更適合用于什么場景?
方正浩:從場景看,下肢的形態(tài)比較多,像雙足、四足、輪式,還有更復(fù)雜的結(jié)構(gòu),都有自己適合的場景。
比如說在平地,輪式和履帶式比較適合。如果沒有越障、爬樓或復(fù)雜地形,輪式和履帶式完全夠用,成本比較低,魯棒性也比較高。
![]()
*銀河通用機器人
如果是工廠,雙足、四足都可以考慮。在戶外的復(fù)雜地形,四足可能更有優(yōu)勢。
雙足的人形機器人更適合一些需要和人互動和共處的場景。這些場景是為人類使用習(xí)慣設(shè)計的,雙足形態(tài)更像人,理論上也會更好互動。
不同場景下會有不同方案的落地可能。從可靠性講,雙足是相對來說最弱的,它的生產(chǎn)成本和控制難度都會更高一些。現(xiàn)在大家表演的前空翻、后空翻,更多還是展示。
四木相對論:你認為哪種形態(tài)的落地范圍會更廣?現(xiàn)在雙足也會有爭議。
方正浩:長遠來講,我們肯定更看好雙足機器人。無論是高端還是低端,它的市場空間都是最大的。但它的落地周期也最長,無論是控制難度還是成本,都沒有優(yōu)勢。
相對來講輪式是最穩(wěn)定的,無論是工業(yè)機器人、AGV、AMR,履帶式和輪式都是相對比較成熟的。而且從供應(yīng)鏈角度,成本和可靠性上也最有優(yōu)勢。
四木相對論:有人說2025年是具身智能落地元年,現(xiàn)在各家都宣布了落地場景,據(jù)你觀察,目前具身智能實際落地進展如何?
方正浩:從場景來看的話,其實服務(wù)場景的落地周期還是挺長的。像養(yǎng)老場景,還有家庭那種需要任意操作的場景,難度和自動駕駛的L4、L5級別類似,落地難度非常大。
現(xiàn)在能落地的還是一些簡單場景。比如說展示場景,還有商店里的服務(wù)場景。
![]()
*貨架整理場景
它們的共性很明顯:首先是任務(wù)明確,不會有太多模糊的需求;第二是環(huán)境相對可控,不會突然出現(xiàn)太多不可預(yù)測的情況;第三就是需求量也還可以,所以落地起來會更容易些。
再說到工業(yè)或者產(chǎn)業(yè)場景,傳統(tǒng)工業(yè)場景對節(jié)拍、精度要求很高,對泛化性要求也沒那么高,其實和具身智能的兼容性沒那么強。
但像清潔配送、餐廳送餐、行李搬運這些場景,已經(jīng)有具身智能落地應(yīng)用的雛形了。它們需要一定的泛用性,對節(jié)拍的要求沒那么嚴格,反而更適合具身智能落地。
四木相對論:上一代的服務(wù)機器人四小龍已經(jīng)解決了很多場景的需求,還需要具身智能嗎?
方正浩:有一些場景是原來的技術(shù)沒辦法完全解決的,比如說行李搬運、配送。也有一些場景,用現(xiàn)在的技術(shù)可以更好升級解決方案,像商業(yè)清潔場景,之前的服務(wù)機器人解決得就并不好,還存在比較大的迭代空間。
四木相對論:工業(yè)領(lǐng)域你有看到什么效果還不錯的落地場景嗎?
方正浩:我認為一個比較好的場景是上下料環(huán)節(jié)。工業(yè)領(lǐng)域很多場景的邏輯性很強,是固定工位、固定操作,它不需要泛化性,對具身智能的需求也就不大,但物流搬運和上下料還是有一些需求的。像我們投資的西湖機器人,它應(yīng)該今年就會有場景落地的商業(yè)化。
四木相對論:你認為人形機器人多久可以進入家庭場景?
方正浩:可能10年左右吧。當然這里是說全尺寸的人形機器人,現(xiàn)在各種形態(tài)的陪伴機器人已經(jīng)進入家庭了。陪伴機器人也不需要是人形,可以是個小企鵝,甚至是一個蛋的形態(tài)。
四木相對論:你看好這種AI玩具產(chǎn)品嗎?
方正浩:玩具產(chǎn)品是有市場、有機會的,但商業(yè)模式上要謹慎考慮。比如說日本的 AI 寵物 LOVOT ,我去實地體驗過,它確實特別可愛,很有特點。不過它的受眾和市場非常有限,很難實現(xiàn)規(guī)模化。
![]()
*LOVOT AI 寵物
LOVOT 售價差不多1萬美金,大概6萬人民幣;或者是近3萬元的售價,加上每月880元也就是一年1萬多的訂閱費用,這個定價不符合絕大部分消費者的承受能力。
這個領(lǐng)域的頭部創(chuàng)業(yè)公司大家都看到了。他們有幾億營收,但我覺得不一定盈利。現(xiàn)在很多機器人走線上渠道銷售,存在很大的退貨風險。很多用戶收到機器人后,會發(fā)現(xiàn)產(chǎn)品和自己預(yù)期的差距挺大的。
![]()
*大象機器人
四木相對論:或許AI玩具賽道的研發(fā)成本也更低。
方正浩:對,現(xiàn)在陪伴機器人主要是陪聊天,沒有其他什么功能。LOVOT 還復(fù)雜一點,里面有上百個傳感器,包括維持37度的體溫,維持寵物和人的互動,你各種角度撫摸、觸碰它,它都會給你不同的反饋。
但要做一個相對復(fù)雜的產(chǎn)品,還是有一定的成本和門檻的。LOVOT 連聊天都不行,國內(nèi)的一些產(chǎn)品還是以聊天為主,但過于同質(zhì)化,沒有令人眼前一亮的AI陪伴產(chǎn)品出現(xiàn)。
兩年內(nèi),會有一些公司掉隊
四木相對論:如今具身智能領(lǐng)域已有數(shù)百家公司,如果現(xiàn)在再投資這個賽道會有什么不同?
方正浩:會非常謹慎。現(xiàn)在具身賽道已經(jīng)過熱了,投資行業(yè)也已經(jīng)恢復(fù)到一個比較理性的狀態(tài)。
四木相對論:大模型的“六小龍”已經(jīng)分化,具身領(lǐng)域的企業(yè)有跑出差距嗎?
方正浩:具身智能公司還談不上跑得快、跑得慢。因為大家都還沒到量產(chǎn)的時候,可能到今年年底能更清晰一些。
四木相對論:現(xiàn)在具身智能企業(yè)的出貨量怎么樣?
方正浩:2025年全球人形機器人出貨量在數(shù)萬臺量級,各大廠商都在加速量產(chǎn)布局。很多家中國人形機器人廠商計劃2025年交付數(shù)百至上千臺人形機器人。
前段時間智元、宇樹在杭州拿下總規(guī)模1.24億的人形機器人訂單,優(yōu)必選拿下近億元的機器人設(shè)備采購項目,引發(fā)全行業(yè)關(guān)注,這也標志著人形機器人商業(yè)化起步。
四木相對論:國內(nèi)具身智能上游供應(yīng)鏈現(xiàn)在完善度如何?
方正浩:中國有不錯的硬件基礎(chǔ),但現(xiàn)在供應(yīng)鏈的產(chǎn)能是相對不足的。
具身智能畢竟是一個新興的賽道,供應(yīng)鏈企業(yè)更多是服務(wù)于上一代機器人,一些適配 AI 模型所需的零部件仍在發(fā)展中。某種程度上,上游的產(chǎn)能也限制了下游的落地速度。
四木相對論:怎么看靈巧手的商業(yè)化?
方正浩:靈巧手反而是最沒量的,目前真實落地場景還比較少。多數(shù)場景只需要做夾持或抓握,上海有句話叫“三只手指頭捏田螺,十拿九穩(wěn)”,多數(shù)場景三個指頭完全可以夾起來各種東西。
四木相對論:你覺得具身智能領(lǐng)域最后能跑出多少玩家?
方正浩:有可能最后跑出來的就5-10家,但現(xiàn)在選手有幾百家,選擇投資下注的勝率還是比較有挑戰(zhàn)的。我看到現(xiàn)在整機已經(jīng)有些趨冷了。
四木相對論:具備什么基因的公司更可能跑出來?
方正浩:大腦公司在技術(shù)端要有絕對的長板,這就是技術(shù)公司最好的 PR。本體公司在商業(yè)落地上要走得遠。這是最大的區(qū)別。
具身智能大模型公司可以不急于商業(yè)化,現(xiàn)階段的商業(yè)化可能也就是定制化的外包項目。模型公司歸根到底還是要做出具有泛化性的大腦,還是要把技術(shù)打磨得足夠領(lǐng)先。
今年是融資的春天。具身應(yīng)該是今年一級市場最火的賽道,虹吸了很多賽道的基金。不過后面大家應(yīng)該就會慢慢冷靜下來,其實現(xiàn)在已經(jīng)開始冷靜了。
機器人的實際能力還是和預(yù)期有差距,行業(yè)也出現(xiàn)了大量的機器人公司,很難去判斷哪家是優(yōu)秀的。
四木相對論:什么時候行業(yè)格局會更清晰?
方正浩:明后年,應(yīng)該會有一些公司跑出來,一些公司掉隊。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.