獨家 | 上海國資出手，這家機器人公司又融20億

2026-03-10 10:07:20　來源: 投中網(wǎng)

上海舉報

分享至

投中網(wǎng)獨家獲悉，靈初智能已完成天使輪及Pre-A輪20億元融資。

資方以“國家隊”資本和產業(yè)資本為主。天使輪投資人包括國開金融、國中創(chuàng)投、央視融媒體產業(yè)投資基金，和某千億上市公司旗下戰(zhàn)投、長飛光纖旗下基金兩大核心產業(yè)龍頭資本。Pre-A 輪由上海國資徐匯資本等領投，部分地方國資及市場化基金跟投，多家老股東實現(xiàn)超額跟投。其中，領投方徐匯資本剛剛參與了階躍星辰的B+輪超50億融資。直投之外，徐匯資本還通過母基金布局機器人賽道，出資45億元參與了超200億規(guī)模的上海人工智能母基金。

本體，大腦，全棧，具身智能公司大體形成了這樣的定位劃分。靈初智能，是一家定位于“小全棧”的具身公司。之所以叫“小全棧”，是因為在研發(fā)上做了取舍，把重心放在構建以端到端VLA模型為核心的軟件與數(shù)據(jù)采集工具鏈體系上。本輪融資也將投入到靈初智能在物流場景的規(guī)模化應用與大規(guī)模數(shù)據(jù)采集解決方案體系的構建中。

端到端VLA模型已是行業(yè)基操，今天重點來談談他們目前的業(yè)務重心——數(shù)據(jù)采集。

當年DataBricks和Snowflake的崛起，核心是靠搭建了適配互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)時代的數(shù)據(jù)基礎設施。當產業(yè)進入機器人時代，機器人的數(shù)據(jù)采集與持續(xù)學習，同樣需要一套完善的基礎設施作為支撐。這點不難理解。更何況，大語言模型性能快速提升依托的是scaling law法則，但文本類數(shù)據(jù)可以從互聯(lián)網(wǎng)上直接獲得，具身模型所需的真實物理交互數(shù)據(jù)卻很難收集。數(shù)據(jù)，成了具身智能發(fā)展的關鍵瓶頸。

于是，在當下這個階段，數(shù)據(jù)采集成了一門搶手的生意。從技術路徑來看，遙操作、仿真、UMI和視頻學習，這四條路徑已形成差異化競爭格局，在成本控制、數(shù)據(jù)精度、場景適配性等維度各有優(yōu)劣。其中，去年起了聲勢的UMI模式，其獨特性在于不再依賴機器人硬件或本體，通過人手持設備即可記錄人類操作過程，實現(xiàn)了低成本采集數(shù)據(jù)。一個典型案例是，憑借27萬小時的訓練數(shù)據(jù)，海外公司Generalist宣稱在機器人領域首次驗證了scaling law。

UMI已發(fā)展出多個變體：FastUMI、MV-UMI（多視角）、DexUMI（靈巧手）等。國內類似UMI模式的公司也有幾家，雖然看上去類似，但各家的基因還是不同，路線也有差異。最初的UMI模式是手持雙指夾爪，靈初智能做的則是多模態(tài)數(shù)據(jù)手套，同樣能以低成本的方式采集數(shù)據(jù)，和采集夾爪數(shù)據(jù)相比，通過手套采集的數(shù)據(jù)更容易在機器人上實現(xiàn)泛化。

之所以從這個方向切入，故事還得從頭說起。

創(chuàng)始人兼CEO王啟斌是個行業(yè)老兵，在機器人和消費電子行業(yè)擁有超過二十年的產品和商業(yè)化經驗。聯(lián)合創(chuàng)始人兼硬件負責人陳源培，則是一位00后學霸，在北京大學人工智能研究院讀研時師從楊耀東教授，2023年在斯坦福訪學期間還曾與師從李飛飛交流。同時團隊里還有一批在具身和靈巧操作領域活躍的學術中堅力量。不少投資人最初押注這家企業(yè)，正是看好這個相對全面的人才配置。

2024年年中成立時，靈初智能切入的是靈巧手靈巧操作。為什么要選靈巧手靈巧操作呢？

陳源培告訴我，核心邏輯只有一個：人是雙臂五指的形態(tài)，而具身智能的核心的是獲取人類數(shù)據(jù)，就像自動駕駛和大語言模型一樣，本質上都是從人類日常生活中提取數(shù)據(jù)，再用數(shù)據(jù)訓練模型，具身智能也必然遵循這個規(guī)律。“只要人是雙臂五指手，我們采集人類數(shù)據(jù)的差距就最小，數(shù)據(jù)的可用性也最高。”王啟斌也相信，操作夾爪的天花板很低，做不了太復雜的事情，通用靈巧操作最終還是要靠靈巧手來實現(xiàn)。

不過那時，市場的主流是運控為主的四足機器狗。在靈初智能創(chuàng)始團隊中，卻有為數(shù)不多在那個時候做靈巧手操作算法研究的科學家。陳源培回憶，第一篇paper發(fā)出來的時候是2022年中，當時根本沒人做靈巧手關注靈巧操作，直到2023年馬斯克發(fā)布了Optimus之后，人形機器人火了。但2024年，Optimus的靈巧手也沒有真正做出來。

“做手最難的是算法，而不是硬件。”王啟斌認為。在自研靈巧手之前，他們采購了市面上的靈巧手，發(fā)現(xiàn)硬件能用，但手上的本體嵌入式算法做得并不好。

最初這家公司把精力投入到了算法研發(fā)上。靈初智能的模型訓練，全程以offline到online的強化學習為核心，摒棄了模仿學習階段。在陳源培看來，這帶來兩個核心優(yōu)勢：一是能大幅提高操作成功率，同時避免模型遺忘過往信息；二是能提升操作節(jié)拍，因為強化學習中，模型會為了快速獲得獎勵而自主加速，最終達到最優(yōu)操作速度。

在2024年，整個行業(yè)還沒有意識到靈巧操作（manipulation）需要如此龐大的數(shù)據(jù)量。直到去年年中UMI爆發(fā)，他們判斷這件事一定會在具身智能領域重演，于是開始把數(shù)據(jù)提到了更高的優(yōu)先級。為此，靈初智能自研了21自由度外骨骼手套，支持眾包式采集，能以遠低于傳統(tǒng)遙操作的成本獲取高質量真實數(shù)據(jù)。

今年，他們的規(guī)劃是，一方面探索商業(yè)化落地場景，一方面大規(guī)模采集數(shù)據(jù)。王啟斌認為，過去一年行業(yè)驗證表明，單純針對某個場景的商業(yè)化并不理想，將某個場景的產品做到高度泛化并實現(xiàn)規(guī)模化很難。究其原因，還是缺乏數(shù)據(jù)。因此，靈初智能將商業(yè)化的核心，放在了數(shù)據(jù)采集工具和數(shù)據(jù)平臺的搭建上。

數(shù)據(jù)不足是行業(yè)共識，但王啟斌在行業(yè)一線看到，真實數(shù)據(jù)需求的量級遠超行業(yè)想象。“去年大家還在談萬小時級數(shù)據(jù)，今年我們提出100萬真實小時起步。”在他看來，要實現(xiàn)無處不在的AGI，億小時級數(shù)據(jù)是終極目標，從某個場景切入，百萬小時級數(shù)據(jù)是最低門檻。如何實現(xiàn)數(shù)據(jù)的低成本、規(guī)模化采集，以及快速反哺模型迭代，是當下行業(yè)最大的難題。

在數(shù)據(jù)采集模式上，靈初智能跳出了行業(yè)主流的自建數(shù)采工廠的模式。王啟斌認為，這種重資產模式存在三大問題：一是資產投入過重，二是數(shù)據(jù)無法跨環(huán)境復用，三是無法1:1還原真實生產生活環(huán)境，數(shù)據(jù)存在損耗。因此，靈初智能選擇了分布式采集模式，核心載體是自主研發(fā)的數(shù)據(jù)手套。

“用戶帶著數(shù)據(jù)手套完成日常工作，就能實現(xiàn)數(shù)據(jù)采集，既能大幅降低硬件投入，采集到的人類數(shù)據(jù)還具有高度通用性，能遷移到不同機器人身上。”王啟斌解釋道，這種以人為中心（human-centric）的數(shù)據(jù)采集模式，本質上是打造通才型基礎數(shù)據(jù)，后續(xù)只需通過少量后訓練，就能適配不同機器人。而傳統(tǒng)的機器人本體采集模式，只能實現(xiàn)專才型數(shù)據(jù)，很難跨機器人泛化。

在具身技術路線尚未收斂的背景下，數(shù)據(jù)采集看起來是個賣鏟子的好生意。但也有投資人對其長期性存有疑慮，認為數(shù)據(jù)采集會不會只是階段性的生意，因為最終機器人還是要靠自學習而非依賴外部數(shù)據(jù)實現(xiàn)迭代。

我把這個問題拋給王啟斌。他的思考是：無論技術如何迭代，數(shù)據(jù)始終是飛輪中的關鍵。這個主線不變，但商業(yè)模式可能會不斷演變。

比如，當機器人真正部署到日常生活中，開始產生真實場景的數(shù)據(jù)回流。這個時代將接近特斯拉的自動駕駛模式：通過大規(guī)模實際部署收集數(shù)據(jù)，形成"數(shù)據(jù)-模型-產品"的增強回路。更長遠來看，他對機器人終局的設想是，不會局限于人形，而是各種形態(tài)的生物機器人共存，一如生物的多樣性存在。屆時，不同形態(tài)之下，數(shù)據(jù)如何進入系統(tǒng)、如何流動起來，并驅動模型迭代，這幾個模塊都會有變化。

回到落地的話題，靈初智能的數(shù)據(jù)手套目前已實現(xiàn)硬件落地，北京地區(qū)的100套設備正在部署，預計年前就能啟動大規(guī)模數(shù)據(jù)采集。此前，公司已完成1萬小時量級真實手套數(shù)據(jù)的驗證，20256年的目標是突破100萬小時量級。靈初智能還計劃將分布式數(shù)據(jù)采集與Web3.0結合，用戶可以購買或租賃數(shù)據(jù)手套，在家完成收拾桌子等簡單操作，3分鐘就能獲得1-1.5美金的報酬，通過微支付模式，實現(xiàn)數(shù)據(jù)采集的規(guī)模化。

在商業(yè)場景選擇上，他們的考量是：家庭場景因極端情況過多短期內難以閉環(huán)，傳統(tǒng)工廠場景的數(shù)據(jù)價值又相對閉塞。靈初智能錨定的，是半結構化的物流及零售場景，利用其高頻泛化需求的特點，展現(xiàn)具身智能在非標自動化領域的價值。

做過多年消費電子商業(yè)行業(yè)，王啟斌能把各類場景拆出很細的顆粒度。物流及泛服務業(yè)在他的坐標系里，屬于“中等精度、節(jié)拍適中、高泛化性”的場景。進一步，物流又能拆分為上百種具體場景，靈初首站選擇的是服裝倉儲。這一環(huán)節(jié)貫通從倉庫到門店再到C端的全鏈條，SKU極度豐富，近萬件服裝，顏色、包裝、尺寸各異，天然提供海量多樣性數(shù)據(jù)。“掃碼”這一核心動作看似簡單，但做好極難——既要保證99.9%以上的成功率，又要滿足穩(wěn)定的作業(yè)節(jié)拍。

根據(jù)投中嘉川CVSource數(shù)據(jù)，2025年具身智能融資規(guī)模高達329億，2026年行業(yè)的關鍵詞會是什么？有人認為是商業(yè)化和訂單，有人認為是殘酷的淘汰賽，但如果從數(shù)據(jù)資產的層面看，這個故事可能才剛剛開始。

在陳源培看來，大家正處于開始意識到要大規(guī)模收集數(shù)據(jù)的階段，而基于這些大規(guī)模的數(shù)據(jù)積累，未來一定會有新的技術架構跑出來。王啟斌則相信，具身的門票會比自動駕駛更多，從數(shù)據(jù)到應用，整個鏈條上的機會更為豐富，每一個小的細分領域都可能容納下一家有足夠體量的公司。

對話靈初智能創(chuàng)始人王啟斌、聯(lián)合創(chuàng)始人陳源培

投中網(wǎng)：模型層面，靈初的技術路線是分層VLA，這是一個階段性的選擇嗎？之所以分層，是因為現(xiàn)階段它的效果在要比統(tǒng)一的端到端大模型要好？

陳源培：站在整體視角看，它確實比不分層的效果好。原因很簡單，現(xiàn)在數(shù)據(jù)量不夠，分層的模塊化設計，能讓每個模塊的數(shù)據(jù)利用效率更高。至于數(shù)據(jù)量夠了之后，哪種形態(tài)更好，現(xiàn)在還說不準。

我一直跟別人說，現(xiàn)在談模型架構沒啥意義，因為全行業(yè)的數(shù)據(jù)量都完全不夠。你看特斯拉，在訓出FSD 12之前，不也一直在用if else寫規(guī)則嗎？那時候行業(yè)里也吵得厲害，爭論到底是寫規(guī)則好、端到端好，還是分層好，各種說法都有，但吵來吵去也沒個結果。我覺得現(xiàn)在具身智能就處于這個階段，大家都在準備大規(guī)模收集數(shù)據(jù)，等數(shù)據(jù)量上來了，肯定會有新的架構冒出來。

投中網(wǎng)：很多靈巧手公司在宣傳的時候都會講自己有多高的自由度，但我很好奇，堆疊太多自由度有必要嗎？在你看來，現(xiàn)在能解決實際問題的靈巧手需要多少自由度是比較合理的？

陳源培：這個問題問得好，這其實也要看發(fā)展階段。靈巧手本身是可以無限迭代的，但如果沒有明確的應用場景，你再追求完美產品，也只是紙面指標的堆砌，沒什么用。

這里面有個矛盾：自由度高了，穩(wěn)定性就下降，成本也上去；定位精度提上來了，動態(tài)響應又會變差。所以現(xiàn)階段，靈巧手的參數(shù)收斂只有一個方向，看落地。怎么確定多少自由度、各項參數(shù)怎么設？很簡單，看哪個參數(shù)能落地，在落地過程中反推回來就行。

比如，先明確，當下能落地的場景需要多少自由度，先讓這些場景持續(xù)產生價值，再反過來優(yōu)化，梳理出理想的設計。我一直覺得，在商業(yè)場景不明確的情況下，單純做硬件是件很困難的事，這也是我們特別注重商業(yè)閉環(huán)的原因。

說白了，靈巧手的參數(shù)、指標什么時候能收斂？只有當?shù)谝粋€能產生實際價值的商業(yè)場景跑通了，方向才會清晰，否則永遠只是在做Demo，沒什么實際意義。

投中網(wǎng)：靈初智能主要是做模型、靈巧手，以及數(shù)采工具，不太涉足硬件。一種觀點是，只做大腦，不做機器人本體的話，反饋和調整會沒有那么及時，這個問題會在我們的考慮之中嗎？

陳源培：這個我們肯定考慮到了。所以我們在硬件上不是純粹采購，而是會自己做設計。硬件要做成什么樣、核心結構的參數(shù)怎么定、動作空間有多大、需要多少自由度，這些我們都會自己把控。只不過底層核心零部件的研發(fā)和代工，我們不做，那些是專業(yè)機械廠商的強項，他們能做得更好。

所以我們這種模式叫“小全棧”。既不是純粹的軟件公司，也不是那種什么都做的全棧公司，而是把硬件做到設計層面，這樣就能保證反饋和調整的及時性。

投中網(wǎng)：不少具身企業(yè)選擇的都是物流場景，靈初智能切入這個場景的思路跟其他家有什么不同嗎？

王啟斌：共識都是對投資人來說的，對行業(yè)里的人來說沒有共識。選場景最可怕的是，大家只講物流，不講specifically。其實物流現(xiàn)在隨隨便便就能找出100種場景，那到底是物流里的哪個環(huán)節(jié)？是從大倉出貨，還是配送？是配到門店級別，還是從門店配到ToC端？物流是有底層規(guī)律的，越往下游走，SKU就越多，拆零的需求也越大。比如說，你在門店級別，貨物還是一整箱一整箱的，到了商超，就已經拆成一件一件的了。所以核心是，你在哪個環(huán)節(jié)，干哪個具體動作？

像我們第一個場景選的是衣服，為什么選衣服，因為衣服在倉配環(huán)節(jié)，既能配到門店，也能配到ToC端。倉里光衣服就有小一萬件，各種款式、顏色，包裝尺寸也不一樣，就做掃碼這么一個簡單動作。這動作需求巨大，但要做好特別難，得做到99.9%以上的成功率，還得跟上作業(yè)節(jié)拍。

這些都得是對行業(yè)有極深理解才能選對的。我們做物流解決方案的團隊很強，核心成員創(chuàng)業(yè)前都是做大型解決方案的，我自己對物流也特別了解。這就跟拍照、畫油畫一樣，平庸的攝影師只會拍全景，而高手呢，同樣一幅景色，他能精準選對角度，拍出不一樣的質感。所以如果大家都只泛泛談物流，在這種所謂的共識里，永遠做不出好東西。必須在細分環(huán)節(jié)里看到非共識的細節(jié)，做產品、做場景，細節(jié)一定要夠足。

投中網(wǎng)：我其實很想知道，這一波具身創(chuàng)業(yè)者他們構想中的未來世界藍圖，到底是什么樣子的？您剛才也提到，未來可能是一些人機結合的場景，能展開講一講嗎？

王啟斌：現(xiàn)在所有人都說“機器替人”是主流，但我認為這只是一個過渡形態(tài)。我覺得真正理想的狀態(tài)是，智能體（agent）最終會形成一種類似我們現(xiàn)在世界的形態(tài)——多種生物體混合共存。你想啊，我們現(xiàn)在講的人類適合的環(huán)境，是我們人類自己構建的、為人類服務的，但除此之外還有自然界的各種形態(tài)。所以我認為，包括智能體在內的這些具備智能的載體，最終一定會有各種各樣的存在形式。就像你現(xiàn)在能看到的，天上飛的無人機、地上跑的機器人，甚至海底游的設備，這都是很正常的。它們以后都會不斷進化，變得越來越智能，最終和人類、和整個環(huán)境融合在一起，形成人機共生的狀態(tài)。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.