投中網(wǎng)獨家獲悉,靈初智能已完成天使輪及Pre-A輪20億元融資。
資方以“國家隊”資本和產業(yè)資本為主。天使輪投資人包括國開金融、國中創(chuàng)投、央視融媒體產業(yè)投資基金,和某千億上市公司旗下戰(zhàn)投、長飛光纖旗下基金兩大核心產業(yè)龍頭資本。Pre-A 輪由上海國資徐匯資本等領投,部分地方國資及市場化基金跟投,多家老股東實現(xiàn)超額跟投。其中,領投方徐匯資本剛剛參與了階躍星辰的B+輪超50億融資。直投之外,徐匯資本還通過母基金布局機器人賽道,出資45億元參與了超200億規(guī)模的上海人工智能母基金。
本體,大腦,全棧,具身智能公司大體形成了這樣的定位劃分。靈初智能,是一家定位于“小全棧”的具身公司。之所以叫“小全棧”,是因為在研發(fā)上做了取舍,把重心放在構建以端到端VLA模型為核心的軟件與數(shù)據(jù)采集工具鏈體系上。本輪融資也將投入到靈初智能在物流場景的規(guī)模化應用與大規(guī)模數(shù)據(jù)采集解決方案體系的構建中。
端到端VLA模型已是行業(yè)基操,今天重點來談談他們目前的業(yè)務重心——數(shù)據(jù)采集。
當年DataBricks和Snowflake的崛起,核心是靠搭建了適配互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)時代的數(shù)據(jù)基礎設施。當產業(yè)進入機器人時代,機器人的數(shù)據(jù)采集與持續(xù)學習,同樣需要一套完善的基礎設施作為支撐。這點不難理解。更何況,大語言模型性能快速提升依托的是scaling law法則,但文本類數(shù)據(jù)可以從互聯(lián)網(wǎng)上直接獲得,具身模型所需的真實物理交互數(shù)據(jù)卻很難收集。數(shù)據(jù),成了具身智能發(fā)展的關鍵瓶頸。
于是,在當下這個階段,數(shù)據(jù)采集成了一門搶手的生意。從技術路徑來看,遙操作、仿真、UMI和視頻學習,這四條路徑已形成差異化競爭格局,在成本控制、數(shù)據(jù)精度、場景適配性等維度各有優(yōu)劣。其中,去年起了聲勢的UMI模式,其獨特性在于不再依賴機器人硬件或本體,通過人手持設備即可記錄人類操作過程,實現(xiàn)了低成本采集數(shù)據(jù)。一個典型案例是,憑借27萬小時的訓練數(shù)據(jù),海外公司Generalist宣稱在機器人領域首次驗證了scaling law。
UMI已發(fā)展出多個變體:FastUMI、MV-UMI(多視角)、DexUMI(靈巧手)等。國內類似UMI模式的公司也有幾家,雖然看上去類似,但各家的基因還是不同,路線也有差異。最初的UMI模式是手持雙指夾爪,靈初智能做的則是多模態(tài)數(shù)據(jù)手套,同樣能以低成本的方式采集數(shù)據(jù),和采集夾爪數(shù)據(jù)相比,通過手套采集的數(shù)據(jù)更容易在機器人上實現(xiàn)泛化。
之所以從這個方向切入,故事還得從頭說起。
創(chuàng)始人兼CEO王啟斌是個行業(yè)老兵,在機器人和消費電子行業(yè)擁有超過二十年的產品和商業(yè)化經驗。聯(lián)合創(chuàng)始人兼硬件負責人陳源培,則是一位00后學霸,在北京大學人工智能研究院讀研時師從楊耀東教授,2023年在斯坦福訪學期間還曾與師從李飛飛交流。同時團隊里還有一批在具身和靈巧操作領域活躍的學術中堅力量。不少投資人最初押注這家企業(yè),正是看好這個相對全面的人才配置。
2024年年中成立時,靈初智能切入的是靈巧手靈巧操作。為什么要選靈巧手靈巧操作呢?
陳源培告訴我,核心邏輯只有一個:人是雙臂五指的形態(tài),而具身智能的核心的是獲取人類數(shù)據(jù),就像自動駕駛和大語言模型一樣,本質上都是從人類日常生活中提取數(shù)據(jù),再用數(shù)據(jù)訓練模型,具身智能也必然遵循這個規(guī)律。“只要人是雙臂五指手,我們采集人類數(shù)據(jù)的差距就最小,數(shù)據(jù)的可用性也最高。”王啟斌也相信,操作夾爪的天花板很低,做不了太復雜的事情,通用靈巧操作最終還是要靠靈巧手來實現(xiàn)。
不過那時,市場的主流是運控為主的四足機器狗。在靈初智能創(chuàng)始團隊中,卻有為數(shù)不多在那個時候做靈巧手操作算法研究的科學家。陳源培回憶,第一篇paper發(fā)出來的時候是2022年中,當時根本沒人做靈巧手關注靈巧操作,直到2023年馬斯克發(fā)布了Optimus之后,人形機器人火了。但2024年,Optimus的靈巧手也沒有真正做出來。
“做手最難的是算法,而不是硬件。”王啟斌認為。在自研靈巧手之前,他們采購了市面上的靈巧手,發(fā)現(xiàn)硬件能用,但手上的本體嵌入式算法做得并不好。
最初這家公司把精力投入到了算法研發(fā)上。靈初智能的模型訓練,全程以offline到online的強化學習為核心,摒棄了模仿學習階段。在陳源培看來,這帶來兩個核心優(yōu)勢:一是能大幅提高操作成功率,同時避免模型遺忘過往信息;二是能提升操作節(jié)拍,因為強化學習中,模型會為了快速獲得獎勵而自主加速,最終達到最優(yōu)操作速度。
在2024年,整個行業(yè)還沒有意識到靈巧操作(manipulation)需要如此龐大的數(shù)據(jù)量。直到去年年中UMI爆發(fā),他們判斷這件事一定會在具身智能領域重演,于是開始把數(shù)據(jù)提到了更高的優(yōu)先級。為此,靈初智能自研了21自由度外骨骼手套,支持眾包式采集,能以遠低于傳統(tǒng)遙操作的成本獲取高質量真實數(shù)據(jù)。
今年,他們的規(guī)劃是,一方面探索商業(yè)化落地場景,一方面大規(guī)模采集數(shù)據(jù)。王啟斌認為,過去一年行業(yè)驗證表明,單純針對某個場景的商業(yè)化并不理想,將某個場景的產品做到高度泛化并實現(xiàn)規(guī)模化很難。究其原因,還是缺乏數(shù)據(jù)。因此,靈初智能將商業(yè)化的核心,放在了數(shù)據(jù)采集工具和數(shù)據(jù)平臺的搭建上。
數(shù)據(jù)不足是行業(yè)共識,但王啟斌在行業(yè)一線看到,真實數(shù)據(jù)需求的量級遠超行業(yè)想象。“去年大家還在談萬小時級數(shù)據(jù),今年我們提出100萬真實小時起步。”在他看來,要實現(xiàn)無處不在的AGI,億小時級數(shù)據(jù)是終極目標,從某個場景切入,百萬小時級數(shù)據(jù)是最低門檻。如何實現(xiàn)數(shù)據(jù)的低成本、規(guī)模化采集,以及快速反哺模型迭代,是當下行業(yè)最大的難題。
在數(shù)據(jù)采集模式上,靈初智能跳出了行業(yè)主流的自建數(shù)采工廠的模式。王啟斌認為,這種重資產模式存在三大問題:一是資產投入過重,二是數(shù)據(jù)無法跨環(huán)境復用,三是無法1:1還原真實生產生活環(huán)境,數(shù)據(jù)存在損耗。因此,靈初智能選擇了分布式采集模式,核心載體是自主研發(fā)的數(shù)據(jù)手套。
“用戶帶著數(shù)據(jù)手套完成日常工作,就能實現(xiàn)數(shù)據(jù)采集,既能大幅降低硬件投入,采集到的人類數(shù)據(jù)還具有高度通用性,能遷移到不同機器人身上。”王啟斌解釋道,這種以人為中心(human-centric)的數(shù)據(jù)采集模式,本質上是打造通才型基礎數(shù)據(jù),后續(xù)只需通過少量后訓練,就能適配不同機器人。而傳統(tǒng)的機器人本體采集模式,只能實現(xiàn)專才型數(shù)據(jù),很難跨機器人泛化。
在具身技術路線尚未收斂的背景下,數(shù)據(jù)采集看起來是個賣鏟子的好生意。但也有投資人對其長期性存有疑慮,認為數(shù)據(jù)采集會不會只是階段性的生意,因為最終機器人還是要靠自學習而非依賴外部數(shù)據(jù)實現(xiàn)迭代。
我把這個問題拋給王啟斌。他的思考是:無論技術如何迭代,數(shù)據(jù)始終是飛輪中的關鍵。這個主線不變,但商業(yè)模式可能會不斷演變。
比如,當機器人真正部署到日常生活中,開始產生真實場景的數(shù)據(jù)回流。這個時代將接近特斯拉的自動駕駛模式:通過大規(guī)模實際部署收集數(shù)據(jù),形成"數(shù)據(jù)-模型-產品"的增強回路。更長遠來看,他對機器人終局的設想是,不會局限于人形,而是各種形態(tài)的生物機器人共存,一如生物的多樣性存在。屆時,不同形態(tài)之下,數(shù)據(jù)如何進入系統(tǒng)、如何流動起來,并驅動模型迭代,這幾個模塊都會有變化。
回到落地的話題,靈初智能的數(shù)據(jù)手套目前已實現(xiàn)硬件落地,北京地區(qū)的100套設備正在部署,預計年前就能啟動大規(guī)模數(shù)據(jù)采集。此前,公司已完成1萬小時量級真實手套數(shù)據(jù)的驗證,20256年的目標是突破100萬小時量級。靈初智能還計劃將分布式數(shù)據(jù)采集與Web3.0結合,用戶可以購買或租賃數(shù)據(jù)手套,在家完成收拾桌子等簡單操作,3分鐘就能獲得1-1.5美金的報酬,通過微支付模式,實現(xiàn)數(shù)據(jù)采集的規(guī)模化。
在商業(yè)場景選擇上,他們的考量是:家庭場景因極端情況過多短期內難以閉環(huán),傳統(tǒng)工廠場景的數(shù)據(jù)價值又相對閉塞。靈初智能錨定的,是半結構化的物流及零售場景,利用其高頻泛化需求的特點,展現(xiàn)具身智能在非標自動化領域的價值。
做過多年消費電子商業(yè)行業(yè),王啟斌能把各類場景拆出很細的顆粒度。物流及泛服務業(yè)在他的坐標系里,屬于“中等精度、節(jié)拍適中、高泛化性”的場景。進一步,物流又能拆分為上百種具體場景,靈初首站選擇的是服裝倉儲。這一環(huán)節(jié)貫通從倉庫到門店再到C端的全鏈條,SKU極度豐富,近萬件服裝,顏色、包裝、尺寸各異,天然提供海量多樣性數(shù)據(jù)。“掃碼”這一核心動作看似簡單,但做好極難——既要保證99.9%以上的成功率,又要滿足穩(wěn)定的作業(yè)節(jié)拍。
根據(jù)投中嘉川CVSource數(shù)據(jù),2025年具身智能融資規(guī)模高達329億,2026年行業(yè)的關鍵詞會是什么?有人認為是商業(yè)化和訂單,有人認為是殘酷的淘汰賽,但如果從數(shù)據(jù)資產的層面看,這個故事可能才剛剛開始。
在陳源培看來,大家正處于開始意識到要大規(guī)模收集數(shù)據(jù)的階段,而基于這些大規(guī)模的數(shù)據(jù)積累,未來一定會有新的技術架構跑出來。王啟斌則相信,具身的門票會比自動駕駛更多,從數(shù)據(jù)到應用,整個鏈條上的機會更為豐富,每一個小的細分領域都可能容納下一家有足夠體量的公司。
對話靈初智能創(chuàng)始人王啟斌、聯(lián)合創(chuàng)始人陳源培
投中網(wǎng):模型層面,靈初的技術路線是分層VLA,這是一個階段性的選擇嗎?之所以分層,是因為現(xiàn)階段它的效果在要比統(tǒng)一的端到端大模型要好?
陳源培:站在整體視角看,它確實比不分層的效果好。原因很簡單,現(xiàn)在數(shù)據(jù)量不夠,分層的模塊化設計,能讓每個模塊的數(shù)據(jù)利用效率更高。至于數(shù)據(jù)量夠了之后,哪種形態(tài)更好,現(xiàn)在還說不準。
我一直跟別人說,現(xiàn)在談模型架構沒啥意義,因為全行業(yè)的數(shù)據(jù)量都完全不夠。你看特斯拉,在訓出FSD 12之前,不也一直在用if else寫規(guī)則嗎?那時候行業(yè)里也吵得厲害,爭論到底是寫規(guī)則好、端到端好,還是分層好,各種說法都有,但吵來吵去也沒個結果。我覺得現(xiàn)在具身智能就處于這個階段,大家都在準備大規(guī)模收集數(shù)據(jù),等數(shù)據(jù)量上來了,肯定會有新的架構冒出來。
投中網(wǎng):很多靈巧手公司在宣傳的時候都會講自己有多高的自由度,但我很好奇,堆疊太多自由度有必要嗎?在你看來,現(xiàn)在能解決實際問題的靈巧手需要多少自由度是比較合理的?
陳源培:這個問題問得好,這其實也要看發(fā)展階段。靈巧手本身是可以無限迭代的,但如果沒有明確的應用場景,你再追求完美產品,也只是紙面指標的堆砌,沒什么用。
這里面有個矛盾:自由度高了,穩(wěn)定性就下降,成本也上去;定位精度提上來了,動態(tài)響應又會變差。所以現(xiàn)階段,靈巧手的參數(shù)收斂只有一個方向,看落地。怎么確定多少自由度、各項參數(shù)怎么設?很簡單,看哪個參數(shù)能落地,在落地過程中反推回來就行。
比如,先明確,當下能落地的場景需要多少自由度,先讓這些場景持續(xù)產生價值,再反過來優(yōu)化,梳理出理想的設計。我一直覺得,在商業(yè)場景不明確的情況下,單純做硬件是件很困難的事,這也是我們特別注重商業(yè)閉環(huán)的原因。
說白了,靈巧手的參數(shù)、指標什么時候能收斂?只有當?shù)谝粋€能產生實際價值的商業(yè)場景跑通了,方向才會清晰,否則永遠只是在做Demo,沒什么實際意義。
投中網(wǎng):靈初智能主要是做模型、靈巧手,以及數(shù)采工具,不太涉足硬件。一種觀點是,只做大腦,不做機器人本體的話,反饋和調整會沒有那么及時,這個問題會在我們的考慮之中嗎?
陳源培:這個我們肯定考慮到了。所以我們在硬件上不是純粹采購,而是會自己做設計。硬件要做成什么樣、核心結構的參數(shù)怎么定、動作空間有多大、需要多少自由度,這些我們都會自己把控。只不過底層核心零部件的研發(fā)和代工,我們不做,那些是專業(yè)機械廠商的強項,他們能做得更好。
所以我們這種模式叫“小全棧”。既不是純粹的軟件公司,也不是那種什么都做的全棧公司,而是把硬件做到設計層面,這樣就能保證反饋和調整的及時性。
投中網(wǎng):不少具身企業(yè)選擇的都是物流場景,靈初智能切入這個場景的思路跟其他家有什么不同嗎?
王啟斌:共識都是對投資人來說的,對行業(yè)里的人來說沒有共識。選場景最可怕的是,大家只講物流,不講specifically。其實物流現(xiàn)在隨隨便便就能找出100種場景,那到底是物流里的哪個環(huán)節(jié)?是從大倉出貨,還是配送?是配到門店級別,還是從門店配到ToC端?物流是有底層規(guī)律的,越往下游走,SKU就越多,拆零的需求也越大。比如說,你在門店級別,貨物還是一整箱一整箱的,到了商超,就已經拆成一件一件的了。所以核心是,你在哪個環(huán)節(jié),干哪個具體動作?
像我們第一個場景選的是衣服,為什么選衣服,因為衣服在倉配環(huán)節(jié),既能配到門店,也能配到ToC端。倉里光衣服就有小一萬件,各種款式、顏色,包裝尺寸也不一樣,就做掃碼這么一個簡單動作。這動作需求巨大,但要做好特別難,得做到99.9%以上的成功率,還得跟上作業(yè)節(jié)拍。
這些都得是對行業(yè)有極深理解才能選對的。我們做物流解決方案的團隊很強,核心成員創(chuàng)業(yè)前都是做大型解決方案的,我自己對物流也特別了解。這就跟拍照、畫油畫一樣,平庸的攝影師只會拍全景,而高手呢,同樣一幅景色,他能精準選對角度,拍出不一樣的質感。所以如果大家都只泛泛談物流,在這種所謂的共識里,永遠做不出好東西。必須在細分環(huán)節(jié)里看到非共識的細節(jié),做產品、做場景,細節(jié)一定要夠足。
投中網(wǎng):我其實很想知道,這一波具身創(chuàng)業(yè)者他們構想中的未來世界藍圖,到底是什么樣子的?您剛才也提到,未來可能是一些人機結合的場景,能展開講一講嗎?
王啟斌:現(xiàn)在所有人都說“機器替人”是主流,但我認為這只是一個過渡形態(tài)。我覺得真正理想的狀態(tài)是,智能體(agent)最終會形成一種類似我們現(xiàn)在世界的形態(tài)——多種生物體混合共存。你想啊,我們現(xiàn)在講的人類適合的環(huán)境,是我們人類自己構建的、為人類服務的,但除此之外還有自然界的各種形態(tài)。所以我認為,包括智能體在內的這些具備智能的載體,最終一定會有各種各樣的存在形式。就像你現(xiàn)在能看到的,天上飛的無人機、地上跑的機器人,甚至海底游的設備,這都是很正常的。它們以后都會不斷進化,變得越來越智能,最終和人類、和整個環(huán)境融合在一起,形成人機共生的狀態(tài)。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.