![]()
![]()
對于具身智能而言,數據不再只是訓練材料,而正在演變為一種新的基礎設施。
作者|蘇霍伊
編輯|王博
又一家清華系具身智能企業浮出水面。
「甲子光年」獨家獲悉,清華系具身智能企業靈御智能已完成數千萬元天使輪融資。本輪融資由銀河創新資本領投,國海創新資本、天鷹資本、廈門思明科創基金跟投,老股東英諾天使基金、華映資本、遠鏡創投持續加注。Maple Pledge楓承資本長期出任私募股權融資顧問。截至目前,靈御智能累計融資近億元。
靈御智能聯合創始人兼首席科學家莫一林是清華大學自動化系長聘副教授。莫一林師從美國工程院院士、機器人操作領域先驅Richard. M. Murray教授,谷歌學術引用超1萬次,2021-2025連續五年獲得Elsevier中國高被引用學者,在優化、控制、機器人領域發表高水平論文100余篇。
靈御智能聯合創始人兼CEO金戈是清華大學自動化系學士、清華大學經濟管理學院MBA,曾任遠鏡創投管理合伙人、奧量光子副總裁,在高科技領域有著多年的創業投資和企業管理經驗。
![]()
莫一林(圖左)與金戈(圖右),圖片來源:受訪者
在具身智能領域,已有多家清華系企業嶄露頭角,包括星動紀元、星海圖、千訣科技、自變量、松延動力、加速進化、流形空間、極佳視界等,業務和研究涵蓋了機器人本體、具身智能模型、世界模型等。
靈御智能從清華走出,立足海淀開始創業,他們把業務和研究重點放在了數據上。在他們看來,具身智能卡在“數據荒”上,尤其是“高質量、長序列”的復雜操作數據十分缺乏。盡管這條路看起來有些“樸實”,但莫一林的觀點是,具身智能能領域真正決定勝負的變量是——數據。
「甲子光年」認為,決定機器人能力的不只是本體、模型和算力,更重要的是一套新的基礎設施——具身數據 Infra,這是一套用于規模化生產、管理和利用真實世界機器人交互數據的基礎設施體系。誰能更高效地生產真實世界數據,誰就更有可能推動機器人智能的躍遷。
而靈御智能要打造的就是具身數據Infra。
1.大規模、高質量的數據從哪里來?
如果說AI Infra是計算工廠,那么具身數據Infra就是數據工廠。
具身數據 Infra離不開數據采集母機,這指的是專門用于規模化采集真實機器人操作數據的“生產設備”或“數據工廠機器”。
它可以理解為一套能夠持續、標準化、高效率地產生機器人操作數據的機器人系統平臺,其核心使命就是為具身智能模型提供大規模、高質量的真實世界數據。
在大模型時代,人們習慣把“算力、算法、數據”視為AI的三大要素。但當AI進入物理世界,這個公式發生了微妙變化。對于具身智能而言,數據不再只是訓練材料,而正在演變為一種新的基礎設施。
原因很簡單,大語言模型可以從互聯網獲得海量文本,而機器人需要學習的,是現實世界中人與物體交互的細節——抓取的角度、力的大小、物體的重量、失敗后的調整路徑。這些信息無法從網絡抓取,只能通過真實機器人反復執行任務產生。
這也意味著,具身智能的數據生產方式與互聯網AI完全不同。它不再依賴“數據爬蟲”,而依賴數據采集母機。
靈御智能構建具身數據Infra的思路是研發TeleAvatar(本體)和TeleDroid(系統)。
![]()
TeleAvatar,圖片來源:靈御智能
TeleAvatar專為遙操設計,具備多樣化操作模式,可以應對不同復雜環境和任務需求,同時還支持與多種外部設備進行交互。在端側,實時運動控制內核可以保證毫秒級響應與安全力控。
TeleDroid是一套軟硬云一體化系統,其具備智能數據分析能力,可為用戶提供深入的洞察和決策,同時確保數據在采集、傳輸和存儲過程中的安全。這套系統部署在云側,用戶通過完整的數據采集、清晰、自動化標注平臺,可實現數據資產的閉環管理。
兩者合在一起,用戶就可以持續沉淀真機數據,再用數據反哺模型、逐步提升自主能力,形成“部署即采集、采集即訓練”的數據飛輪。
靈御智能的判斷是,真正能驅動模型涌現的高質量數據,還是要從真實物理世界中磨出來。
“這也是過去特斯拉、‘蔚小理’、華為走過的道路。只有通過這種方式,才能采集到足夠量的數據,而這些數據才能把AI真正‘喂養’出來。”金戈告訴「甲子光年」。
![]()
靈御智能參加第二屆中關村具身智能機器人應用大賽,圖片來源:靈御智能
雖然具身智能數據采集和自動駕駛數據采集存在一定的相似性,但是莫一林認為,兩者之間是數量級的鴻溝。
自動駕駛本質上是一個二維空間、2自由度的問題,數據能被動采集,目前已積累超過百億小時。但具身智能面對的是三維空間、20+自由度的操作問題,對重量、形狀、摩擦、軟硬等物理屬性高度敏感,仿真難度大,現有開源數據集質量參差不齊,總量僅在十萬小時級。
“如果我們認定機器人需要的數據量也在百億到千億小時級,今天業內處于嚴重的數據稀缺的情況下。尤其是機器人上肢操作的數據最為缺失,還不能依賴自建數采中心來填補,因為量級差太遠了。”莫一林告訴「甲子光年」。
當前具身智能行業獲取數據,主要有四種方式。
第一種是仿真數據,即在模擬環境中生成機器人操作數據,優點是成本低、規模幾乎無限,可以快速訓練模型的基礎能力,但最大問題是“虛實鴻溝”:仿真環境很難準確還原現實世界的物理細節,例如摩擦、柔性物體、傳感器噪聲等,導致模型在仿真中表現良好,到了真實機器人上卻容易失效。
第二類是人類行為數據,數據來源主要是視頻,通過學習人類操作來訓練機器人。這類數據規模巨大,但由于人類身體結構與機器人機械結構存在差異,往往難以直接映射到機器人動作,因此存在所謂的“構型鴻溝”。
第三類是人類示教數據,例如通過手持設備、動捕系統或拖動機械臂進行操作示教,這種方式可以獲得較高質量的操作軌跡,但依然存在人類運動與機器人關節約束不完全一致的問題,同時采集效率有限。
第四類是真機遙操作數據,即由人類遠程控制機器人完成任務并記錄操作過程,可靠性強、訓練效果好,但代價是采集成本高,需要大量設備、場地和操作人員,數據規模很難迅速擴展。
靈御智能瞄準的就是真機遙操作數據。
2.真遠程遙操
機器人遙操作并不是一個新概念,但是遙操作并沒有那么簡單,也沒有那么成熟。
跨越物理距離讓機器“動起來”是一回事,但要讓它做到順滑、精準、低延遲且具備力控能力,則是另一回事。
具體難在哪里?
首先是延遲。
目前,行業通用的圖像延遲普遍在150到200毫秒之間。雖然部分廠商標稱能做到150毫秒,但莫一林指出,各家對延遲的定義和測量口徑往往大相徑庭。
為了擠掉水分,靈御采用的是G2G延遲(Glass-to-Glass Latency)標準。從光信號進入機器人攝像頭,到最終呈現在操作員VR頭顯屏幕上的完整耗時,其圖傳延遲控制在100毫秒以內。動作控制端,人機之間的力/位混合控制響應被壓縮至30毫秒以下,操作員與機器人的動作同步基本達到肉眼無感。
莫一林告訴「甲子光年」:“我們把這些延遲都已經壓到最低了。”
第二個難點是處理空間維度上雙臂高自由度的控制映射。
車輛遙操作本質上屬于2自由度控制,往往只需在遠端復制一套方向盤即可實現。相比之下,人體上肢7自由度遠超車輛,兩者的控制映射難度完全不在同一量級。
第三個難點是真遠程。
目前行業大多數遙操作方案仍屬于近場視距遙控:操作員須站在機器人身后1至2米處,以肉眼觀察機器人動作,人必須到場,既無法實現跨地域勞動力套利,也無法支持一人多機的分時調度。
莫一林說:“大部分同行的遙操作更多是為了數據采集,操作者還是站在機器人旁邊用眼睛看。而我們做的是另一件事——遠程遙操,操作員在控制室,讓機器人在2000公里外的現場。”
他和團隊曾花大量了時間做不同遙操作方案的嘗試和比較,最終團隊研發出了TeleAvatar。
TeleAvatar本身是專為遙操作設計,配合軟硬云一體化系統TeleDroid,端側負責實時運動控制和安全力控,云側負責數據采集、清洗和自動化標注,共同組成了“高效的數據采集母機”。
金戈描述操作體驗:“戴上VR眼鏡之后,完全是附身于機器人之上的感覺,得到的視覺信息和自己的感受非常接近,也不會眩暈。”
母機的尺寸與關節和人體完全同構,操作員可以零門檻上手。
“我們的硬件跟人是基本同構的,機械臂長度、手的長度都跟人類似,你夠得到的東西機器人也夠得到。”莫一林說,“我們可能是國內目前唯一在認真做真正遠程遙操作的公司。”
![]()
靈御智能參加上海GDPS比賽,圖片來源:靈御智能
靈御智能目前鎖定了三類應用場景。
第一類是危險場景與跨地域勞動力套利。在核電站、化工廠這樣存在一定危險性的環境中,遙操作本身就是價值所在。莫一林認為,這種“時空折疊”算的不是經濟賬,是人的生命價值。同時全球勞動力成本差異巨大,靈御的遠程遙操方案可以讓低成本地區的操作員通過機器人為高成本地區服務,覆蓋零售、物流、酒店、倉儲等行業。
第二類是一人多機的分時復用。很多工作頻次不高但需要長時間待命。典型如夜間藥店:單店來客頻次低,但需要人全程值守。靈御智能的方案是多家藥店部署機器人,1名操作員通過后臺管理5到10個門店終端,按需切換。
第三類是半自主兜底。機器平時自主運行,遇到Corner Case瞬間切換人工接管。金戈將這稱為“帶保險的自動化”:95%的時間自動模式,5%的時間遙操模式。
盡管在技術上有了突破,但是他們還面臨一個大問題——成本。
3.低成本跑出高精度
具身智能的數據采集成本,在行業里普遍被認為是當前最大的隱性成本之一。如果把一個具身智能公司的技術投入拆開,就會發現數據采集系統、操作人員、實驗場地與設備維護,占據了相當比例的預算。
尤其是真機遙操作數據采集成本高的問題,困擾了很多企業,靈御智能沒有回避這一問題,而是想辦法從兩方面同時壓縮成本:一是提高機器人的運轉時間和平均故障間隔;二是通過更優的遙操作方案大幅提升作業效率。
靈御智能將TeleAvatar的價格定在10萬到20萬元之間,僅為行業平均水平的三分之一到一半。想在在這個價位段保持極高的操控性能,他們的解題思路很明確:用算法彌補標準硬件在精度和力感知上的不足。
在硬件選型上,金戈放棄了昂貴的定制件,全部采用工業界成熟的量產元器件。這種做法壓低了物料成本,且通用零部件經過了長期的工業驗證,后期維修更加便利。但代價是,普通硬件天生帶有精度差、延遲高、缺乏柔性等物理缺陷。
在底層工程設計上,莫一林也做了一些權衡。
以力覺感知為例,業內為了獲得精準的力反饋,通常會給每個關節配備昂貴的諧波減速器和六維力傳感器。而靈御智能只選用了低減速比的行星減速器,轉而通過監測電機自身的電流變化來估算受力情況。莫一林坦言,電流反饋的絕對物理精度確實比不上專屬傳感器,但這可以通過軟件算法來進行補償。
配合500赫茲的控制頻率,系統每兩毫秒即可獲取一次關節受力數據,使機械臂能夠實時動態調整自身的剛度:遇硬則柔,遇軟則剛。加上高精度的標定與全局逆解算法,這套平價的硬件組合最終實現了全柔性力控下的跨本體高空間絕對定位精度。
![]()
TeleAvatar,圖片來源:靈御智能
在金戈看來,底層控制能力的缺失,是目前許多具身智能機器人的短板。他將控制系統比作人體的神經傳導網絡。如果控制層不過關,即便AI大模型再聰明,機器人也會因為“手笨”而無法完成精細的物理操作。
控制層之所以在今天變得更為重要,因為于機器人作業環境的改變。過去的傳統工業機械臂大多處于開環控制,只需在封閉的產線上死板地執行預設代碼;而如今的具身機器人被直接放進了未知的開放環境中,它必須像人類一樣,通過視覺和觸覺實時感知,并在不斷的反饋閉環中高頻修正自己的動作。
基于這種判斷,靈御智能劃定了自己的業務邊界:做機器人和數據的提供方。
“我們的核心優勢在于能把成本做得非常低,同時通過算法把機器人的性能做到最好。我們可以跟諸多具身大腦公司合作,為他們提供機器人和數據。”莫一林用英偉達做類比,“英偉達為大家提供算力,但不會下場做大模型,因為做了大模型之后GPU怎么賣給別人呢?應該讓大家都加入到一個良好的生態里,我們為大家提供良好的服務和平臺”。
雖然靈御智能2025年才入局具身智能,但他們認為這條賽道中的“先發優勢”十分微弱。
莫一林打了一個比方,如果機器人需要的數據量在百億到千億小時級,那今天所有人都處于馬拉松剛剛出發的狀態,“可能先行者跑了25米,我們才剛開始跑,但對于一場馬拉松而言,這種差距并沒有早晚之分。真正決勝負的長跑可能還遠遠在后面。”
(封面圖來源:靈御智能)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.