![]()
編輯|張倩
最近一段時間,相信很多具身智能公司都有點著急。
大洋彼岸,近期,Generalist AI 公布了一項引發行業關注的進展:據其公開披露,團隊基于約 50 萬小時真實世界人類行為數據訓練的 GEN-1,在若干任務上的成功率超過 99%。其創始人、前 DeepMind 高級研究科學家 Pete Florence 隨后發文表示:「當數據規模足夠大,且團隊能夠完整掌控基礎模型時,技術邊界會以更快速度被推進。」這被視為其此前關于具身智能尺度定律(Scaling Law)判斷的進一步驗證。
![]()
但與此同時,更多公司其實還在 scaling 的路上。行業普遍相信,當數據規模與質量跨過某個閾值后,模型性能隨規模擴大的提升規律有望更加穩定。
然而,在數據量激增的今天,很多公司其實困在了質量上。就像自變量 CEO 王潛所說,現在很多公司看不到 scaling law 是因為數據太糟糕,全是噪聲,「以前 80% 的工作在模型算法上,現在 80% 的工作在數據上」。
身處行業內的人都知道,這個數字并不夸張。離身智能可以依賴人類無意識「編譯」過的互聯網語料快速訓練,但物理世界從來沒有被編譯過。那些藏在操作經驗里的規律,深埋在噪聲里,未經組織。機器不會自己從世界里長出能力,人的經驗也不會自然流入機器,中間必須有繁瑣的人工采集、轉譯、組織這條鏈路,然后才能開始談「訓練」這件事。這就是為什么具身模型迭代往往以月/年計算。這種復雜性,是需要敬畏的。
但也恰恰是這份復雜性,在物理世界與模型、本體之間,撕開了一道巨大的機會縫隙。誰能把混沌的物理世界數據,變成結構清晰的訓練輸入,并構建起反饋閉環,誰就有機會參與這個縫隙的填補,并站上基礎設施級的增長快車道。
這一層,就是一個巨大的賽道。
最近嶄露頭角的智域基石,就是從這一層長出來的公司。雖然成立才三個月,這家公司已經得到靈初、穹徹、浙江人形、智平方、小苗朗程的投資,在手訂單近億元。
![]()
和很多延續傳統「標注外包」思路堆人頭、租廠房、采數據的公司不同,智域基石更關注的是如何構建起一套系統化的能力,把人類在物理世界的勞動數字化,用更低的成本把原始數據轉換為模型的訓練輸入。
為此,他們提出了「數據編譯」的概念。所謂數據編譯,就是為物理世界那些高熵、異步、多模態的原始數據,建立一套自動化「精煉管線」—— 去噪、對齊、拆解為「技能原子」,并打上可追溯的語義標簽,讓算法真正讀懂物理規律與動作意圖,最后凝結為模型。
![]()
就像操作系統為硬件和應用之間搭好了接口,這個編譯層也在為物理世界和模型、本體能力之間定義一套「編譯器」般的標準。這可不是簡單的采集外包,而是工業體系的構建。誰能把這個體系建立起來,誰就有機會成為模型訓練上游的「能力入口」,從低附加值的勞務角色,躍升為一個更有價值的基礎設施層
為了了解智域基石打算怎么做這件事,為什么他們能做成,我們和這家公司的創始團隊聊了聊。
物理世界,不接受幻覺
在 Claude Code、龍蝦成為默認的工作搭子之后,我們已經習慣了「一個指令,生成萬行代碼」的工作方式。但在物理世界,這樣的爽文劇情(一個指令,家里被收拾得干干凈凈)尚未發生。
根本原因在于:物理世界不接受幻覺。代碼可以無限回滾,大模型輸出錯了改個 prompt 就能重來;但機器人抓杯子,手一滑就是真實的水灑一地,每一次決策都有不可撤銷的后果。
正因如此,物理 AI 對于數據極為挑剔。數據質量有問題,模型效果就會極其糟糕。差之毫厘,謬之千里。
但現實是,行業從今年開始進入到不缺原始數據的狀態,但另外一個痛點開始浮現:缺的是真正能提高任務成功率的訓練輸入。大量采集的物理記錄里,丟幀、曝光異常、動作無效、傳感器不同步等問題比比皆是。這些「數據廢料」直接喂給模型,不僅學不到正確的因果關系,還會白白浪費寶貴的算力,甚至讓模型變成帕金森病人。
然而,要想把這些原始數據加工成可用的訓練輸入,不是簡單的「清洗」或者「標注」就能解決的。
![]()
首先,機器人數據通常具有多模態、強耦合、異步采樣等特點。當手伸向杯子的那一瞬間,攝像頭可能以 30Hz 記錄畫面,IMU 以 200Hz 甚至更高頻率輸出慣導信息,關節編碼器也運行在各自的采樣頻率與時鐘體系下。對于理想中的訓練輸入,在時間維度上,需要完成多傳感器時間戳同步;在空間維度上,則要完成視覺、末端位姿、力覺 / 觸覺與關節狀態之間的坐標系標定與對齊。否則就會出現「手已經摸到杯子,視覺卻顯示還有五厘米」的詭異錯位。將這種時空錯配輸入模型,往往會誘導其學習到錯誤的感知 — 動作映射。
但即便把時空對齊這些「物理層」的問題都解決了,原始數據依然離可用差得很遠,因為它本質上是沒有語義的。一段視頻里,機器人完成了「抓住杯子、抬起、放下」這一連串動作,但對算法來說,這只是一串像素變化和關節角度曲線,它并不知道「這是在拿杯子」,更不知道「為什么要拿」「算不算成功」。如果直接用此類數據訓練,模型參數優化時會難以收斂到正確的任務意圖與動作結構映射,導致訓練效率極低,或產生不可控的輸出行為。
當數據量級來到萬億小時,真正的難點才剛浮現。問題不再只是技術復雜度,而是成本開始迅速失控。每一個環節 —— 質檢、對齊、篩選、重編譯 —— 都在吞噬資源。這種爆炸式的成本,傳統的「堆人」做法根本扛不住。
更難的是,即使你能把這些問題都解決掉,最后的閉環也會成為障礙。誰都想把數據放進真實場景,持續得到反饋,但每一個真實的生產現場都是一座信息孤島,有其獨立的運行邏輯與準入法則。打不通這個閉環,你的數據系統就是靜態的,沒辦法往一個確定的方向迭代。
于是你會發現,過去兩年里,整個行業幾乎把能試的方法都試了一遍:有人靠堆人去瘋狂采數據,有人把希望寄托在仿真上,有人嘗試統一數據標準,也有人去做資源撮合,把分散的數據拼在一起。每一條路看起來都打通了一小段,也確實在局部起作用。未來這些嘗試也仍將繼續,但把這些碎片放在一起看,就會發現它們之間很難真正接上:數據還是不可靠,流程還是不閉環,成本也沒有被真正壓下來。問題并不是某一個環節沒做好,而是從原始數據到訓練輸入這整條鏈路,本身還沒有被變成一件可以穩定復用、持續運轉的事情
當然,這事兒做不成,本身也是因為壁壘高。它需要一個跨學科的團隊,既要懂機器人,也要懂大數據、云原生,還得能搞得成閉環。里面有些是技術問題,有的已經超出了技術的范疇。所以在現實里,你很難看到一個團隊湊齊這些能力。而智域基石,是那個例外。
兩位 CTO,五層編譯管線
為什么說智域基石是個例外?看看他們的團隊構成就知道了。
CEO 楊哲軒帶著開源分布式數據庫的工程經驗入場;兩位 CTO,一個是徐良威,走通了機器人從實驗室到量產的完整周期;另一位則是楊哲軒多年的技術搭檔,專攻大規模數據編譯與云原生架構。而 COO 張計業生態構建能力突出,既能整合產業鏈上下游資源,又能精準對接政府決策邏輯與產業政策導向,擅長把技術優勢轉化為可落地的產業基礎設施。
智域基石的股東們明確表示,他們也是看中了這支復合型團隊「懂場景、懂數據、懂落地」的稀缺能力,認為其是具身智能產業中極具戰略價值的合作伙伴。
這樣的人才配置,目標只有一個:讓數據編譯從「手工作坊」升級為「自動化產線」,并最終生長為模型與原始數據之間那個不可或缺的基礎設施層。
![]()
整個數據編譯管線分為五層。
第一層是質檢。智域基石把它定義為「來料檢測」。這里的「料」來自他們自研的一套 Ego-Centric 采集設備。這不是市面上現成的方案,而是為了把人的感知(看到了什么、聽到了什么、碰到了什么)、以及環境本身的三維信息,全都同步記錄下來。當然,除了 Ego-Centric 數據,他們同樣采集機器人本體的數據。用他們的話說,就是要拿到「最全最原始」的數據,后面才有編譯的余地。
有了這個前提,再回到質檢本身。在這一步,大多數公司的做法是抽檢,因為傳統的人工質檢方式支撐不了全量檢測的爆炸式的成本,結果就是高達 95% 的噪聲混進訓練集,「任務成功率」保障不了。智域基石的做法是全量 —— 不只在數據入庫時查,編譯和交付的每個環節都持續在查。
這里面把成本壓住的關鍵在于:他們用云原生分布式架構把質檢拆解成可并行計算的最小單元,配合啟發式方法、大模型與幾何綁定手段,把原本需要大量人工才能完成的檢查,壓縮為自動化流水線。據公司測算,在相同覆蓋率下,其單位質檢成本顯著低于傳統人工流程。此外,由于與多家頭部機器人廠商深度綁定,他們有機會參與質檢標準的制定,并在此過程中整合上下游需求,在與客戶協同中沉淀出更接近產業實際的質檢規范。
第二層是底座。通過了質檢的數據,還只是一堆散亂的傳感器記錄,彼此之間既沒有時間同步,也沒有空間定位。所以這一步要做的,就是把這些多源異構的數據流錨定到同一個時空坐標系里。他們用的是類似數據湖倉的架構,但做了針對具身智能的改造,在底層完成兩件關鍵的事情:一是把超大規模異構數據統一納管,不再是分散存儲的孤島;二是更重要的,把不同模態、不同頻率的數據,在毫秒級做時空對齊,讓一幀畫面、一個動作、一次力反饋真正對應到同一個「物理瞬間」。
第三層是編譯。時空對齊之后,數據有了結構,但仍然沒有語義。編譯層是整條管線技術密度最高的環節:系統會把連續的動作流拆解為帶有明確意圖與物理約束的「技能原子」。比如一個完整的「拿起杯子」動作,會被拆成若干帶有明確起點、終點、動作意圖和物理約束的片段。同時,這些片段會被打上標簽、建立版本,并記錄它們之間的來源關系,確保后續可以復用、追蹤、甚至回滾。原始數據中無法直接表達的信息,比如在沒有觸覺傳感器的情況下推算手與物體的接觸狀態,也會在這一層通過推理補全。
第四層是檢索。編譯完成后,面對的是萬億量級的數據資產。而一個具體的客戶,往往只需要其中一個高度精準的切片。智域基石通過自研的檢索與查詢引擎,讓工程師可以用類似 SQL 的方式,從海量數據里直接調用「符合條件的技能片段」。比如一句簡單指令,就能調出「廚房場景下拿杯子且成功率大于 95% 的一組動作數據」,系統自動完成召回、篩選和組配,直接輸出一套結構化訓練數據。這本質上是把具身智能的數據問題當成了一個大規模并發檢索問題來解,直接變革了交付效率與商業化規模的上限。
第五層是交付,解決的是怎么把動輒幾十 TB、上百 TB 的數據,真正交到客戶手里,并且能直接用。智域基石的做法,是把「交付」本身產品化。一方面,他們會把前面組配好的數據,自動打包成標準化的數據集,帶上清晰的版本號,可以直接進入訓練流程,而不是一堆需要二次加工的原始文件;另一方面,它提供彈性的交付方式,既可以通過云端直連、像調用接口一樣獲取數據,也可以在對安全要求很高的場景下,用高吞吐的物理介質離線交付。這一切都是體系化的,而不是一次性的項目交付。
看完這五層,相信大家也明白了,為什么湊齊一個能做「數據編譯」這事兒的團隊那么難。這里面既有具身智能行業的 know-how—— 你得知道哪些數據有用,哪些特征值得編譯;也有云計算、大數據的復雜性 —— 你得知道數據怎么存、怎么切、怎么找、怎么交付、怎么把成本控住。最后成型的,應該是一套可復現、可規模化、可審計的「數據煉化體系」。
但說實話,光有這套「數據編譯」的能力還不夠,畢竟數據本身不是終點,數據能讓機器人真正學會干活才是。
所以智域基石從一開始就不是只做數據采集、打包交付就完了。他們實際在做的,是一條更完整的閉環,這也是多家具身智能企業明確看好并投資它的重要原因。簡單說就是:他們會跟地方政府合作,在真實的工業場景里建數據采集工廠;再配合那些做本體、模型的伙伴(包括股東),一起采集數據、訓練模型;最后把訓練好的模型和機器人一起部署到那個場景里,讓它真去干活,獲取寶貴的反饋。
這個事聽起來好像順理成章,但其實特別麻煩。要協調各方資源,進入封閉場景,同時還得跟模型、本體公司對齊需求,大家在一塊兒把事跑通。這里面涉及數據的入口權和加工權,不是誰都能拿得過來,也不是誰都能把整件事情拉起來。這也能看出智域基石這家公司在技術之外的含金量。
![]()
所以,雖然公司剛剛成立三個月,他們已經拿到了近億元訂單。
他們的商業模式也很清晰:早期先抓「入口」,通過自建采集能力和第一人稱數據設備,獲取穩定且高質量的數據來源,同時用定制化數據交付切入客戶,完成冷啟動和現金流積累;中期隨著數據編譯管線逐漸成熟,把前期沉淀下來的動作和場景,抽象成標準化數據資產,對外以訂閱的方式持續供給,實現數據的復用和規模化變現;再往后,則是把整套能力開放出來,通過 API 和生態,把自己從「數據供應商」升級為「數據基礎設施」,讓更多開發者和企業在其之上完成數據調用、交易和構建應用。
![]()
不做 GEN-1 的信徒,也不押注 π0.6
智域基石的「路線中立」終局觀
在采訪中,其實我們還談了談智域基石對于未來數據路線的看法,尤其是在 GEN-1 發布、人類數據(Ego-Centric 數據)受到廣泛關注的當下。
作為數據層的能力建設者,楊哲軒有著自己的判斷。他認為,GEN-1 確實重要,因為它通過建模海量人類行為數據,探索了從真實行為中學習物理世界統計規律的可行性路徑,定義了機器人該先學什么。但與之并行的其他路線 —— 如 π0.6 所代表的異構真機數據對齊與部署反饋路線 —— 同樣重要,因為它們解決的是如何讓世界先驗附著到具體機器上,以及如何在現實里越做越好。
在楊哲軒看來,未來的終局不會是單一模型路線的勝利,而是三層數據、三段訓練閉環的合流 —— 人類數據形成底座,異構真機完成對齊,部署閉環磨出可靠性。真正的數據終局,是能把「真實世界持續數字化」「世界先驗遷移到不同本體」「部署反饋穩定回流」這三件事同時打通的基礎設施
![]()
而智域基石要做的,恰恰是把這三層數據穩定、高效、可復現地編譯成每一代模型都能消化的訓練輸入,無論未來主流范式仍被稱為 VLA,還是演化出新的后 VLA 架構。這種對于行業終局、數據服務需求的清醒認知,讓智域基石與不同路線上的多家具身智能公司都達成了良好的協同關系,也會讓他們的路越走越寬。
在物理世界、模型與機器人本體之間,搭建一個不同路線最終匯流、且難以繞開的基礎設施層。這一層,就是智域基石的機會所在。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.