![]()
從產生創業想法到正式成立智域基石,楊哲軒、徐良威和張計業只用了一個月。
這并非倉促之舉。三人的能力結構恰好形成互補,覆蓋了具身智能數據賽道最核心的三類能力,底層技術架構、機器人算法理解與產業落地協同。
CEO楊哲軒曾是PingCAP早期核心成員,長期從事大規模分布式系統和底層架構設計,也有連續創業和商業化經驗,負責公司整體技術路線與業務推進;CTO徐良威深耕機器人與算法領域多年,擁有從軟硬件系統到具身模型訓練的復合背景;COO張計業,前華為地市總經理,曾擔任具身智能公司穹徹智能生態負責人,負責智域基石的行業落地與合作拓展。
三人形成共識:“隨著機器人硬件、本體能力和具身模型不斷進步,行業真正稀缺的,不再是拿到多少原始數據,而是把物理世界的混沌信息轉化為機器人可用訓練語料的能力。”
這一判斷很快得到了驗證。靈初智能、穹徹智能、浙江人形、智平方,四家具身智能公司幾乎同時找到了他們,對其完成數千萬元天使輪,并成為他們的首批客戶。
未來智域基石計劃在全國建立起面積超一萬平方的真機數據采集工廠,工廠中機器人數量超400臺、異構硬件形態超10種。專注具身智能數據,將機器人傳感器采集的海量、雜亂數據,自動化地"編譯"成能直接提升任務成功率的高質量訓練輸入。
然而具身智能的數據遠比想象中復雜。
仿真數據、真機數據、第一視角數據等不同來源的數據,如何完成質檢、時空對齊、語義抽取與智能檢索?全量質檢的成本如何控制?數據編譯與自動駕駛數據清洗的本質區別是什么?帶著這些問題,我們與楊哲軒、徐良威展開了一場深度對話。
以下為與楊哲軒、徐良威的對話全文,略有刪減:
智客ZhiKer:為什么會決定成立一家專門做具身數據的公司?
楊哲軒:2024年,我們三個人進入具身行業后,形成一個共識的判斷:當硬件、本體和算法不斷進步之后,行業下一個大的浪潮將出現在具身智能數據這一細分領域。
此外,我們也觀察到具身智能與大語言模型、傳統視覺任務、自動駕駛存在本質差異。
機器人面對的是真實、連續、動態的物理世界,不僅要"看懂"環境,更要"做成"動作。這一過程中,數據并非單一模態或簡單標簽,而是跨越視覺、力覺、狀態、動作、時間與空間的復合體。
因為我們認為,在物理世界、本體系統和上層模型之間,應該存在一個專門處理具身數據的新層級。智域基石要做的正是這一層級的基礎設施,將海量、異構、非標準的原始數據,編譯成面向任務成功率的高質量訓練輸入。
公司英文名ArcheBase里的 “Arche”,在希臘語里有“開始”“元初”的意思。我們想表達的是,數據不是附屬環節,而是一切智能開始的起點。
智客ZhiKer:你怎么看具身智能數據公司的核心壁壘?
楊哲軒:我一直認為,這個行業真正的壁壘不在于“拿到多少原始數據”,而在于是否具備完整的數據煉化能力。
這里的“煉化”并非傳統意義上的數據清洗,而是一整套圍繞具身任務展開的數據工程能力,包括數據接入、質量評估、去噪、切片、時空對齊、語義抽取、動作映射、訓練適配、評測反饋、私有化部署等多個環節。
具身智能最大的特點是數據天然非標準化。不同機器人本體、不同傳感器、不同任務場景、不同采集方式,都會帶來巨大的差異。如果沒有一套系統化的方法把這些數據處理成統一、可復用、可驗證的形式,那么原始數據再多,也很難穩定進入訓練閉環。
智客ZhiKer:“數據編譯”具體怎么做?
徐良威:我們內部把定義為,把真實場景中的非標準數據,轉化為具身模型和機器人系統可直接使用的數據資產。
這件事不是單一步驟,而是一條完整的自動化管線,目前分為五個環節。
第一,數據質檢。這是整個流程的入口。機器人采集的數據天然復雜,攝像頭、IMU、關節狀態、力控信號等都可能出現丟幀、漂移、同步誤差或質量不穩定的問題。
所以原始數據進入系統后,首先要做“來料檢測”,判斷哪些樣本滿足基本要求,哪些樣本需要修正,哪些不適合進入后續流程。
很多人會把“有數據”直接等同于“可訓練”,但在具身場景里,未經處理的原始數據中,真正能直接進入訓練閉環的比例通常是有限的。前置質檢的意義,就是盡量把后續算力用在有效樣本上。
第二,數據底座重構。具身數據不是單幀圖片,而是連續時間序列數據。它不僅要表達“這一刻看到了什么”,還要表達“這段時間發生了什么、動作是怎么形成的”。
這時最關鍵的是兩件事,時間對齊和空間對齊。
時間對齊解決的是不同頻率傳感器如何落到同一個時間基準上。比如攝像頭可能是30Hz,IMU 可能是 500Hz,機器人關節狀態又是另一種刷新頻率。
空間對齊解決的是機器人本體、末端執行器、操作物體和環境,如何被統一到同一個物理坐標系里。
只有完成這一步,原本分散的數據流才會變成一個可計算、可關聯的整體。
第三,數據編譯。完成質檢和時空對齊之后,數據還只是“結構化了”,但不代表“可直接訓練”。所謂編譯就是把底層物理信息進一步轉成任務層可用特征。
以"拿起杯子"這一動作為例,不能僅停留在"左手拿起一個杯子"的語言描述層面。我們還需補充,杯子相對于桌面的空間位置、周圍物體分布、抓取前后的狀態變化、動作意圖、接觸穩定性、任務目標等信息。
此外,還有很多關鍵特征并不是原始數據直接給出的,而是需要從多種信號中推理出來,例如末端執行器軌跡、接觸狀態、動作階段切分、任務成功與失敗片段等。這些都屬于“編譯”過程生成的結果。
第四,智能檢索與組配。當數據規模上來之后,下游客戶真正需要的并非整池原始樣本,而是能快速篩選出“某類任務、某類場景、某類物體、某種動作模式”的數據子集。
所以我們自研了查詢引擎,希望以更接近工程語言的方式,從海量物理數據里檢索技能、場景和動作片段,再按訓練目標去組配數據集。
比如,倉儲場景更關注貨架揀選,家庭服務場景更關注廚房操作,工業場景更關注重復性工序。不同任務對數據的需求結構是完全不同的。
第五,標準化打包與彈性交付。將數據從"工程處理中間態"轉化為真正可用的"成品"。這意味著數據不僅要可訓練,還需可評測、可追溯、可復用,并能適配不同客戶的訓練棧、評測棧與部署環境。
從原料到成品的過程,如果沒有標準化和彈性交付,數據就很難形成真正的商業價值。
智客ZhiKer:很多公司做的是抽檢,你們為什么堅持做全量質量控制?成本如何平衡?
徐良威:首先,做質檢的前提不是“看得更細”,而是“先定義清楚什么是好數據”。
不管是和合作伙伴共建數據,還是按照我們自己的標準產出數據,第一步都要先把規則說清楚,什么樣的數據適合進入訓練,什么樣的數據只適合做評測,什么樣的數據應該被剔除。
其次,質檢本質上是一種計算過程,背后是數據處理與邏輯校驗。我們在底層架構上采用的是云原生分布式方式,把大任務拆成更細粒度的計算單元,在更合適的資源上運行。這和很多依賴重資源、重人工的方法不一樣。
再者,我們會綜合使用啟發式規則、大模型校驗、硬件綁定和自動化調度等方式,盡可能減少人工參與。
從結果上看,全量質檢不是為了“做得更重”,而是為了讓整個鏈條更可控。
具身智能的數據一旦進入訓練閉環,前面一個小問題,后面可能就會變成大成本。與其把問題留到模型階段,不如前置解決。
智客ZhiKer:仿真數據、真機數據、第一視角數據,這些不同來源的數據都能被你們處理嗎?
徐良威:從技術上來說,各類數據都可以接入統一的數據工程體系。但從價值密度來看,我們現階段的重點是真實物理世界的數據。
因為具身智能最終要落地于真實場景。仿真數據、互聯網視頻、第一視角數據固然重要,但更多是承擔補充、預訓練或泛化增強的角色。真正決定機器人能否在現場穩定完成任務的,依然是與真實世界充分對齊的數據。
楊哲軒:真實物理數據本身也有層次之分。既包括機器人本體運行的數據,也包括人通過手持設備或第一視角設備采集的數據,還包括環境側數據。
我們目前一方面處理基于機器人遙操作的真實數據,另一方面也在推進自研的ego-centric 設備。
原因在于,模型預訓練與后訓練所需的數據結構并不相同。
預訓練階段更強調廣覆蓋、多場景、多技能,幫助模型建立對物理世界的基礎理解;后訓練階段則更聚焦特定本體、特定任務、特定場景下的閉環優化。只有前端采集足夠完整,后端才能通過編譯能力,將其轉化為不同階段真正需要的數據形態。
智客ZhiKer:具身模型公司和數據公司都在自研第一人稱視(ego-centric)的數采集設備?這是重復造輪子嗎?
楊哲軒:我覺得兩者邏輯不一樣。
模型公司自研設備,通常是出于模型know-how、訓練配方和數據方法的保密考量,希望將核心鏈路掌握在自己手中,這無可厚非。數據公司做第一視角設備,出發點則是獲取更完整、更穩定、更可復用的原始信息,為后續的數據編譯提供充足空間。
對我們來說,設備并非終點,而是數據入口的延伸。只有在采集階段完整記錄,人在真實世界中如何感知、決策與操作的全過程,后續的數據工程才能充分開展重構、對齊、抽取與編譯。
徐良威:我們看ego-centric設備有兩個核心維度。
第一是本體感知的完整性。即從人的第一視角出發,盡可能記錄視覺、聽覺、觸覺等多模態信號,以及動作執行過程中的完整反饋。
第二是環境關系的完整性。任何動作都不是孤立發生的,而是嵌入在"人—工具—物體—環境"的關系網絡中。設備需要盡可能還原這種關系,而非僅捕捉局部畫面。
此外,這類設備還必須滿足時間同步、模態完整、佩戴舒適與長期穩定等基礎條件。唯有如此,采集的數據才真正具備價值。
智客ZhiKer:你們說的數據編譯和自動駕駛里的數據處理,最核心的區別是什么?
楊哲軒:我認為最本質的區別有兩個。
第一,末端執行的復雜度不同。自動駕駛的控制目標相對集中,核心是方向、速度與制動;具身智能則面對更豐富的末端執行系統,如機械臂、夾爪、移動底盤乃至多自由度協同。本體狀態變化更為復雜,動作空間也大得多。
第二,任務與場景的多樣性更高。自動駕駛主要圍繞"駕駛"這一核心任務展開,場景雖復雜,但目標相對統一;具身智能則可能覆蓋家居、工業、物流、零售、康養等完全不同的場景,每個場景背后又包含大量差異化的技能、任務鏈路與動作模式。
因此,如果說自動駕駛更多是在相對標準化的框架內做數據工程,具身智能面對的則是一個更非標準、更開放、更具多層次耦合的數據問題。
徐良威:從技術實現來看,過去許多AI任務處理的數據類型相對單一,線性處理管道即可解決大部分問題。但具身智能不同,它同時涉及多模態信號、時間序列、空間關系與任務語義,且不同任務之間并無統一模板。
正因如此,我們更傾向于用"數據編譯"而非簡單的"數據清洗"來描述這項工作。
智客ZhiKer:你怎么看未來兩年具身智能大模型的演進方向?
楊哲軒:我認為至少有六個明確趨勢。
第一,VLA仍將為主線。具身智能越來越呈現"模型能力"與"機器人系統能力"的融合特征,而非單純的控制問題。視覺、語言與動作的統一建模,仍將是行業主路徑。
第二,多源數據混合訓練成為標配。未來領先的系統大概率不會依賴單一數據來源,而是整合互聯網視頻、第一視角數據、遙操作數據、仿真數據與真實閉環數據,各自承擔不同角色。
第三,高質量數據工程與評測體系成為關鍵壁壘。真正的挑戰不在于"收集數據",而在于知道如何篩選、切片、構造課程學習、利用失敗樣本,并建立穩定的評測閉環。未來競爭不僅體現在模型結構,更體現在數據工程與評測工程能力上。
第四,系統能力從"單次成功"轉向"持續穩定"。真正能落地的機器人并非永不犯錯,而是發生偏差后能夠恢復、糾正并長期穩定運行。恢復能力與長期穩定性將愈發重要。
第五,本地化訓練與私有化部署加速。尤其在B 端場景,高價值數據越來越難以完全離開現場。未來能夠支持邊界內訓練、私有化部署與可審計流程的基礎設施,將更具現實價值。
第六,數據資產的定義被重寫。未來最有價值的,不再是"擁有多少視頻、多少軌跡",而是"知道哪些數據有效、如何跨本體遷移、如何利用失敗片段、如何將一次項目沉淀為下一次更快的交付能力"。數據價值正從"量"轉向"質"與"復用效率"。(作者|郭虹妘,編輯|楊林)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.