網易首頁 > 網易號 > 正文申請入駐

它石智航用“吉尼斯紀錄”交卷真干活的具身大腦

2026-03-26 10:54:37　來源: 量子位

北京舉報

分享至

Jay 李根發自凹非寺
量子位 | 公眾號 QbitAI

天使輪拿下2.42億美元后，它石智航到底干啥去了？

2025年年初，這家公司是資本市場毫無疑問的寵兒。天使輪融資額刷新紀錄，明星創始團隊，讓它石自創立之初，便一躍成為具身智能賽道炙手可熱的名字。

然而接下來的一年里，它石智航選擇了一條截然不同的路：沒有參加各種行業大會，沒有頻繁對外發聲，沒有出現在春晚或各類展示活動中，一直踏實干活。

一年后，這家以技術工程和產業落地集結的明星團隊，交出了答卷——

利刃出鞘，一鳴驚人。

它石A1機器人，1小時內完成亞毫米級柔性線束完整裝配任務百余次，創下全新吉尼斯世界紀錄。

一系列成果讓它石首次在線下亮相，便吸引了央視、新華網等頭部官媒的組團報道。

線束裝配，是地獄級的工業場景。

長程操作、柔性操作、亞毫米精度，不可能三角全部集齊，被喻為工業自動化界的「哥德巴赫猜想」。

時隔一年，高調亮相的它石，直接打爆了這個場景，如期兌現了對投資人的承諾。

而同樣是時隔一年，量子位也再次來到了上海——

從它石智航聯合創始人、首席科學家丁文超這里，獲得了關于這家公司更多的技術進展和背后的具身洞察。

真干活的具身大腦

當圈內還在爭論機器人何時能真正干活時，它石智航已用硬核技術，交出了答卷。

專攻干活，而且要干就干最難的。這是它石從創立之初就確立的技術路線。

它石為A1機器人選擇的挑戰，叫作亞毫米級線束裝配任務。

這是具身智能最兇險的試金石。

首先是精度。

線束的孔位極小，容錯空間幾乎為零。

機器稍有偏差，插不進去；力道稍大也不行，會損壞插接孔位。

其次，線是軟的。

這和玻璃杯不一樣，你一碰，線會變形。

因此，模型每走一步，面對的都是一個和上一秒截然不同的物理世界，傳統預先設計好軌跡的模式，在這里完全失靈。

而就是這樣難度的任務，還不是插接一根就能完事。

線束少則十幾根，多則幾十根，每一根的插接狀態都會影響下一根的空間和角度。

丁文超把這類任務概括為具身智能的不可能三角。傳統工業自動化精度高但柔性弱，具身方案能做長程任務但精度差。

想要三者同時兼顧，難如登天。

而如今，它石不僅經受住了這一考驗，還將其徹底打穿，裝配效率創下吉尼斯世界紀錄。

甚至還保留了極高的「活人味」。

在他們發布的一次線束裝配「圖靈測試」中，超過50%的投票者都分不清到底哪個才是機器人，誤把選項A認作真人。

既能干活，又保證了動作的絲滑程度，這就是它石潛心鉆研一年所打造的具身大腦——

AWE 3.0。

這個名字，有兩處值得細細琢磨。

第一，AWE，全稱AI World Engine，AI世界引擎。

不是VLA，也不是3D資產生成模型，而是一個真正意義上，能夠作為具身大腦的世界模型。

依托超十萬小時Human Centric數據訓練。

第二，3.0，對標GPT-3。

采訪中，丁文超拿GPT的發展脈絡來做參照。

GPT-3做了兩件事：把聊天場景打磨到極致，同時指明了這條Scaling曲線的走向。GPT-3出現之后，已經沒人再懷疑LLM這條路。只不過GPT-3.5把它徹底引爆了。

AWE 3.0想做的，是同一個邏輯。

用線束裝配對標聊天場景，把它打爆，同時驗證模型在其他干活任務中的泛化能力。

丁文超坦言，做之前就清楚這是塊硬骨頭，但真正上手才發現，還是低估了難度。用傳統方法，幾乎不可能完成。

但也正是這座珠穆朗瑪峰般的里程碑，催生出突破，最終匯聚成AWE 3.0。

這個世界模型最核心的特點，叫隱空間。

關鍵在于「隱」這個字。這是一個經過壓縮和抽象的中間世界，肉眼無法直接看到，對于具身智能來說卻是更本質的學習環境。

面對柔性操作中層出不窮的突發狀況，模型不再簡單模仿動作軌跡，而是在隱空間里持續推演未來的多種可能，再據此做出決策。

這和GPT-o1有幾分相似：在正式輸出答案之前，先在思維鏈里推理一遍。

丁文超把這個過程叫作「未動先想」。

這當然能提高整個系統的魯棒性，但出乎意料的是，在隱空間里思考的過程中，模型竟然涌現出一項全新的技能：自我糾錯（Failure Recovery）。

當插接力度或角度出現異常，機器人會把線拔出來，換個角度再試一次。

對于真實工業場景而言，這是一個象征著成熟度的關鍵信號：機器人會反思了。

不再需要人手把手教，即便遇到超出訓練范圍的場景，機器人也能自己在嘗試中找到解法。

而這一切的實現，沒有用到一秒鐘的遙操數據。

全部是基于真人在真實場景中的實際操作，人類和機器人共享同一套感知體系。

長期以來，關于具身訓練數據，行業有個共識：遙操數據精度最高。

丁文超卻說，在亞毫米級精度的任務上，這個結論完全站不住腳。

遙操作根本干不了亞毫米級的事，操作過程中會猶豫、抖動，反而變成了訓練數據中的「噪聲」。

的確，線束這個場景，要求太恐怖了。孔位極窄，對絲滑度的要求非常高。

但人能完成這個任務。

雖然不能百分百零偏差，但人的糾錯能力極強，可以在操作中感受阻力，并據此迅速調整角度和力度。

從第一性原理出發，丁文超指出，想要習得這種局部微調的能力，唯一方式，就是從真人身上采集數據。

這也是他在去年采訪中反復強調的Human Centric。

一年過去，這一理念沒有發生變化，并且已經成功落地。

這就是它石今年的第二項成果，SenseHub數采套件。

這是一套以人為中心的一體化數采套件。

非常輕便，一雙手套，一個能夠固定在胸部或頭部的第一視角攝像頭，完全無需像遙操那樣進行專業培訓，哪怕是清潔工、超市員工，佩戴上就能成為采集員，也不會影響工作。勞動者在日常工作過程中，順手就能把數據采了，完全是“被動式”采集。

與此同時，它石發起具身數據星火計劃，邀請生態伙伴加入，基于Human Centric推進具身數據標準建設、共建Human Centric數據集，構建產業級數據共享生態。該計劃初期將匯聚超過1000萬小時的標準化優質數據，目標推動實現1億小時級別的數據共享。

2026年，Human Centric正在從它石率先驗證的技術路線，快速演變為整個行業的共識。

具身智能的數據Scaling，這才剛剛拉開帷幕。

采訪結束，已是夜里十一點，其中一間小會議室里，董事長李震宇和CEO陳亦倫也在熱烈討論。

寒暄中，李震宇說這是創業后的常態。陳亦倫則幽默補充：一般這個點才剛開始，具身智能的征程，往往越聊越興奮。

剛剛亮相的技術和成果，無疑是它石智航「日新月異」的新起點。而負責技術研發推進的丁文超，給出了更多細節和實踐認知。

對話原文

量子位：A1刷新線束裝配吉尼斯世界紀錄令人印象深刻，研發過程中有什么挑戰？哪些環節比預想的要難？

丁文超：硬件遠比我們想象的要重要。

你可以把它理解成兩頭往中間靠的過程：

一方面，通過合理的數據組織、網絡訓練、網絡架構和任務設計，讓模型能人機通吃；

另一方面，機器人自身也得往人的方向去靠，自由度、靈活度，還有響應的及時性。

最開始我們采購了很多市售關節回來測，結果發現，要么響應延時有問題，要么扭矩脈動太大。這些都會導致機器人沒辦法像人一樣靈活。

于是我們做了一個決定：從5月份開始，全棧硬件自研。

核心是兩塊。

第一是關節完全自己做，非常低的減速比、高精度、GAP極小的行星關節，這在市面上非常少見。

第二是靈巧手。很多手套數據用夾爪去映射，信息損失太大。所以我們在去年開始研發21自由度靈巧手，和人手完全匹配。

原本我們覺得，具身領域做硬件的公司那么多，產業鏈應該是成熟的。結果發現這個行業跟汽車工業相比，差距太大了。

品控、標準化、流程化，很多地方還處在草臺班子的狀態。

量子位：有沒有什么是以前覺得很難，但實際下來，相對比自己預期、認知要容易一些的？

丁文超：我覺得有三方面。

第一個，剛才講過了，跨本體映射其實沒想象中那么難。

這對業界是個反常識。直到今天，很多人還覺得人到機器人的跨本體映射是個大問題，但我們解決得還不錯。

第二，端到端網絡到底能做到什么精度？之前我們心里的答案是毫米級，但最近有了新突破，我們能做到亞毫米級。

這也是個反常識。大家一直覺得端到端網絡特別依賴數據驅動，精度上是不是不如傳統方法？事實證明不是。

還有第三點，以人為中心的生態擴展，比我預想的快得多。

現在各家在追這種采集方式，投入都特別大。很多人在深入研究我們的數據采集套件。

本以為大家轉彎還需要時間。沒想到2026年，已經快成為以人為中心的數據采集元年了。

量子位：亞毫米級這個目標，是你們在實踐中發現可以做到，還是場景本身倒逼出來的？

丁文超：兩者都有，但倒逼的成分很大。

線束插接場景本身就需要達到亞毫米級精度，逼著我們去想怎么讓網絡動作更連續、更絲滑，怎么實現failure recovery，插錯了也能局部微調重試。

這些能力，如果我們一開始選的是疊毛巾，可能永遠不會被逼出來。

量子位：那現在已經實現了亞毫米級操作，如果讓模型去疊毛巾，需要重新學習嗎？

丁文超：真正的泛化，不只是模型本身的泛化，數據和模型的覆蓋范圍也要泛化。

對外聚焦線束，是因為我們想先把這個場景徹底打穿。但其實從第一天起，我們就同步在工廠、物流、倉儲、洗衣房、酒店等多個場景采集數據，全部用于訓練。

那時很多投資人還有所保留，覺得把一個場景做深、完成商業化就夠了。但我們的判斷是：方法論層面的過擬合才是最致命的，模型的過擬合反而相對容易消解。

現在我們內部已經有N個可落地場景在并發推進，節奏比我自己預期的還要快。

量子位：具身智能的GPT時刻，怎么定義？

丁文超：去年聊這個詞的時候，大家還定義不清楚。現在我可以給一個更具體的描述：準Zero-shot時代。

不是說推到一個新場景完全零基礎就能上，而是你已有的核心skills，在新場景里基本都能遷移、都能用。

對標語言模型，大概相當于GPT-3的水平；如果某些任務徹底打穿，可能就到GPT-3.5了。

這個時間點比大家預想的早，說實話，也比我自己的預期快。我們規劃的模型節奏是2.0、3.0、3.5、4.0，但我現在判斷3.5到4.0這段還會進一步加速。

兩個趨勢已經肉眼可見：一是泛化數據的持續積累，二是有限數據下模型能力的快速提升。

一旦準Zero-shot成立，機器人就不只能進工廠、做一個工序，而是可能同時覆蓋多個工序。C端機會也會更早涌現。

量子位：AWE2.0意味著什么？

丁文超：1.0是內部版本。2.0我們有點參考GPT-2的意味。

GPT-2代表早期Scaling Law成立，并且在一些任務上已經能蓋過Bert這類小模型。對我們來說，2.0意味著我們真正完成了跨本體部署，從Human Centric數據到模型訓練，再到機器人上的部署，這條鏈路跑通了。

3.0則不僅能夠看到線束場景打穿，還看到了其他若干場景的涌現；3.5是我們在其中幾個場景徹底打爆。

4.0就是去年跟大家講的世界引擎。為什么要同時預測環境和動作？最終是為了服務強化學習。模型充當自己的仿真器，自己預測環境、預測動作，做長程思考、高并發多場景并發推演。

量子位：AWE 3.0類比GPT系列的話，3.0相當于什么階段？

丁文超：GPT-3出來之后，已經沒有人懷疑這條路能不能走通，只是3.5才把它徹底引爆到終端用戶。

我們現在也處于類似的位置。AWE 3.0出來，加上接下來會發布的泛化任務，大家應該不再懷疑具身還會有Scaling的瓶頸，不再懷疑泛化能不能實現。

GPT-3最大的貢獻，就是把這條Scaling曲線的方向指明了。春江水暖鴨先知，真正關注GPT-3的人，那時候就已經開始投身大模型創業。

具身現在也到了這個時刻。

量子位：3.0出來之后，有沒有做同行評測或benchmark跑分？

丁文超：具身的benchmark現在說實話比較混亂，非常像早期的自動駕駛。

各家都說自己最牛，學術榜單持續存在，八仙過海各顯神通，每家都曾經拿過某個榜單的第一。但后來大家發現，榜單的第一第二根本沒意義。

具身現在正處于從第一階段邁向第二階段的節點。第一階段就是現在，大家在吹各種benchmark，但你仔細深挖評測指標和評測環境，會發現偏差非常嚴重。

我們內部有自己的benchmark體系，用in-house數據集和公開數據集，跟業界各個SOTA模型對比，包括閉環實驗。

從我們內部的橫向比較看，現在能公開接觸的模型，距離真正能干活的通用模型還有非常遠的距離。

隨著具身從垂直場景走向多場景、走向更C端，橫評時代很快就會來臨。

量子位：具身智能的Scaling Law，好像跟當年GPT引發的風潮不太一樣。GPT時代越做越大，但具身領域卻出現了做得更小更精的方向，你怎么看？

丁文超：Scaling Law要拆成三個階段：數據Scaling、參數Scaling，以及推理Scaling。

對具身來說，數據Scaling Law的紅利遠遠還沒吃完。

現在大家覺得具身模型的方差比較大，小模型有時候反而好，大模型反而差，根本原因是第一波紅利沒吃完。

數據Scaling沒做扎實的時候，模型Scaling就處于一種不穩固的狀態，很容易掉進局部最優，導致各種noise和方差。

但只要把數據Scaling做得足夠扎實，大模型能力強于小模型，這是毫無疑問的。

如果2026、2027年大家解決了數據Scaling Law的問題，大家一定會想方設法擴張模型。

量子位：那如今數據Scaling Law的瓶頸在哪？

丁文超：最大的問題是量級。

遙操作有一個致命問題：它不會激勵你去解決跨本體的問題。硬件一升級，之前的遙操作數據不能復用。所以想靠遙操達到千萬小時級別，根本不可能。

真正的鑰匙，是Human Centric。

我們內部的數據量確實漲得很快，我們也發起了星火聯盟數據生態計劃，讓更多人參與進來一起迭代。

現在我們在沖刺的目標就是千萬小時級別，我們想要的收益，就是把模型推到一個新任務、新地方，能以準專業的狀態把任務基本完成。

量子位：所以數據Scaling Law沒有兌現，也就證明了仿真合成數據、遙操作數據這條路走不通？

丁文超：是的，我非常有信心表達這個觀點。

今天我可以直接告訴大家：真實場景里無處不在的Human Centric數據，一定會帶來第一波巨大的數據紅利。

全球首個能干活的具身超級大腦AWE3.0誕生

量子位：AWE 3.0這個模型，參數量和主要特點是什么？

丁文超：第一，模型size和數據量之間有一個對應關系。30B能吸收接近百萬小時，100B以上才能吸收千萬小時級別。

數據節奏、模型節奏，兩者必須齊頭并進。

第二，這個模型應該是目前市面上推理速度最快的同規模模型，通過隱空間內異步動作輸出的方式，輸出效率可以做到十倍以上。

這一點非常反常識。大家以前覺得要實現絲滑運行，必須靠大小腦雙系統，大腦低頻推理，小腦高頻執行，兩者割裂配合。

但我們是一個模型，橋梁是隱空間里的隱變量。

量子位：隱空間內的動作輸出，是一開始就設計好的，還是實踐中摸索出來的？

丁文超：完全是實踐中的認知。

最初我們只是想到模型要同時預測環境和動作，但線束任務對絲滑度的要求極高，倒逼我們去想：模型這么大，怎么還能做到這么流暢？

從第一性原理看，雙系統大小腦本質上還是兩個不相干的東西湊在一起。我們還是想在統一的模型架構里解決這個問題，最終就催生了在隱空間這條路。

量子位：去年聊的時候還沒那么篤定要all-in-one，現在已經是確定的方向了？

丁文超：把所有東西集成在一個模型里，肯定是大趨勢。大小腦的融合也是必然方向。

我甚至覺得，具身領域將來會涌現出自己的原生基礎模型。

你看現在業界所有模型，本質上都是外來戶。VLA是把VLM搬過來加一個action頭；world action model、video action model是把視頻預測模型搬過來，再拼一個動作輸出。

這些“外來和尚”在具身領域遇到的問題都很類似。

VLA的問題是泛化，到一個新場景，action需要大量新場景數據才能變好。

video action model大家現在討論得還不多，但我可以預告一下：第一，視頻預測的幻覺會影響動作質量；第二，視頻預測很難維護精細的空間結構，導致模型最終還是在記動作。

原生模型可以完全避開這兩個問題。我們所有數據天然就是視覺、語言、動作三種模態對齊的，訓練時可以在任意模態之間互相轉換。

vision to vision是視頻預測，vision+language to action是端到端，vision+language to vision+action就是世界模型。

現有的所有范式，在這套框架下得到了大一統，也沒有VLM強行加action head帶來的那種割裂感。

量子位：你說VLM、video action model會遇到這些問題，是思想實驗，還是你們真的踩過坑？

丁文超：兩者結合。

第一，我從第一性原理判斷它必然會有這些問題。

第二，我們有一個不小的research team，會持續跟蹤業界所有SOTA方法，包括VLA、視頻動作模型、世界動作模型，全部納入我們自己的benchmark。

我們每發一版模型，都會在N個任務上跟現有SOTA做比較。

另外我想補充一點：談原生模型，前提是你有沒有足夠的數據。原生模型玩的就是數據，追求的是三種模態完美對齊。

量子位：當前的模型規模，是數據量決定了它，還是先定了規模再去配數據？

丁文超：是在實操中摸出來的。我們的數據量和模型規模都是一點點往上漲，慢慢發現數據漲到一定規模，模型size就需要提升到下一個level才能繼續吸收。

這個對應關系，是從自動駕駛時代積累的經驗，加上具身這邊數據量快速增長的實踐，綜合感受出來的。

量子位：你們內部評價模型好壞的標準是什么？

丁文超：三個維度。

第一是成功率，這是一切的基準。

第二是完成效率，因為我們第一個場景是要真正落地工廠的。

第三是類人性，賞心悅目也是指標。

有意思的是，我們在線束插接這個子任務上，效率已經超過人了。

這里面有個trick：人沒法左手畫圓右手畫方，但機器人可以，通過對數據合理的組織，我們讓機器人做到了雙手并行，這樣自然就比人快。

量子位：類人性這個維度很有意思，你加這個指標是為了讓動作更絲滑，還是有更深的考量？

丁文超：第一性原理上，你追求絲滑，追求看起來像人，最終都是為了讓機器人真正進入人類社會。

去年你也問過我機器人最終的形態會是什么，我當時說擬人形是大趨勢。

哪怕在垂直場景有特制形態，完成動作的方式也應該貼近人，這種親和性是人類社會的一種剛需。

你看現在大家為什么喜歡看機器人跳舞？因為它給人的感覺像自己。

展會上我們的雙足機器人只要出來，現場就圍得人山人海。

哪怕是從貨架上抓一個水瓶，這個動作可以很機械，也可以很絲滑，給人的感官完全不同，人想要使用它、信賴它的欲望也完全不同。

所以類人性這個指標，一方面是在評價模型能力，另一方面，對于人和機器人將來真正共生，也是非常關鍵的一點。

量子位：訓練成本對一家創業公司來說，壓力大嗎？

丁文超：好鋼用在刀刃上。我們沒有一口氣鋪幾千張卡漫無目的地訓，而是隨著數據量上升，看到模型吃不住了再加參數，每一個實驗都仔細評估價值。

我們的目標是打經濟仗，在有限投入下拿最大ROI。

具身的生命周期可能比自動駕駛還要長，上面可能有若干次決戰，所以彈藥和糧草必須存夠，每一次決戰都要有主動出擊的能力。

支撐具身智能的基石，超級數據范式Human Centric

量子位：數據質量的把控，你們是怎么做的？

丁文超：這件事比很多人想象的要難得多。

Human Centric意味著采集主體是人，不像設備那么可控。我們早期就遇到過，現場工作人員被動式采集，結果在現場玩了15分鐘手機。

后來，我們在采前、采中做了工作。

采前是約法三章，現場培訓，明確哪些行為不允許。

采中是在APP上做監測，檢測到異常狀態就報警。

這樣基本上能把八九成的問題篩掉，后端數據產線的利用率會非常高。

量子位：AWE 3.0的訓練數據，全部是Human Centric采集的嗎？還是有一些配比？

丁文超：這里有個反常識的結論。

大家一直認為遙操作數據精度最高，Human Centric數據精度上是短板。但在亞毫米級任務上，結論完全相反。

遙操作根本干不了亞毫米級的事，操作過程中會猶豫、抖動，反而變成了噪聲。我們亞毫米級的模型，完全是用Human Centric數據訓練的。

隨著我們把更多場景擴展開，靠Human Centric數據支撐整個模型訓練到部署，完全可以做到。

量子位：所以后續模型迭代，核心就是數據量級的持續擴展？

丁文超：對，以前大家總想著數據有一座金字塔，高質量數據、中等數據、大規模數據各種配比，搞得很復雜。

但我覺得未來可能根本沒有什么數據金字塔。你把一種數據打磨到極致，把所有細節做好，質量可能比配比來的數據要高。

量子位：那為什么此前行業里會形成數據金字塔這樣的共識？

丁文超：任何一個細節沒做好，都會給你帶來錯誤的結論。

Human Centric數據要做到亞毫米級精度，門檻極高。

佩戴在人身上，要把動作完整恢復出來，傳感器同步、標定、云端自動化標注算法，每一個環節都不能出問題。

現在業界大多都還沒搞清楚怎么把Human Centric數據做到很高精度，更不用談后面部署到機器人上完成閉環任務。

量子位：遙操作數據的成本應該比Human Centric低吧？

丁文超：恰恰相反，遙操作數據的成本遠高于Human Centric。

你算一下遙操作的成本：得買一臺機器人，得有數采中心或者把機器人推到現場，還得有專業遙操員。

遙操員這個行業現在慢慢興起，但流失率很高，工作枯燥，培訓一個新遙操員又要一兩個月。

Human Centric完全不同。

采集者可以是清潔阿姨、超市工作人員。他們戴上數采手套就能在日常工作中順帶完成數據采集。

量子位：你們選擇了開放這個生態，如果有更大體量的玩家來懟數據，會削弱你們的護城河嗎？

丁文超：正確的方法論，別人終究會擠進來。與其守住硬件設備，不如把門檻真正建立在AI上。

就像大模型訓練一樣，大家都知道怎么訓，但最終訓出來的模型差異還是會體現出來，這就是不傳之秘。

量子位：線束這個模型，大概學習了多久？

丁文超：與其說訓練了多久，不如說是隨著數據量級持續提升的一個過程。

大概時間線是這樣：AWE 2.0從去年年中開始，那時候Human Centric的采集、訓練、部署已經走通了。

從AWE 2.0到AWE 3.0明顯加快了，數據運轉更順，模型上也有很多新感覺涌現出來，年后沒多久就在3月發布了AWE 3.0。

這也是為什么我判斷后面節奏會進一步加速，隨著數據量越來越大、模型越來越成熟，智能涌現的時間也會縮短。

量子位：Sergey那篇關于叉勺（Spork）的博客你看了是什么感受？

丁文超：有些觀點我同意。

仿真數據沒用。Sergey自己也采了幾千小時數據，是真正走過這個過程的人，他知道機器人部署到真實世界需要多少數據、怎么才能泛化。

他說仿真是叉勺，勺子能喝湯、叉子能插牛排，但集成為叉勺，又什么都干不好，這個比喻我覺得很恰當。

分歧在于：有了真實數據之后，怎么高效利用？

他的路徑是遙操作獲取基礎數據，加上大規模真機強化學習，我對這條路是有疑問的。

所以答案就是，大的方向上有共鳴：真實世界的數據才是走向泛化的金鑰匙。

但怎么把數據閉環魯棒性提升、真正走向規模化商業落地，路徑是不同的。

量子位：這種路徑差異，會不會有中國與硅谷環境不同的原因？中國有更豐富的人力資源，所以可以做Human Centric采集。

丁文超：有這個因素，但不是全部原因。

早期Generalist這類公司還在宣傳幾十萬小時數據，現在有些硅谷公司開始說我只需要10小時、20小時數據就夠了。26、27年這個分歧會越來越明顯。

但讓我比較驚訝的是Generalist，作為在硅谷的公司同樣堅定走Human Centric路線，而且scale在10萬小時級別以上。所以環境不是決定性因素，更深層的原因可能是慣性。

量子位：達到什么樣的數據量級，才能支撐到你們說的4.0水平？

丁文超：具身比自駕復雜得多，本體自由度更高，是復雜3D環境，還有大量密集的contact操作，場景豐富度也更高。根據我們現在的實踐經驗，具身所需的數據量至少是自動駕駛數據量級的10倍。

具身可能有三個坎：

10萬小時是模型能力不錯；100萬小時是準產品級，可以deliver給各種用戶；1000萬小時之后，數據Scaling law的討論會變少，大家開始討論模型架構，前沿公司開始做強化學習。

量子位：具身的數據采集比自動駕駛復雜得多，你們怎么保證采集質量和覆蓋度？

丁文超：我們有一套自動化調度系統，每天匯總返回來的數據，check場景覆蓋了哪些、任務做了哪些、動作pattern的分布，然后第二天針對性補缺，再去采。

這套系統保證我們不會偏科，不會在一個場景過度采集，那樣重復度太高，變成同質化數據，不是有效的scale。

量子位：采集過程中有沒有讓你意外的地方？

丁文超：人的行為實在太豐富了。越采集，越對人的行為產生敬畏。

遙操作相當于帶著義肢去操作，很多人的本能行為在那個狀態下都會變形。但如果直接從人身上采，你會發現人很多日常動作里藏著大量自己都沒意識到的操作智慧。

最讓我印象深的是failure recovery。人的精度并不是絕對的，移了1厘米還是1.5厘米其實自己不一定知道。但人的局部微調能力極強，出了問題能自然地調整修正。

這也是為什么我們一定要把人的行為原原本本全量記錄，所以我們做了五指采集手套；執行器也必須能原原本本還原人的行為，所以要做21自由度靈巧手。

超級本體，為AI而生

量子位：手套和靈巧手之間是什么關系？

丁文超：完全鏡像。手套捕捉人手的完整自由度，有兩個核心優勢：一是能采集末端觸覺，二是無懼遮擋。

用VR眼鏡采集，手一擋就丟失數據。手套不存在這個問題。

靈巧手這邊，人手大概20到21個自由度，做到這個數字基本就能描繪人手所有運動，這就是為什么大家都在追求20自由度以上。

我舉個例子。我們展示的刺繡任務里有個頂針動作，夾爪很難做。縫紉工人為什么戴扳指？就是為了捏住針之后用指頭把它頂過去。

夾爪只能夾，沒法頂，所以用夾爪做刺繡就要繞很多彎路。這就是手的價值。

量子位：靈巧手研發難度怎么樣？

丁文超：挺有挑戰的。在這么小的空間內實現這么高的自由度，技術路徑本身就有爭議，準直驅還是繩驅，電機設計、減速器設計……都是一點點摸索出來的。

線束場景倒逼我們把Human Centric逼到亞毫米級，而靈巧手，倒逼我們把電機和減速器的設計制造能力逼到極限。

我們應該是目前世界上屈指可數可以做到準直驅、高自由度、還能集成到人手尺寸的公司。今年ICRA（機器人國際頂會）我們會對外展示。

量子位：靈巧手解決之后，會解鎖哪些場景？

丁文超：線束場景里我們現在用夾爪完成的工序大概覆蓋70%的任務，剩下的比如纏膠、理線，手會方便很多。

如果真的想做通用工業解決方案，繞不開靈巧手。

量子位：為什么機器人手都做五根手指，不做六根七根？

丁文超：六根手指，數據就對不上了。你從人身上采不到六指數據，還得自己造數據，邊際效應馬上就顯現。

所以機器人手的自由度大概率是小于等于人手，這樣才能最大化利用Human Centric數據。

量子位：手的終極目標是什么？

丁文超：人手能做的任何動作，靈巧手都能做出來。全身人形其實現在已經基本可以做到動作模仿，手也在朝這個目標走。剩下的問題就是手腦協同。

量子位：你們有A和T兩個系列，各自的優勢是什么？

丁文超：T是雙足，A是輪式雙臂。

本體層面，各家整機設計現在其實收斂了，差異沒那么大。我們比較有特色的是關節。

以前大家設計關節，電機扭矩、減速比都是越大越好。但我們發現本質上是一個distribution match（分布匹配）的過程：你要讓機器人執行動作的空間和流暢度，盡可能貼近人的數據分布。

把這個目標拆解，整機構型大家都差不多是擬人型，真正關鍵的就是關節，包括末端靈巧手關節到核心關節。

機器人本體你可以理解成以關節為核心的一堆連接件，關節才是一切。

遙操作會天然把你降速，你感受不到機器人還需要變得更好。

但一旦你采集的是人的數據，你就會永遠想讓機器人去匹配人的動作分布，這個驅動力就會持續逼著你把關節做得更好。

量子位：本體為AI而生，怎么理解？

丁文超：傳統的本體設計是正向的，關節要出多大扭矩、減速比定多少，憑感覺來。

為AI而生是反向推導。我們采集了大量人的數據，知道人在完成各種任務時末端需要多大力度、多快速度，這形成了一個distribution A。

我們設計本體，就是讓機器人的工作空間、力輸出、運動速度形成的distribution B，盡可能去匹配distribution A。這樣AI模型在上面適配，遷移會更順滑。

這本質上是個雙向奔赴的過程。一邊是模型通過空間預訓練、全身端到端、各種技巧讓遷移更魯棒；另一邊是硬件朝人靠攏。兩者同時收緊，中間的gap才能消掉。

量子位：當初為什么選線束這么難的場景？

丁文超：真正觸動我們的，是親眼在線束工廠看到的那一幕：密密麻麻全是人，空氣里彌漫著汗味，工人非常忙碌。

我們也訪談了工人，他們自己干得很痛苦。插線的錯誤率大約是千分之三，但只要一根線插錯，整條線束就要重做。

工人壓力很大，流失率極高，幾個月就換一批人，管理成本也居高不下。

我們當時調研了很多場景，判斷標準很簡單：有沒有大量的人在干這件事？線束完全符合，這是真需求。

第一步是從需求出發，第二步才分析這個任務有沒有門檻，發現它兼具長程、柔性、高精度，確實很難。但我們對自己這個團隊有信心，決定去磕它。

早期有很多人不看好，覺得太精細了。但畢竟之前沒有人展示過具身能在這么精細的任務上持續穩定工作，有這個反應也很正常。

量子位：你們有沒有Plan B，一個比線束更容易的場景？

丁文超：選了線束之后，我們沒有給自己想過退路。

我覺得這一代具身智能的價值就在這兒：解決柔性、長程、高精度三者兼具的問題。

任何不滿足這三個特質的場景，傳統自動化都能解決，不需要具身智能。你可以沿著這個邏輯去審視市面上各家具身的落地場景。

線束通了，其他場景是能力外溢的問題。成功率、精度、柔性外溢出去，很多裝配場景雖然沒有線束那么極端，但也有毫米級子動作、多工序要求，我們的能力是夠用的。

量子位：批量化落地的核心挑戰是什么？

丁文超：大腦的量產。

以前機器人公司有量產經驗的都集中在小腦，解決本體一致性、產線問題，這些路已經探得差不多了。

大腦的量產是新問題，不僅是硬件量產，還包括模型能力的量產。

比如硬件之間稍有差異，模型還得能泛化。還有一個更少人想過的問題：生命周期內的泛化。

機器人在客戶現場用久了會有損耗，響應特性會變化，你的模型隨著機器狀態的改變，還能不能穩定工作？這個維度，現在很多人都還沒考慮過。

量子位：你們做了數據、模型、本體、關節、靈巧手，每一塊拆開都能做一家獨角獸，你們怎么定位自己？

丁文超：我們不是一家生態公司，初衷完全不同。

如果是為了做生態而做生態，你每一塊都不會追求極致。但我們是真的想解決問題，還是第一性原理出發，這才驅動我們把每件事做到極限。

如果我們把自己定位成生態公司，我們沒必要把減速比、自由度這些東西推到極致，能賣出去滿足基本需求就行了。但這兩種做法，差異性很大。

量子位：隨著規模變大，你們怎么平衡敏捷和復雜度？

丁文超：我對具身行業有個3+3+3的判斷。前三年是認知收斂期，現在到接下來三年是打硬仗期，再往后三年是淘汰賽。

現在這個階段，技術路徑逐漸收斂，會催生硬件平臺的標準化。我們現在做關節、做手，某種程度上是在牽引這個標準的制定。

但這些標準在兩三年內會慢慢固化，固化之后各個子部件會有更多能力外溢。

大廠下場也會加速這個過程，他們的標準化經驗會推動行業收斂更快。

當前最關鍵的還是兩件事：第一，在工廠里證明真的能干活；第二，對未來有想象力。

大腦時代開啟，它石已讓具身智能真干活

量子位：過去一年有什么讓你興奮的進展？

丁文超：具身大腦上的競爭激烈度會上升得很快，這讓我興奮也讓我警惕。

說實話，中國整體的大腦進展是慢于硅谷的。

中國最成熟的是本體和小腦，在大腦上有原創性創新的公司非常稀缺。

硅谷陸續涌現一些公司，不追求本體硬件能力，專注刷大腦，Generalist這類進展很快。

過去一年我們絕大多數精力都投入在大腦上，就是因為意識到大腦能力的決定性作用。

量子位：春晚上機器人那么熱鬧，你怎么看？

丁文超：兩點感受。

第一，友商的表現讓我覺得，本體和小腦的競賽基本上已經結束了。再給其他公司6到12個月，大家都能達到類似水平。

雖然還有很多公司在往里沖，但問題已經收斂，只不過各家時間上滯后幾個月而已。

第二，大腦時代開始了。這對行業是好事，因為人們一直低估了具身的行業價值。

以前大家的估值邏輯很粗，就是能賣多少臺機器人。但一旦具身大腦真的能批量轉換生產力，整個估值邏輯要重寫。

我覺得大腦的引擎完全可以接住第二波增長，整體價值還會繼續往上走。3+3+3，淘汰賽最終還是會來。

量子位：你們希望外界給你們貼什么標簽？

丁文超：能干活的具身通用大腦。

具身的本質是把AI賦予物理實體，讓它在生產生活中發揮價值。我們想做的是智能程度高、有自主能力、能真正幫助人的大腦公司。

加上能干活這三個字，是因為現在說自己是具身大腦公司的太多了，得有個金標準。能不能穩定、可靠、高效地干活，就是這個金標準。

現在很多是披著干活外衣的表演，我們想和這類劃清界限。

量子位：家庭機器人還有多遠？

丁文超：我覺得快的話有可能小于3年，是因為我真實感知到了技術發展的加速，這個事情是會實現的。

量子位：物理AI要達到現在信息AI那個水平，需要多少數據？

丁文超：千萬小時。

不是重復性的數據，是按場景和工序控制過多樣性的千萬小時。

量子位：遙操作數據重復性太高，這是行業里另一層泡沫嗎？

丁文超：對，遙操作深受其害。遙操作數據大部分來自數采中心，數據多樣性取決于數采中心的裝修頻率，現在裝修最快的也就一個月一次。

量子位：自由度軍備競賽，你們會卷嗎？

丁文超：自由度能匹配人就夠了，不是越多越好。

軀干大概20多個自由度，單手也是20多個，把機器人末端送到三維空間某個姿態，現在大多數機器人都具備這個能力。

真正的問題是末端到了之后，能不能靈巧地和物體交互完成任務。所以末端自由度才是關鍵，現在很多人在全身自由度上卷，有點舍本逐末。

量子位：你們從一開始就站世界模型這個方向，原因是什么？

丁文超：是被Human Centric逼出來的。

我當時在思考，什么樣的模型才能吸收這么多Human Centric數據？

單純的動作模仿很難學到人運動的精髓，泛化性和跨環境遷移都很弱。我們測評了各種VLA，發現過擬合太嚴重。

現在大家說世界模型，定義本身還很模糊。

很多人問我：李飛飛那種算不算世界模型？我覺得李飛飛推出的世界模型，更多是基于空間的維度做生成及渲染，而具身則需要落實到我們所處時空的具體動作上。

Marble只是對空間有預測能力，但具身最終要落到動作上，這是很大的差異。即便對未來假想得很好，但動作很可能還是不行。

最新的學術工作中，雖然說指標上會有提升，但視頻預測的幻覺影響動作這個問題，業界還沒人去解決。

視頻預測不等于世界模型，真正的世界模型必須最終回歸到動作，而且要解決環境預測和三維空間內動作的一致性問題。

量子位：具身領域有沒有類似信息AI那樣的AGI目標？

丁文超：我最近也一直在思考這個問題。

現在有兩種AGI敘事。第一種是大水漫灌，模型能力慢慢提升，最后變成無所不能的通才。

但語言模型的實際形態告訴我們，它更像是個天才國度（a country of genius），在若干個子任務上有峰值很高，但落到縫隙里其實也就普通人水平。

我實驗下來的感覺，具身很可能也是這種形態，更像一片竹林，竹子越來越多、越來越密。但竹子之間的縫隙還是存在的，那些低谷部分，可能只能勉強達到人類水平，甚至略低。

有時我也會想，追求大水漫灌式的具身AGI，是不是我們未來十年的使命？

答案將留給實踐和時間。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

量子位

追蹤人工智能動態

12348文章數 176424關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

時尚

健康

親子

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

它石智航用“吉尼斯紀錄”交卷真干活的具身大腦

真干活的具身大腦

對話原文

Meta高管狂分百億期權，700名員工卻下崗

國防部：日本侵略過所有周邊國家 至今都沒有真正反省

國防部：日本侵略過所有周邊國家 至今都沒有真正反省

申京努力了，然而杜蘭特啊

張雪峰家人首發聲 不設追思會喪事從簡

長護險誰能享受？享受多少？解答來了

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

皮衣+裙，高級到炸

轉頭就暈的耳石癥，能開車上班嗎？

媽媽是時尚小達人爸爸是樸素老模范！我要當爸爸的專屬贊助人

國防部：日本侵略過所有周邊國家至今都沒有真正反省

國防部：日本侵略過所有周邊國家至今都沒有真正反省

張雪峰家人首發聲不設追思會喪事從簡