337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

它石智航用“吉尼斯紀錄”交卷真干活的具身大腦

0
分享至

Jay 李根 發自 凹非寺
量子位 | 公眾號 QbitAI

天使輪拿下2.42億美元后,它石智航到底干啥去了?

2025年年初,這家公司是資本市場毫無疑問的寵兒。天使輪融資額刷新紀錄,明星創始團隊,讓它石自創立之初,便一躍成為具身智能賽道炙手可熱的名字。

然而接下來的一年里,它石智航選擇了一條截然不同的路:沒有參加各種行業大會,沒有頻繁對外發聲,沒有出現在春晚或各類展示活動中,一直踏實干活。

一年后,這家以技術工程和產業落地集結的明星團隊,交出了答卷——

利刃出鞘,一鳴驚人。

它石A1機器人,1小時內完成亞毫米級柔性線束完整裝配任務百余次,創下全新吉尼斯世界紀錄。

一系列成果讓它石首次在線下亮相,便吸引了央視、新華網等頭部官媒的組團報道。



線束裝配,是地獄級的工業場景。

長程操作、柔性操作、亞毫米精度,不可能三角全部集齊,被喻為工業自動化界的「哥德巴赫猜想」。

時隔一年,高調亮相的它石,直接打爆了這個場景,如期兌現了對投資人的承諾。

而同樣是時隔一年,量子位也再次來到了上海——

從它石智航聯合創始人、首席科學家丁文超這里,獲得了關于這家公司更多的技術進展和背后的具身洞察。



真干活的具身大腦

當圈內還在爭論機器人何時能真正干活時,它石智航已用硬核技術,交出了答卷。

專攻干活,而且要干就干最難的。這是它石從創立之初就確立的技術路線。

它石為A1機器人選擇的挑戰,叫作亞毫米級線束裝配任務。

這是具身智能最兇險的試金石。

首先是精度

線束的孔位極小,容錯空間幾乎為零

機器稍有偏差,插不進去;力道稍大也不行,會損壞插接孔位。

其次,線是軟的

這和玻璃杯不一樣,你一碰,線會變形

因此,模型每走一步,面對的都是一個和上一秒截然不同的物理世界,傳統預先設計好軌跡的模式,在這里完全失靈。

而就是這樣難度的任務,還不是插接一根就能完事

線束少則十幾根,多則幾十根,每一根的插接狀態都會影響下一根的空間和角度。

丁文超把這類任務概括為具身智能的不可能三角。傳統工業自動化精度高但柔性弱,具身方案能做長程任務但精度差。

想要三者同時兼顧,難如登天。

而如今,它石不僅經受住了這一考驗,還將其徹底打穿,裝配效率創下吉尼斯世界紀錄。

甚至還保留了極高的「活人味」。



在他們發布的一次線束裝配「圖靈測試」中,超過50%的投票者都分不清到底哪個才是機器人,誤把選項A認作真人。



既能干活,又保證了動作的絲滑程度,這就是它石潛心鉆研一年所打造的具身大腦——

AWE 3.0。

這個名字,有兩處值得細細琢磨。

第一,AWE,全稱AI World Engine,AI世界引擎

不是VLA,也不是3D資產生成模型,而是一個真正意義上,能夠作為具身大腦的世界模型。

依托超十萬小時Human Centric數據訓練。

第二,3.0,對標GPT-3

采訪中,丁文超拿GPT的發展脈絡來做參照。

GPT-3做了兩件事:把聊天場景打磨到極致,同時指明了這條Scaling曲線的走向。GPT-3出現之后,已經沒人再懷疑LLM這條路。只不過GPT-3.5把它徹底引爆了。

AWE 3.0想做的,是同一個邏輯。

用線束裝配對標聊天場景,把它打爆,同時驗證模型在其他干活任務中的泛化能力。

丁文超坦言,做之前就清楚這是塊硬骨頭,但真正上手才發現,還是低估了難度。用傳統方法,幾乎不可能完成。

但也正是這座珠穆朗瑪峰般的里程碑,催生出突破,最終匯聚成AWE 3.0。

這個世界模型最核心的特點,叫隱空間

關鍵在于「隱」這個字。這是一個經過壓縮和抽象的中間世界,肉眼無法直接看到,對于具身智能來說卻是更本質的學習環境。

面對柔性操作中層出不窮的突發狀況,模型不再簡單模仿動作軌跡,而是在隱空間里持續推演未來的多種可能,再據此做出決策。

這和GPT-o1有幾分相似:在正式輸出答案之前,先在思維鏈里推理一遍。

丁文超把這個過程叫作「未動先想」。

這當然能提高整個系統的魯棒性,但出乎意料的是,在隱空間里思考的過程中,模型竟然涌現出一項全新的技能:自我糾錯(Failure Recovery)。

當插接力度或角度出現異常,機器人會把線拔出來,換個角度再試一次。

對于真實工業場景而言,這是一個象征著成熟度的關鍵信號:機器人會反思了

不再需要人手把手教,即便遇到超出訓練范圍的場景,機器人也能自己在嘗試中找到解法。

而這一切的實現,沒有用到一秒鐘的遙操數據。

全部是基于真人在真實場景中的實際操作,人類和機器人共享同一套感知體系。

長期以來,關于具身訓練數據,行業有個共識:遙操數據精度最高

丁文超卻說,在亞毫米級精度的任務上,這個結論完全站不住腳。

遙操作根本干不了亞毫米級的事,操作過程中會猶豫、抖動,反而變成了訓練數據中的「噪聲」。

的確,線束這個場景,要求太恐怖了。孔位極窄,對絲滑度的要求非常高。

但人能完成這個任務。

雖然不能百分百零偏差,但人的糾錯能力極強,可以在操作中感受阻力,并據此迅速調整角度和力度。

從第一性原理出發,丁文超指出,想要習得這種局部微調的能力,唯一方式,就是從真人身上采集數據。

這也是他在去年采訪中反復強調的Human Centric

一年過去,這一理念沒有發生變化,并且已經成功落地。

這就是它石今年的第二項成果,SenseHub數采套件



這是一套以人為中心的一體化數采套件

非常輕便,一雙手套,一個能夠固定在胸部或頭部的第一視角攝像頭,完全無需像遙操那樣進行專業培訓,哪怕是清潔工、超市員工,佩戴上就能成為采集員,也不會影響工作。勞動者在日常工作過程中,順手就能把數據采了,完全是“被動式”采集。

與此同時,它石發起具身數據星火計劃,邀請生態伙伴加入,基于Human Centric推進具身數據標準建設、共建Human Centric數據集,構建產業級數據共享生態。該計劃初期將匯聚超過1000萬小時的標準化優質數據,目標推動實現1億小時級別的數據共享



2026年,Human Centric正在從它石率先驗證的技術路線,快速演變為整個行業的共識。

具身智能的數據Scaling,這才剛剛拉開帷幕。

采訪結束,已是夜里十一點,其中一間小會議室里,董事長李震宇和CEO陳亦倫也在熱烈討論。

寒暄中,李震宇說這是創業后的常態。陳亦倫則幽默補充:一般這個點才剛開始,具身智能的征程,往往越聊越興奮。

剛剛亮相的技術和成果,無疑是它石智航「日新月異」的新起點。而負責技術研發推進的丁文超,給出了更多細節和實踐認知。

對話原文

量子位:A1刷新線束裝配吉尼斯世界紀錄令人印象深刻,研發過程中有什么挑戰?哪些環節比預想的要難?

丁文超:硬件遠比我們想象的要重要。

你可以把它理解成兩頭往中間靠的過程:

一方面,通過合理的數據組織、網絡訓練、網絡架構和任務設計,讓模型能人機通吃

另一方面,機器人自身也得往人的方向去靠,自由度、靈活度,還有響應的及時性。

最開始我們采購了很多市售關節回來測,結果發現,要么響應延時有問題,要么扭矩脈動太大。這些都會導致機器人沒辦法像人一樣靈活。

于是我們做了一個決定:從5月份開始,全棧硬件自研。

核心是兩塊。

第一是關節完全自己做,非常低的減速比、高精度、GAP極小的行星關節,這在市面上非常少見。

第二是靈巧手。很多手套數據用夾爪去映射,信息損失太大。所以我們在去年開始研發21自由度靈巧手,和人手完全匹配。

原本我們覺得,具身領域做硬件的公司那么多,產業鏈應該是成熟的。結果發現這個行業跟汽車工業相比,差距太大了。

品控、標準化、流程化,很多地方還處在草臺班子的狀態

量子位:有沒有什么是以前覺得很難,但實際下來,相對比自己預期、認知要容易一些的?

丁文超:我覺得有三方面。

第一個,剛才講過了,跨本體映射其實沒想象中那么難

這對業界是個反常識。直到今天,很多人還覺得人到機器人的跨本體映射是個大問題,但我們解決得還不錯。

第二,端到端網絡到底能做到什么精度?之前我們心里的答案是毫米級,但最近有了新突破,我們能做到亞毫米級。

這也是個反常識。大家一直覺得端到端網絡特別依賴數據驅動,精度上是不是不如傳統方法?事實證明不是。

還有第三點,以人為中心的生態擴展,比我預想的快得多

現在各家在追這種采集方式,投入都特別大。很多人在深入研究我們的數據采集套件。

本以為大家轉彎還需要時間。沒想到2026年,已經快成為以人為中心的數據采集元年了。

量子位:亞毫米級這個目標,是你們在實踐中發現可以做到,還是場景本身倒逼出來的?

丁文超:兩者都有,但倒逼的成分很大

線束插接場景本身就需要達到亞毫米級精度,逼著我們去想怎么讓網絡動作更連續、更絲滑,怎么實現failure recovery,插錯了也能局部微調重試。

這些能力,如果我們一開始選的是疊毛巾,可能永遠不會被逼出來

量子位:那現在已經實現了亞毫米級操作,如果讓模型去疊毛巾,需要重新學習嗎?

丁文超:真正的泛化,不只是模型本身的泛化,數據和模型的覆蓋范圍也要泛化

對外聚焦線束,是因為我們想先把這個場景徹底打穿。但其實從第一天起,我們就同步在工廠、物流、倉儲、洗衣房、酒店等多個場景采集數據,全部用于訓練。

那時很多投資人還有所保留,覺得把一個場景做深、完成商業化就夠了。但我們的判斷是:方法論層面的過擬合才是最致命的,模型的過擬合反而相對容易消解。

現在我們內部已經有N個可落地場景在并發推進,節奏比我自己預期的還要快。

量子位:具身智能的GPT時刻,怎么定義?

丁文超:去年聊這個詞的時候,大家還定義不清楚。現在我可以給一個更具體的描述:準Zero-shot時代

不是說推到一個新場景完全零基礎就能上,而是你已有的核心skills,在新場景里基本都能遷移、都能用。

對標語言模型,大概相當于GPT-3的水平;如果某些任務徹底打穿,可能就到GPT-3.5了。

這個時間點比大家預想的早,說實話,也比我自己的預期快。我們規劃的模型節奏是2.0、3.0、3.5、4.0,但我現在判斷3.5到4.0這段還會進一步加速。

兩個趨勢已經肉眼可見:一是泛化數據的持續積累,二是有限數據下模型能力的快速提升。

一旦準Zero-shot成立,機器人就不只能進工廠、做一個工序,而是可能同時覆蓋多個工序。C端機會也會更早涌現。

量子位:AWE2.0意味著什么?

丁文超:1.0是內部版本。2.0我們有點參考GPT-2的意味。

GPT-2代表早期Scaling Law成立,并且在一些任務上已經能蓋過Bert這類小模型。對我們來說,2.0意味著我們真正完成了跨本體部署,從Human Centric數據到模型訓練,再到機器人上的部署,這條鏈路跑通了。

3.0則不僅能夠看到線束場景打穿,還看到了其他若干場景的涌現;3.5是我們在其中幾個場景徹底打爆。

4.0就是去年跟大家講的世界引擎。為什么要同時預測環境和動作?最終是為了服務強化學習。模型充當自己的仿真器,自己預測環境、預測動作,做長程思考、高并發多場景并發推演。

量子位:AWE 3.0類比GPT系列的話,3.0相當于什么階段?

丁文超:GPT-3出來之后,已經沒有人懷疑這條路能不能走通,只是3.5才把它徹底引爆到終端用戶。

我們現在也處于類似的位置。AWE 3.0出來,加上接下來會發布的泛化任務,大家應該不再懷疑具身還會有Scaling的瓶頸,不再懷疑泛化能不能實現。

GPT-3最大的貢獻,就是把這條Scaling曲線的方向指明了。春江水暖鴨先知,真正關注GPT-3的人,那時候就已經開始投身大模型創業。

具身現在也到了這個時刻。

量子位:3.0出來之后,有沒有做同行評測或benchmark跑分?

丁文超:具身的benchmark現在說實話比較混亂,非常像早期的自動駕駛。

各家都說自己最牛,學術榜單持續存在,八仙過海各顯神通,每家都曾經拿過某個榜單的第一。但后來大家發現,榜單的第一第二根本沒意義。

具身現在正處于從第一階段邁向第二階段的節點。第一階段就是現在,大家在吹各種benchmark,但你仔細深挖評測指標和評測環境,會發現偏差非常嚴重。

我們內部有自己的benchmark體系,用in-house數據集和公開數據集,跟業界各個SOTA模型對比,包括閉環實驗。

從我們內部的橫向比較看,現在能公開接觸的模型,距離真正能干活的通用模型還有非常遠的距離。

隨著具身從垂直場景走向多場景、走向更C端,橫評時代很快就會來臨。

量子位:具身智能的Scaling Law,好像跟當年GPT引發的風潮不太一樣。GPT時代越做越大,但具身領域卻出現了做得更小更精的方向,你怎么看?

丁文超:Scaling Law要拆成三個階段:數據Scaling、參數Scaling,以及推理Scaling

對具身來說,數據Scaling Law的紅利遠遠還沒吃完

現在大家覺得具身模型的方差比較大,小模型有時候反而好,大模型反而差,根本原因是第一波紅利沒吃完。

數據Scaling沒做扎實的時候,模型Scaling就處于一種不穩固的狀態,很容易掉進局部最優,導致各種noise和方差。

但只要把數據Scaling做得足夠扎實,大模型能力強于小模型,這是毫無疑問的。

如果2026、2027年大家解決了數據Scaling Law的問題,大家一定會想方設法擴張模型。

量子位:那如今數據Scaling Law的瓶頸在哪?

丁文超:最大的問題是量級。

遙操作有一個致命問題:它不會激勵你去解決跨本體的問題。硬件一升級,之前的遙操作數據不能復用。所以想靠遙操達到千萬小時級別,根本不可能。

真正的鑰匙,是Human Centric

我們內部的數據量確實漲得很快,我們也發起了星火聯盟數據生態計劃,讓更多人參與進來一起迭代。

現在我們在沖刺的目標就是千萬小時級別,我們想要的收益,就是把模型推到一個新任務、新地方,能以準專業的狀態把任務基本完成。

量子位:所以數據Scaling Law沒有兌現,也就證明了仿真合成數據、遙操作數據這條路走不通?

丁文超:是的,我非常有信心表達這個觀點。

今天我可以直接告訴大家:真實場景里無處不在的Human Centric數據,一定會帶來第一波巨大的數據紅利。

全球首個能干活的具身超級大腦AWE3.0誕生

量子位:AWE 3.0這個模型,參數量和主要特點是什么?

丁文超:第一,模型size和數據量之間有一個對應關系。30B能吸收接近百萬小時,100B以上才能吸收千萬小時級別



數據節奏、模型節奏,兩者必須齊頭并進。

第二,這個模型應該是目前市面上推理速度最快的同規模模型,通過隱空間內異步動作輸出的方式,輸出效率可以做到十倍以上

這一點非常反常識。大家以前覺得要實現絲滑運行,必須靠大小腦雙系統,大腦低頻推理,小腦高頻執行,兩者割裂配合。

但我們是一個模型,橋梁是隱空間里的隱變量。

量子位:隱空間內的動作輸出,是一開始就設計好的,還是實踐中摸索出來的?

丁文超:完全是實踐中的認知。

最初我們只是想到模型要同時預測環境和動作,但線束任務對絲滑度的要求極高,倒逼我們去想:模型這么大,怎么還能做到這么流暢?

從第一性原理看,雙系統大小腦本質上還是兩個不相干的東西湊在一起。我們還是想在統一的模型架構里解決這個問題,最終就催生了在隱空間這條路。

量子位:去年聊的時候還沒那么篤定要all-in-one,現在已經是確定的方向了?

丁文超:把所有東西集成在一個模型里,肯定是大趨勢。大小腦的融合也是必然方向。

我甚至覺得,具身領域將來會涌現出自己的原生基礎模型。

你看現在業界所有模型,本質上都是外來戶。VLA是把VLM搬過來加一個action頭;world action model、video action model是把視頻預測模型搬過來,再拼一個動作輸出。

這些“外來和尚”在具身領域遇到的問題都很類似。

VLA的問題是泛化,到一個新場景,action需要大量新場景數據才能變好。

video action model大家現在討論得還不多,但我可以預告一下:第一,視頻預測的幻覺會影響動作質量;第二,視頻預測很難維護精細的空間結構,導致模型最終還是在記動作。

原生模型可以完全避開這兩個問題。我們所有數據天然就是視覺、語言、動作三種模態對齊的,訓練時可以在任意模態之間互相轉換。

vision to vision是視頻預測,vision+language to action是端到端,vision+language to vision+action就是世界模型。

現有的所有范式,在這套框架下得到了大一統,也沒有VLM強行加action head帶來的那種割裂感。

量子位:你說VLM、video action model會遇到這些問題,是思想實驗,還是你們真的踩過坑?

丁文超:兩者結合。

第一,我從第一性原理判斷它必然會有這些問題。

第二,我們有一個不小的research team,會持續跟蹤業界所有SOTA方法,包括VLA、視頻動作模型、世界動作模型,全部納入我們自己的benchmark。

我們每發一版模型,都會在N個任務上跟現有SOTA做比較。

另外我想補充一點:談原生模型,前提是你有沒有足夠的數據。原生模型玩的就是數據,追求的是三種模態完美對齊。

量子位:當前的模型規模,是數據量決定了它,還是先定了規模再去配數據?

丁文超:是在實操中摸出來的。我們的數據量和模型規模都是一點點往上漲,慢慢發現數據漲到一定規模,模型size就需要提升到下一個level才能繼續吸收。

這個對應關系,是從自動駕駛時代積累的經驗,加上具身這邊數據量快速增長的實踐,綜合感受出來的。

量子位:你們內部評價模型好壞的標準是什么?

丁文超:三個維度。

第一是成功率,這是一切的基準。

第二是完成效率,因為我們第一個場景是要真正落地工廠的。

第三是類人性,賞心悅目也是指標。

有意思的是,我們在線束插接這個子任務上,效率已經超過人了。

這里面有個trick:人沒法左手畫圓右手畫方,但機器人可以,通過對數據合理的組織,我們讓機器人做到了雙手并行,這樣自然就比人快。

量子位:類人性這個維度很有意思,你加這個指標是為了讓動作更絲滑,還是有更深的考量?

丁文超:第一性原理上,你追求絲滑,追求看起來像人,最終都是為了讓機器人真正進入人類社會。

去年你也問過我機器人最終的形態會是什么,我當時說擬人形是大趨勢

哪怕在垂直場景有特制形態,完成動作的方式也應該貼近人,這種親和性是人類社會的一種剛需

你看現在大家為什么喜歡看機器人跳舞?因為它給人的感覺像自己。

展會上我們的雙足機器人只要出來,現場就圍得人山人海。

哪怕是從貨架上抓一個水瓶,這個動作可以很機械,也可以很絲滑,給人的感官完全不同,人想要使用它、信賴它的欲望也完全不同。

所以類人性這個指標,一方面是在評價模型能力,另一方面,對于人和機器人將來真正共生,也是非常關鍵的一點。

量子位:訓練成本對一家創業公司來說,壓力大嗎?

丁文超:好鋼用在刀刃上。我們沒有一口氣鋪幾千張卡漫無目的地訓,而是隨著數據量上升,看到模型吃不住了再加參數,每一個實驗都仔細評估價值。

我們的目標是打經濟仗,在有限投入下拿最大ROI

具身的生命周期可能比自動駕駛還要長,上面可能有若干次決戰,所以彈藥和糧草必須存夠,每一次決戰都要有主動出擊的能力。

支撐具身智能的基石,超級數據范式Human Centric

量子位:數據質量的把控,你們是怎么做的?

丁文超:這件事比很多人想象的要難得多。

Human Centric意味著采集主體是人,不像設備那么可控。我們早期就遇到過,現場工作人員被動式采集,結果在現場玩了15分鐘手機

后來,我們在采前、采中做了工作。

采前是約法三章,現場培訓,明確哪些行為不允許。

采中是在APP上做監測,檢測到異常狀態就報警

這樣基本上能把八九成的問題篩掉,后端數據產線的利用率會非常高。

量子位:AWE 3.0的訓練數據,全部是Human Centric采集的嗎?還是有一些配比?

丁文超:這里有個反常識的結論。

大家一直認為遙操作數據精度最高,Human Centric數據精度上是短板。但在亞毫米級任務上,結論完全相反

遙操作根本干不了亞毫米級的事,操作過程中會猶豫、抖動,反而變成了噪聲。我們亞毫米級的模型,完全是用Human Centric數據訓練的。

隨著我們把更多場景擴展開,靠Human Centric數據支撐整個模型訓練到部署,完全可以做到。

量子位:所以后續模型迭代,核心就是數據量級的持續擴展?

丁文超:對,以前大家總想著數據有一座金字塔,高質量數據、中等數據、大規模數據各種配比,搞得很復雜。

但我覺得未來可能根本沒有什么數據金字塔。你把一種數據打磨到極致,把所有細節做好,質量可能比配比來的數據要高。

量子位:那為什么此前行業里會形成數據金字塔這樣的共識?

丁文超:任何一個細節沒做好,都會給你帶來錯誤的結論。

Human Centric數據要做到亞毫米級精度,門檻極高

佩戴在人身上,要把動作完整恢復出來,傳感器同步、標定、云端自動化標注算法,每一個環節都不能出問題。

現在業界大多都還沒搞清楚怎么把Human Centric數據做到很高精度,更不用談后面部署到機器人上完成閉環任務。

量子位:遙操作數據的成本應該比Human Centric低吧?

丁文超:恰恰相反,遙操作數據的成本遠高于Human Centric。

你算一下遙操作的成本:得買一臺機器人,得有數采中心或者把機器人推到現場,還得有專業遙操員。

遙操員這個行業現在慢慢興起,但流失率很高,工作枯燥,培訓一個新遙操員又要一兩個月。

Human Centric完全不同。

采集者可以是清潔阿姨、超市工作人員。他們戴上數采手套就能在日常工作中順帶完成數據采集。

量子位:你們選擇了開放這個生態,如果有更大體量的玩家來懟數據,會削弱你們的護城河嗎?

丁文超:正確的方法論,別人終究會擠進來。與其守住硬件設備,不如把門檻真正建立在AI上。

就像大模型訓練一樣,大家都知道怎么訓,但最終訓出來的模型差異還是會體現出來,這就是不傳之秘。

量子位:線束這個模型,大概學習了多久?

丁文超:與其說訓練了多久,不如說是隨著數據量級持續提升的一個過程。

大概時間線是這樣:AWE 2.0從去年年中開始,那時候Human Centric的采集、訓練、部署已經走通了。



從AWE 2.0到AWE 3.0明顯加快了,數據運轉更順,模型上也有很多新感覺涌現出來,年后沒多久就在3月發布了AWE 3.0。

這也是為什么我判斷后面節奏會進一步加速,隨著數據量越來越大、模型越來越成熟,智能涌現的時間也會縮短。

量子位:Sergey那篇關于叉勺(Spork)的博客你看了是什么感受?

丁文超:有些觀點我同意。

仿真數據沒用。Sergey自己也采了幾千小時數據,是真正走過這個過程的人,他知道機器人部署到真實世界需要多少數據、怎么才能泛化。

他說仿真是叉勺,勺子能喝湯、叉子能插牛排,但集成為叉勺,又什么都干不好,這個比喻我覺得很恰當。

分歧在于:有了真實數據之后,怎么高效利用?

他的路徑是遙操作獲取基礎數據,加上大規模真機強化學習,我對這條路是有疑問的。

所以答案就是,大的方向上有共鳴:真實世界的數據才是走向泛化的金鑰匙。

但怎么把數據閉環魯棒性提升、真正走向規模化商業落地,路徑是不同的。

量子位:這種路徑差異,會不會有中國與硅谷環境不同的原因?中國有更豐富的人力資源,所以可以做Human Centric采集。

丁文超:有這個因素,但不是全部原因。

早期Generalist這類公司還在宣傳幾十萬小時數據,現在有些硅谷公司開始說我只需要10小時、20小時數據就夠了。26、27年這個分歧會越來越明顯。

但讓我比較驚訝的是Generalist,作為在硅谷的公司同樣堅定走Human Centric路線,而且scale在10萬小時級別以上。所以環境不是決定性因素,更深層的原因可能是慣性。

量子位:達到什么樣的數據量級,才能支撐到你們說的4.0水平?

丁文超:具身比自駕復雜得多,本體自由度更高,是復雜3D環境,還有大量密集的contact操作,場景豐富度也更高。根據我們現在的實踐經驗,具身所需的數據量至少是自動駕駛數據量級的10倍。

具身可能有三個坎:

10萬小時是模型能力不錯;100萬小時是準產品級,可以deliver給各種用戶;1000萬小時之后,數據Scaling law的討論會變少,大家開始討論模型架構,前沿公司開始做強化學習。

量子位:具身的數據采集比自動駕駛復雜得多,你們怎么保證采集質量和覆蓋度?

丁文超:我們有一套自動化調度系統,每天匯總返回來的數據,check場景覆蓋了哪些、任務做了哪些、動作pattern的分布,然后第二天針對性補缺,再去采。

這套系統保證我們不會偏科,不會在一個場景過度采集,那樣重復度太高,變成同質化數據,不是有效的scale。

量子位:采集過程中有沒有讓你意外的地方?

丁文超:人的行為實在太豐富了。越采集,越對人的行為產生敬畏。

遙操作相當于帶著義肢去操作,很多人的本能行為在那個狀態下都會變形。但如果直接從人身上采,你會發現人很多日常動作里藏著大量自己都沒意識到的操作智慧。

最讓我印象深的是failure recovery。人的精度并不是絕對的,移了1厘米還是1.5厘米其實自己不一定知道。但人的局部微調能力極強,出了問題能自然地調整修正。

這也是為什么我們一定要把人的行為原原本本全量記錄,所以我們做了五指采集手套;執行器也必須能原原本本還原人的行為,所以要做21自由度靈巧手

超級本體,為AI而生

量子位:手套和靈巧手之間是什么關系?

丁文超:完全鏡像。手套捕捉人手的完整自由度,有兩個核心優勢:一是能采集末端觸覺,二是無懼遮擋。

用VR眼鏡采集,手一擋就丟失數據。手套不存在這個問題。

靈巧手這邊,人手大概20到21個自由度,做到這個數字基本就能描繪人手所有運動,這就是為什么大家都在追求20自由度以上。

我舉個例子。我們展示的刺繡任務里有個頂針動作,夾爪很難做。縫紉工人為什么戴扳指?就是為了捏住針之后用指頭把它頂過去。

夾爪只能夾,沒法頂,所以用夾爪做刺繡就要繞很多彎路。這就是手的價值。

量子位:靈巧手研發難度怎么樣?

丁文超:挺有挑戰的。在這么小的空間內實現這么高的自由度,技術路徑本身就有爭議,準直驅還是繩驅,電機設計、減速器設計……都是一點點摸索出來的。

線束場景倒逼我們把Human Centric逼到亞毫米級,而靈巧手,倒逼我們把電機和減速器的設計制造能力逼到極限。

我們應該是目前世界上屈指可數可以做到準直驅、高自由度、還能集成到人手尺寸的公司。今年ICRA(機器人國際頂會)我們會對外展示。



量子位:靈巧手解決之后,會解鎖哪些場景?

丁文超:線束場景里我們現在用夾爪完成的工序大概覆蓋70%的任務,剩下的比如纏膠、理線,手會方便很多。

如果真的想做通用工業解決方案,繞不開靈巧手。

量子位:為什么機器人手都做五根手指,不做六根七根?

丁文超:六根手指,數據就對不上了。你從人身上采不到六指數據,還得自己造數據,邊際效應馬上就顯現

所以機器人手的自由度大概率是小于等于人手,這樣才能最大化利用Human Centric數據。

量子位:手的終極目標是什么?

丁文超:人手能做的任何動作,靈巧手都能做出來。全身人形其實現在已經基本可以做到動作模仿,手也在朝這個目標走。剩下的問題就是手腦協同。

量子位:你們有A和T兩個系列,各自的優勢是什么?

丁文超:T是雙足,A是輪式雙臂。

本體層面,各家整機設計現在其實收斂了,差異沒那么大。我們比較有特色的是關節。

以前大家設計關節,電機扭矩、減速比都是越大越好。但我們發現本質上是一個distribution match(分布匹配)的過程:你要讓機器人執行動作的空間和流暢度,盡可能貼近人的數據分布。

把這個目標拆解,整機構型大家都差不多是擬人型,真正關鍵的就是關節,包括末端靈巧手關節到核心關節。

機器人本體你可以理解成以關節為核心的一堆連接件,關節才是一切。

遙操作會天然把你降速,你感受不到機器人還需要變得更好。

但一旦你采集的是人的數據,你就會永遠想讓機器人去匹配人的動作分布,這個驅動力就會持續逼著你把關節做得更好。

量子位:本體為AI而生,怎么理解?

丁文超:傳統的本體設計是正向的,關節要出多大扭矩、減速比定多少,憑感覺來。

為AI而生是反向推導。我們采集了大量人的數據,知道人在完成各種任務時末端需要多大力度、多快速度,這形成了一個distribution A。

我們設計本體,就是讓機器人的工作空間、力輸出、運動速度形成的distribution B,盡可能去匹配distribution A。這樣AI模型在上面適配,遷移會更順滑。

這本質上是個雙向奔赴的過程。一邊是模型通過空間預訓練、全身端到端、各種技巧讓遷移更魯棒;另一邊是硬件朝人靠攏。兩者同時收緊,中間的gap才能消掉。

量子位:當初為什么選線束這么難的場景?

丁文超:真正觸動我們的,是親眼在線束工廠看到的那一幕:密密麻麻全是人,空氣里彌漫著汗味,工人非常忙碌。

我們也訪談了工人,他們自己干得很痛苦。插線的錯誤率大約是千分之三,但只要一根線插錯,整條線束就要重做。

工人壓力很大,流失率極高,幾個月就換一批人,管理成本也居高不下。

我們當時調研了很多場景,判斷標準很簡單:有沒有大量的人在干這件事?線束完全符合,這是真需求。

第一步是從需求出發,第二步才分析這個任務有沒有門檻,發現它兼具長程、柔性、高精度,確實很難。但我們對自己這個團隊有信心,決定去磕它。

早期有很多人不看好,覺得太精細了。但畢竟之前沒有人展示過具身能在這么精細的任務上持續穩定工作,有這個反應也很正常。

量子位:你們有沒有Plan B,一個比線束更容易的場景?

丁文超:選了線束之后,我們沒有給自己想過退路

我覺得這一代具身智能的價值就在這兒:解決柔性、長程、高精度三者兼具的問題。

任何不滿足這三個特質的場景,傳統自動化都能解決,不需要具身智能。你可以沿著這個邏輯去審視市面上各家具身的落地場景。

線束通了,其他場景是能力外溢的問題。成功率、精度、柔性外溢出去,很多裝配場景雖然沒有線束那么極端,但也有毫米級子動作、多工序要求,我們的能力是夠用的。



量子位:批量化落地的核心挑戰是什么?

丁文超:大腦的量產。

以前機器人公司有量產經驗的都集中在小腦,解決本體一致性、產線問題,這些路已經探得差不多了。

大腦的量產是新問題,不僅是硬件量產,還包括模型能力的量產。

比如硬件之間稍有差異,模型還得能泛化。還有一個更少人想過的問題:生命周期內的泛化

機器人在客戶現場用久了會有損耗,響應特性會變化,你的模型隨著機器狀態的改變,還能不能穩定工作?這個維度,現在很多人都還沒考慮過。

量子位:你們做了數據、模型、本體、關節、靈巧手,每一塊拆開都能做一家獨角獸,你們怎么定位自己?

丁文超:我們不是一家生態公司,初衷完全不同。

如果是為了做生態而做生態,你每一塊都不會追求極致。但我們是真的想解決問題,還是第一性原理出發,這才驅動我們把每件事做到極限。

如果我們把自己定位成生態公司,我們沒必要把減速比、自由度這些東西推到極致,能賣出去滿足基本需求就行了。但這兩種做法,差異性很大。

量子位:隨著規模變大,你們怎么平衡敏捷和復雜度?

丁文超:我對具身行業有個3+3+3的判斷。前三年是認知收斂期,現在到接下來三年是打硬仗期,再往后三年是淘汰賽

現在這個階段,技術路徑逐漸收斂,會催生硬件平臺的標準化。我們現在做關節、做手,某種程度上是在牽引這個標準的制定。

但這些標準在兩三年內會慢慢固化,固化之后各個子部件會有更多能力外溢。

大廠下場也會加速這個過程,他們的標準化經驗會推動行業收斂更快。

當前最關鍵的還是兩件事:第一,在工廠里證明真的能干活;第二,對未來有想象力。

大腦時代開啟,它石已讓具身智能真干活

量子位:過去一年有什么讓你興奮的進展?

丁文超:具身大腦上的競爭激烈度會上升得很快,這讓我興奮也讓我警惕。

說實話,中國整體的大腦進展是慢于硅谷的

中國最成熟的是本體和小腦,在大腦上有原創性創新的公司非常稀缺。

硅谷陸續涌現一些公司,不追求本體硬件能力,專注刷大腦,Generalist這類進展很快。

過去一年我們絕大多數精力都投入在大腦上,就是因為意識到大腦能力的決定性作用。

量子位:春晚上機器人那么熱鬧,你怎么看?

丁文超:兩點感受。

第一,友商的表現讓我覺得,本體和小腦的競賽基本上已經結束了。再給其他公司6到12個月,大家都能達到類似水平。

雖然還有很多公司在往里沖,但問題已經收斂,只不過各家時間上滯后幾個月而已。

第二,大腦時代開始了。這對行業是好事,因為人們一直低估了具身的行業價值。

以前大家的估值邏輯很粗,就是能賣多少臺機器人。但一旦具身大腦真的能批量轉換生產力,整個估值邏輯要重寫。

我覺得大腦的引擎完全可以接住第二波增長,整體價值還會繼續往上走。3+3+3,淘汰賽最終還是會來。

量子位:你們希望外界給你們貼什么標簽?

丁文超:能干活的具身通用大腦。

具身的本質是把AI賦予物理實體,讓它在生產生活中發揮價值。我們想做的是智能程度高、有自主能力、能真正幫助人的大腦公司。

加上能干活這三個字,是因為現在說自己是具身大腦公司的太多了,得有個金標準。能不能穩定、可靠、高效地干活,就是這個金標準。



現在很多是披著干活外衣的表演,我們想和這類劃清界限。

量子位:家庭機器人還有多遠?

丁文超:我覺得快的話有可能小于3年,是因為我真實感知到了技術發展的加速,這個事情是會實現的。

量子位:物理AI要達到現在信息AI那個水平,需要多少數據?

丁文超:千萬小時。

不是重復性的數據,是按場景和工序控制過多樣性的千萬小時。

量子位:遙操作數據重復性太高,這是行業里另一層泡沫嗎?

丁文超:對,遙操作深受其害。遙操作數據大部分來自數采中心,數據多樣性取決于數采中心的裝修頻率,現在裝修最快的也就一個月一次。

量子位:自由度軍備競賽,你們會卷嗎?

丁文超:自由度能匹配人就夠了,不是越多越好。

軀干大概20多個自由度,單手也是20多個,把機器人末端送到三維空間某個姿態,現在大多數機器人都具備這個能力。

真正的問題是末端到了之后,能不能靈巧地和物體交互完成任務。所以末端自由度才是關鍵,現在很多人在全身自由度上卷,有點舍本逐末。

量子位:你們從一開始就站世界模型這個方向,原因是什么?

丁文超:是被Human Centric逼出來的。

我當時在思考,什么樣的模型才能吸收這么多Human Centric數據?

單純的動作模仿很難學到人運動的精髓,泛化性和跨環境遷移都很弱。我們測評了各種VLA,發現過擬合太嚴重。

現在大家說世界模型,定義本身還很模糊

很多人問我:李飛飛那種算不算世界模型?我覺得李飛飛推出的世界模型,更多是基于空間的維度做生成及渲染,而具身則需要落實到我們所處時空的具體動作上。

Marble只是對空間有預測能力,但具身最終要落到動作上,這是很大的差異。即便對未來假想得很好,但動作很可能還是不行。

最新的學術工作中,雖然說指標上會有提升,但視頻預測的幻覺影響動作這個問題,業界還沒人去解決。

視頻預測不等于世界模型,真正的世界模型必須最終回歸到動作,而且要解決環境預測和三維空間內動作的一致性問題。

量子位:具身領域有沒有類似信息AI那樣的AGI目標?

丁文超:我最近也一直在思考這個問題。

現在有兩種AGI敘事。第一種是大水漫灌,模型能力慢慢提升,最后變成無所不能的通才。

但語言模型的實際形態告訴我們,它更像是個天才國度(a country of genius),在若干個子任務上有峰值很高,但落到縫隙里其實也就普通人水平。

我實驗下來的感覺,具身很可能也是這種形態,更像一片竹林,竹子越來越多、越來越密。但竹子之間的縫隙還是存在的,那些低谷部分,可能只能勉強達到人類水平,甚至略低。

有時我也會想,追求大水漫灌式的具身AGI,是不是我們未來十年的使命?

答案將留給實踐和時間。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗新最高領袖莫賈塔巴哈梅內伊已同意與美國進行談判并達成協議

伊朗新最高領袖莫賈塔巴哈梅內伊已同意與美國進行談判并達成協議

深度報
2026-03-25 22:47:08
55年授銜,當主席看到名單中有個熟悉的名字,大筆一揮:他不是少將

55年授銜,當主席看到名單中有個熟悉的名字,大筆一揮:他不是少將

睡前講故事
2025-12-12 13:58:11
春天,這堿性菜再貴也要多吃,殺菌強免疫,補鈣補鉀兩不誤,好吃

春天,這堿性菜再貴也要多吃,殺菌強免疫,補鈣補鉀兩不誤,好吃

阿龍美食記
2026-03-25 10:38:40
中方是否了解美伊磋商情況?外交部:支持一切有利緩局降溫的努力

中方是否了解美伊磋商情況?外交部:支持一切有利緩局降溫的努力

澎湃新聞
2026-03-26 15:32:26
女同主播出軌大哥 被"正宮"直播對質!真實長相曝光

女同主播出軌大哥 被"正宮"直播對質!真實長相曝光

游民星空
2026-03-25 20:08:13
為滿足中國臺灣地區F-16V訂單需求,洛馬公司開始實行兩班倒生產

為滿足中國臺灣地區F-16V訂單需求,洛馬公司開始實行兩班倒生產

零度Military
2026-03-25 18:51:44
耗時八年終握手,歐盟與澳大利亞決心已下,要將中美劃到同一陣營

耗時八年終握手,歐盟與澳大利亞決心已下,要將中美劃到同一陣營

策略述
2026-03-26 16:35:30
電飯鍋哪個牌子質量好?2026電飯煲排名前十盤點!大眾主流精選

電飯鍋哪個牌子質量好?2026電飯煲排名前十盤點!大眾主流精選

小柱解說游戲
2026-03-25 17:56:15
拉里賈尼繼任者不到一天被殺,川普加派82空降師開赴中東

拉里賈尼繼任者不到一天被殺,川普加派82空降師開赴中東

移光幻影
2026-03-26 09:56:37
中國最丑18大建筑:南京衛生巾、昆山螃蟹,不忍直視!

中國最丑18大建筑:南京衛生巾、昆山螃蟹,不忍直視!

秘密即將揭曉
2026-03-25 16:56:26
9中9轟20+9+5!楊瀚森付出一切遭庫克坑苦 G聯賽首次百分百命中率

9中9轟20+9+5!楊瀚森付出一切遭庫克坑苦 G聯賽首次百分百命中率

顏小白的籃球夢
2026-03-26 10:15:13
1976年播報毛主席訃告,播音員念完三遍后突然冒出一句話,全國都慌了

1976年播報毛主席訃告,播音員念完三遍后突然冒出一句話,全國都慌了

文史明鑒
2026-03-25 19:14:13
維護主權、為國家創收,伊朗尋求對霍爾木茲通行船只收費

維護主權、為國家創收,伊朗尋求對霍爾木茲通行船只收費

界面新聞
2026-03-26 09:34:36
閉眼隔扣+戲耍兩人后嘲諷拉滿!41歲詹皇23+9+9 在場+24湖人封王

閉眼隔扣+戲耍兩人后嘲諷拉滿!41歲詹皇23+9+9 在場+24湖人封王

顏小白的籃球夢
2026-03-26 09:40:23
實錘了!殲10C飛行員明確披露,我軍預警機可直接制導空空彈

實錘了!殲10C飛行員明確披露,我軍預警機可直接制導空空彈

策略述
2026-03-25 14:07:39
張雪峰經典名言 100 條(完整版)

張雪峰經典名言 100 條(完整版)

新浪財經
2026-03-25 06:17:25
公職人員下班后這5種行為,將嚴肅處理,千萬別踩紅線!

公職人員下班后這5種行為,將嚴肅處理,千萬別踩紅線!

細說職場
2026-03-26 11:13:03
41歲張雪峰離世,峰學蔚來接班人正式浮出水面

41歲張雪峰離世,峰學蔚來接班人正式浮出水面

秋姐居
2026-03-25 17:02:04
好辣眼睛!黃多多穿三點式泳裝,20歲身材矮小,在國外思想開放

好辣眼睛!黃多多穿三點式泳裝,20歲身材矮小,在國外思想開放

章眽八卦
2026-03-26 13:22:27
張康陽現狀證明,不怕富二代躺平就怕有野心,僅5年千億身價歸零

張康陽現狀證明,不怕富二代躺平就怕有野心,僅5年千億身價歸零

青杉依舊啊啊
2026-03-19 22:10:26
2026-03-26 17:12:49
量子位 incentive-icons
量子位
追蹤人工智能動態
12348文章數 176424關注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權,700名員工卻下崗

頭條要聞

國防部:日本侵略過所有周邊國家 至今都沒有真正反省

頭條要聞

國防部:日本侵略過所有周邊國家 至今都沒有真正反省

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

張雪峰家人首發聲 不設追思會喪事從簡

財經要聞

長護險誰能享受?享受多少?解答來了

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

教育
時尚
健康
親子
公開課

教育要聞

2026湖北高職單招工作啟動

皮衣+裙,高級到炸

轉頭就暈的耳石癥,能開車上班嗎?

親子要聞

媽媽是時尚小達人爸爸是樸素老模范!我要當爸爸的專屬贊助人

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版