337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

“26年具身智能,做不過來根本做不過來”:含陶大程教授獨家專訪

0
分享至







2026年具身智能這么熱,

美國舊金山PIRobotics這家機器人創業公司,

你真得知道。

我也??此麄儓F隊發的新模型,

當然,很多國內具身智能小伙伴,

比我關注多了,

因為這家公司走開源路線,

有些東西國內也能跟著用。

公司投入大,工作扎實,高速發展,

是一個很好的觀察行業的“錨點”。

用新聞體說,就是,

PhysicalIntelligence是美國具身智能領域的翹楚,

(簡稱PI或π),他們家的模型叫π系列。



講真,機器人還沒有真正的記憶系統。

當然,有些短的記憶,

也能記清楚一些事情的先后順序。

這里有兩個概念,請看漫畫:



為啥說沒有記憶系統呢?

要么沒法存數分鐘到數小時的任務情況(上下文),

要么堆砌大量原始數據,導致反應遲緩。

這也是為什么大多數具身智能干活,

只能在“嚴格控制“幾分鐘”“短任務”里打轉,

還有說法是單點任務(技能)還行。

多個子任務串聯,

長時間,多階段就尷尬了。

也就是說,即便當下的模型,

單步技能點數很高,

但在面對長達十幾分鐘,

跨多個階段的任務時,

它們往往表現得像“金魚”:

只能記住最近幾秒鐘的視覺信息(攝像頭畫面里),

一旦時間長,

即使是最先進的機器人也會丟失狀態,

導致錯判和重復錯誤。



機器人干活缺啥能力?

第一,先前啥狀態;

第二,規劃后續做啥動作;

第三,環境變了,怎么動態調整;

真實環境從來不簡單。

我說得很婉轉,

在文藝晚會舞臺上跳舞的機器人,

這類機器人在仿真系統提升能力,

技能點很單一。

而在受限環境下行動,

換個新環境干別的活,

恐怕要犯老年癡呆。

35歲以上排隊領雞蛋的老年人表示,

這是史上被黑的最慘的一次。

對機器人來說,和金魚一樣的記憶力是不夠的。

1.記不住過去做過啥(步驟);

2.一件東西,攝像頭照的那個區里看不見,

以前放哪也不記得了。





PI機器人的記憶模塊,

居然是可插拔的?

是的。

我觀察PI團隊,

是在模型大版本迭代后,

才單獨推出了一個可插拔的模塊,

(叫MEM,Multi-scaleEmbodiedMemory)。

按道理,應該和大版本一起推出,

然而并沒有。

中科視語CEO趙朝陽博士告訴我,

PI公司的模型,從π0.5到π0.6,

技術提升點很多,

記憶模塊并不在其中,

一方面是值得單獨拿出來解決,

另一個比較合理的解釋,

就是做大版本的時候,

這個模塊,還沒有準備好;

AI行業主打一個,

沖刺總在截止日期前,

每家AI公司都一樣,

好在,記憶模塊(MEM)是相對獨立的。

“記憶模塊是一個必備的技能。

所以只不過是去年這個節點上,

我們認為記憶這件事兒在具身上也可以弄了,

不像原來那樣那么虛了。”

誰不想要記憶模塊呢,

我也想要。

所以,有了記憶模塊有啥好?

以前的記憶技術要么只記細節記不住流程,

要么只記流程沒細節,

記憶模塊(MEM)直接全搞定,

還解決了兩個大問題:

第一,不卡殼。

視頻編碼器優化了速度,

哪怕處理多攝像頭畫面,

反應延遲也低。

第二,不翻車。

多源數據訓練避免了“記混動作”,

加了記憶還不影響操作精度,

以前加記憶會變慢的毛病徹底根治。

說實話,這都是長期困擾業界的難題。

似乎人人都在“記憶”上下功夫,

兩個月前,開源團隊Deepseek,

也推出了人家的記憶模塊(Engram)。

市面上的知名團隊都在下“記憶力”的功夫。

看上去,“記住”將是智能的下一個拐點。

從學術到產業,

圍繞AI記憶能力的研究正在迅速積聚。

具身智能也沒落下。





中科紫東太初具身智能部門負責人,

劉榮博士告訴我:

“大家緊盯著VLA狂卷,

因為VLA本身的難點實在也很多?!?/p>

具身智能常用的模型類型就是,

視覺-語言-動作一體化,簡稱VLA;

俗稱技術路線。

這個類型的模型,

核心概念已經清晰,

但方法、優化、跨任務能力仍在優化。

我的觀點是,該技術(模型)處于快速迭代階段,

其實目前這個架構不錯,

紅利還沒有吃完。

所以,大家都在這條道路上狂奔。

當然,還是得和行業一線專家聊一下。

中科紫東太初董事長王金橋,

他給了我更本質的理解:

“這個架構只是科研人員,

沿襲著大模型大力出奇跡的思路,

慣性探索,技術路線遠沒有定型?!?/p>

而中科紫東太初具身智能部門負責人,

劉榮博士告訴我:

“實現方法、跨本體跨任務能力仍要優化?!?/p>

我又和中科視語CEO趙朝陽博士,

聊了如何兼顧研發和工程實戰的打法:

一種思路,要么模型(VLA),

直接輸出機器人行動,

模型把“看到的東西,

得到的指令”和“該怎么動”,

結合在一起思考+行動,

視覺模塊,讓它知道所處環境長什么樣,

語言模塊,讓它理解任務目標,

動作模塊則把理解變成行為。



另一種思路,也是參考行業標桿,

FigureAI的路線。

要么用VLM+VLA,

追求極致工程化,

VLM模型協調指揮,決策判斷,

VLA模型負責單步動作執行,

如,拉開冰箱門是一個單步技術點,;

關上則可能是另一個。

而打掃客廳衛生,就涉及到客廳多大,

窗戶多高,幾件家具之類;

打掃客廳衛生,需要先擦玻璃、擦桌子,

再掃地,最后拖地。

沒做過保潔的人可能壓根不知道,

地,從來都是留到最后拖的。

沒搞過科研學術的人可能壓根不知道,

小環節小動作,都是“多個子任務”。

“兩個模型各負其責,

工程上也好調整。”劉榮博士如是說。



美國舊金山PI機器人團隊的出發點,

是想在長程任務上做得好。

阻礙機器人做一系列任務的核心障礙,

是記憶。

何時記???

記住什么?

如何記???

接著,用這些記憶去指導,

后面行為與策略規劃。

簡單地把機器人看見的(所有視覺幀),

填進模型的上下文窗口既不現實,

機器人會誤把無關過去行為,

當成當前決策依據。

比如,機器人試圖拿起一根小筷子。

如果沒有記憶功能,

機器人往往會反復以同樣的方式失敗。

因為它不記得之前的嘗試,

所以只會重復相同的行為。

配上BGM,

估計就成了一刀不剪的B站鬼畜視頻。

而有了記憶功能,

第一次失敗后,

會設法成功拿起筷子。

于是,他們團隊為具身智能設計的記憶架構,

就分為兩層。

第一層是短期記憶,

它記錄當下的視覺信息,

保持機器人對環境的持續感知。

第二層是長期記憶,

它用文字形式,

保存經驗和規則,

讓機器人能夠跨越較長時間,

保持任務狀態,

按需調整。

這里有點太技術了,

按中科視語CEO趙朝陽博士的說法,

從科研直覺去理解,

人類好久之前的記憶,

會被總結成經驗,

——一朝被蛇咬,十年怕井繩;

人類近期(短期)記憶,

更具體,更生動,更多細節,

非洲大草原上,

沉睡中的母獅,

被黑曼巴毒蛇咬了一口下巴,

獅頭立刻腫成表情包。

學術說法是:

短期使用細節信息支持即時行為,

長期用抽象語義保持任務語境和目標邏輯。

趙朝陽博士也聊到:

“記憶分層能設計得更細致,

長短,長中短,超長期記憶,等等。

甚至有些永遠不能被遺忘,比如安全底線。”

看來以后都可以這么玩了:

大大大記憶,小小小記憶,

久而久之,研發同學說話都結巴了,

這絕對是工傷。

細想起來,這倒是和很多年前,

阿西莫夫機器人三大定律遙相呼應:

機器人不會傷害人類。



記憶本身是個很宏大的主題,

記憶和現有系統未來會是什么形態?

記憶不只是存下什么,

而是進化的底層動力:

1.整體目標是什么

2.需要先做什么再做什么

3.現在做到哪一步了

4.這一步怎么做

5.下一步該做什么

具身智能目前在這個大趨勢上,

要做出來真正有記憶的機器人,

如何在復雜、長期任務中持續成長和自適應。

具身智能只是會感知、會執行,不夠。

而是會記住、會推理,

會運用過去的經驗來塑造未來的策略。

具身智能這么熱,還有一個原因,

中科紫東太初董事長王金橋

是這么說的:

“有太多事情可以做,

或者說,根本做不過來,

原因是走得最快的是大語言模型,

那么大語言模型踩過的坑,

一定指導多模態大模型。

多模態模型踩過的坑,

一定指導具身智能大模型。”



One More thing

下內容包含大量科研黑話和學術暴擊,

看不懂不丟人,能看完的都是狠人,

建議非戰斗人員提前服用冰美式。

為什么不用Transformer-XL自回歸?

答案:不用的原因有三個:

第一,必須逐步生成,每步依賴前一步輸出,

不支持并行推理,效率低。

第二,視覺幀或連續動作序列很長時處理長序列會越來越慢。

第三,缺乏直接視覺結構建模能力。

為什么PI機器人的記憶模塊可插拔?

這個問題,趙朝陽博士給我好好講了講。

模型π0.6和π0.6*一起發布的,

加入真機強化學習,

這將會是未來一段時間VLA的主流打法。

上一種利器尚且不夠,

再把記憶模塊也加持上。

而以前,

還在用Transformer-XL做自回歸的,

現在都不用了。

MEM設計成可插拔不可謂不巧妙,

雙重否定表達作者非??隙ā?/p>

MEM模型用了谷歌的Gemma3(4B),

這是在π0.5架構基礎上的升級版本,

π0.5使用的是Gemma2.6。

MEM的可插拔特性主要體現在記憶增強模塊上,

分為短期記憶和長期記憶兩部分。

在短期記憶方面,

模型對ViT模塊進行了優化,

使其能夠處理更多歷史觀察幀,

從而提升視覺信息的吞吐量。

具體來說,優化主要集中在時間注意力和空間注意力結構上,

因為MEM很新,廠商尚未開源,也可以理解。

長期記憶部分,就更重要了,

甚至可以說是最重要的“彈藥”,

那就是數據上下功夫。

用大語言模型生成訓練數據的方式來增強。

先總結(抽象在數據里),再讓模型學習。

Datateachingand machine learning.

模型會生成類似鏈式推理的摘要和總結數據,

造數據優化長期記憶,到底怎么做的呢?

我們認為:關鍵在于,

造一個帶摘要+總結的樣本數據,

還要跟他原本樣本的視頻幀情節時間步驟對應上

最后,再用這些數據訓練主干網絡,

(視覺-語言模型,Gemma),

這樣,長期記憶不僅能記錄下事件,

還抽象經驗,用于后續推理。

我感慨整個設計很巧妙,

保證了短期記憶專注于即時操作信息,

而長期記憶提供跨任務的連續上下文支持。



陶大程是大曉機器人首席科學家。目前,他任職于新加坡南洋理工大學,擔任杰出大學教授。同時,澳大利亞科學院院士,歐洲科學院外籍院士,當選IEEE、ACM、AAAS等多個國際權威學會會士。長期聚焦于將統計學和數學方法引入人工智能,在表征學習、計算機視覺與深度學習等方向具有奠基性貢獻。

問題一:記憶是個宏大命題,

以記憶模塊對現有具身系統的影響來看,

以您的見識,

未來會是個啥形態呢?

陶大程教授回答:未來的記憶,不會只是一個“外掛模塊”,而會成為具身系統的時間操作系統。因為ACE-Brain-0其實告訴我們,具身統一的難點,不在于單個技能,而在于如何把不同域、不同階段、不同粒度的知識組織起來并長期保留下來;它用spatialscaffold解決的是“跨embodiment的共享結構”問題。與之對稱,記憶解決的其實是“跨時間的共享結構”問題。一個解決“不同機器人/不同場景之間怎么統一”,一個解決“同一個機器人在不同時間怎么連續”。所以未來真正強的具身系統,一定不是單純的VLA,而是空間骨架+時間記憶的耦合系統。

因此,未來具身里的記憶形態,可能會有五層:

第一層是感知工作記憶。這層記最近幾秒到幾十秒的視覺、觸覺、位姿和交互狀態,用來處理遮擋、局部失誤、抓取重試、視野之外的短時補償。

第二層是情節記憶。它記錄“剛剛發生了什么、哪一步成功了、哪一步失敗了、失敗后換過什么策略”,服務分鐘級任務。

第三層是語義/程序記憶。它不是記細節畫面,而是記“我現在做到哪一步、這個任務的標準順序是什么、這個對象通常應該如何處理”。

第四層是空間記憶。這是ACE-Brain-0給你的重要啟發:未來記憶不能只是文本摘要,還必須帶有空間scaffold,也就是物體位置、相對關系、可達性、場景拓撲。

第五層是反事實記憶,也就是可執行的世界表征:不是只記“過去如何”,還要能內部模擬“未來可能如何”。這是worldmodel真正進入具身主干之后,記憶會新增的一層。

第六層是不可遺忘記憶。未來機器人一定會有一部分memory不是為了提升任務成功率,而是為了固化安全邊界、人體禁區、設備極限、規范流程。

未來的具身記憶,不是更大的contextwindow,而是“分層的、空間化的、可調用的、可修訂的、可執行的MemoryOS”。

問題二:具身借鑒LLM經驗,

借鑒VLM經驗是必然的,

本質該怎么理解?

陶大程教授回答:具身借鑒LLM/VLM,不是在借一個模型外形,而是在借一整套“如何從海量異構數據中提煉共享先驗、再把共享先驗遷移到具體任務”的方法論。

第一層本質,是抽象壓縮能力;

第二層本質,是跨模態對齊能力;

第三層本質,是空間共享能力

(ACE-Brain-0:sharedscaffold);

第四層本質,是自舉改進能力

(self-evolutionlearning,

為worldmodel提供了機制性側證);

第五層本質,是有組織的訓練

(ACE-Brain-0)。

第三層:ACE-Brain-0給出了自動駕駛、無人機、機器人操作雖然形態不同、動作空間不同,但都依賴3D空間理解、物體布局建模、幾何關系推理和空間后果預測。

第四層:ACE-Brain-0其實也在回答,

“為什么不能所有東西一鍋燉”。

混合jointtraining會帶來長尾分布、

梯度干擾、領域稀釋;

順序微調又會造成災難性遺忘。所以需要Specialize-Reconcile:

先建專業能力,最后再融合。

問題三:您的論文中曾強調,

“通用具身智能要求在異構具身

(例如自動駕駛、機器人和無人機),

之間具備強大的泛化能力。”

具身作為前沿技術技術,

您是如何理解目前具身產業的?

陶大程教授回答:

第一,不能把具身產業只理解成,

“人形機器人產業”。

第二,產業真正的壁壘不是模型本身,

而是“經驗回流閉環”。

產業中的記憶,不只是模型內部記憶,

更是企業級經驗記憶。

第三,產業落地不是單靠端到端autonomy,

而是“自動化+人類兜底+再學習”的混合系統。

第四,世界模型(WorldModel),

將成為產業主戰場,

支撐PhysicalAI的規模化訓練。

未來PhysicalAI的真正基礎設施,

會包括一個可擴展、可校準、可評測、可生成數據的worldmodel。

第五,數據供給方式本身,就是產業路線分水嶺。

Reference:

1. Ziyang Gong, Zehang Luo, Anke Tang, et al.: ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments. arXiv:2603.03198

2. Shi Fu, Yingjie Wang, Yuzhu Chen, Xinmei Tian, Dacheng Tao: A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops. ICLR 2025

(完)





聲明:個人原創,僅供參考

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
德布勞內屢送妙傳,奇兵一劍封喉!復仇AC米蘭,那不勒斯主場不敗

德布勞內屢送妙傳,奇兵一劍封喉!復仇AC米蘭,那不勒斯主場不敗

我的護球最獨特
2026-04-07 04:45:16
老輩風水講究:久不聯系的熟人,帶這3樣東西登門,要警惕

老輩風水講究:久不聯系的熟人,帶這3樣東西登門,要警惕

一根香煙的少女
2026-03-18 13:21:11
突然發現:北京越來越空了,可能以后不會再堵車了

突然發現:北京越來越空了,可能以后不會再堵車了

周哥一影視
2026-04-07 03:41:10
研究顯示:我國男性陰莖疲軟狀態下的均值是6.5厘米,你達標了嗎

研究顯示:我國男性陰莖疲軟狀態下的均值是6.5厘米,你達標了嗎

黯泉
2026-04-05 19:00:47
非夫妻開房,民警提醒:只要不干這個,誰管你是不是夫妻

非夫妻開房,民警提醒:只要不干這個,誰管你是不是夫妻

李博世財經
2026-04-06 14:15:09
NASA分享宇航員太空拍地球照片,“意外”宣傳iPhone 17 Pro

NASA分享宇航員太空拍地球照片,“意外”宣傳iPhone 17 Pro

IT之家
2026-04-06 14:51:10
16GB+1TB!新機官宣:5月31日,開啟預約!

16GB+1TB!新機官宣:5月31日,開啟預約!

科技堡壘
2026-04-05 11:23:12
月球背面長這樣?4名宇航員第一眼集體懵圈

月球背面長這樣?4名宇航員第一眼集體懵圈

像素與芯片
2026-04-05 13:45:02
春日經濟新圖景丨鳥啼春曉 “觀鳥經濟”助燃春日消費

春日經濟新圖景丨鳥啼春曉 “觀鳥經濟”助燃春日消費

新華社
2026-04-06 09:15:22
自導自演?佛山雞煲老板因流量壓力自黑求放過,結果慘遭網友扒光

自導自演?佛山雞煲老板因流量壓力自黑求放過,結果慘遭網友扒光

從零到一研究所
2026-04-03 15:04:26
院士罕見發話:別再叫北斗“中國版GPS”了!差距大到離譜!

院士罕見發話:別再叫北斗“中國版GPS”了!差距大到離譜!

小蘭聊歷史
2026-04-05 05:34:48
早期孟子義長這樣,這誰還能認得出?

早期孟子義長這樣,這誰還能認得出?

木子愛娛樂大號
2026-04-01 10:19:03
伊朗:打擊了駐科威特美軍;伊外交部發言人:美方營救飛行員,可能是為了竊取濃縮鈾!以色列遭導彈襲擊,4人死亡

伊朗:打擊了駐科威特美軍;伊外交部發言人:美方營救飛行員,可能是為了竊取濃縮鈾!以色列遭導彈襲擊,4人死亡

每日經濟新聞
2026-04-06 19:49:04
更多細節補充昨日文章:耗費數億美元救一個飛行員,到底值不值得

更多細節補充昨日文章:耗費數億美元救一個飛行員,到底值不值得

鷹眼Defence
2026-04-06 18:52:13
外援臨場變卦有難言之隱?張慶鵬:比賽發生很多意外 有人不能參賽

外援臨場變卦有難言之隱?張慶鵬:比賽發生很多意外 有人不能參賽

狼叔評論
2026-04-06 23:58:15
今年幼兒園的招生真的是壓力巨大啊 前兩天開全園大會

今年幼兒園的招生真的是壓力巨大啊 前兩天開全園大會

歲月有情1314
2026-04-06 12:21:43
高市早苗麻煩大了!3艘船剛放行,一伊朗人就被日本人活活打死

高市早苗麻煩大了!3艘船剛放行,一伊朗人就被日本人活活打死

阿策聊實事
2026-04-07 03:42:31
重病三不治不是醫學現象而是社會學洞察

重病三不治不是醫學現象而是社會學洞察

阿亮評論
2026-04-04 18:26:28
“伊斯蘭堡協議”成型

“伊斯蘭堡協議”成型

西樓飲月
2026-04-06 22:43:46
臺軍軍心徹底崩了,死刑震懾直擊要害!5名“臺獨”喉舌集體噤聲

臺軍軍心徹底崩了,死刑震懾直擊要害!5名“臺獨”喉舌集體噤聲

國際風云錄
2026-04-02 12:37:20
2026-04-07 06:08:49
親愛的數據 incentive-icons
親愛的數據
《我看見了風暴:人工智能基建革命》一書作者
693文章數 219913關注度
往期回顧 全部

科技要聞

折疊屏iPhone要來了,富士康已在試產!

頭條要聞

特朗普:7日是最后期限 否則伊朗每座橋梁將被摧毀

頭條要聞

特朗普:7日是最后期限 否則伊朗每座橋梁將被摧毀

體育要聞

官方:中國女足球員邵子欽加盟本菲卡

娛樂要聞

唐嫣羅晉新加坡遛娃,6歲女兒身高搶鏡

財經要聞

史詩級暴跌"一周年" A股接下來如何走?

汽車要聞

阿維塔06T快上市了 旅行車還能這么玩?

態度原創

手機
時尚
親子
本地
房產

手機要聞

OPPO Find X9s Pro真機現身,還有銀色哈蘇專業增距鏡

伊姐清明熱推:電視劇《冰湖重生》;電視劇《月鱗綺紀》......

親子要聞

一定要告訴孩子什么是教養,

本地新聞

跟著歌聲游安徽,聽古村回響

房產要聞

小陽春全面啟動!現房,才是這波行情里最穩的上車票

無障礙瀏覽 進入關懷版