網易首頁 > 網易號 > 正文申請入駐

WAIC機器人大咖圓桌：具身智能的下一個前沿是什么？

2025-08-04 16:25:02　來源: RoboX

北京舉報

分享至

2025 WAIC雖已閉幕，但高價值的信息還有待分享。其中，由智元機器人主辦的「智啟具身論壇」上，多位重量級嘉賓進行了一場圓桌對話，RoboX編譯整理了其中內容，供大家參考：

嘉賓陣容：

羅劍嵐（主持人）：智元機器人首席科學家/具身研究中心主任/上海創智學院副教授

Sergey Levine：Physical Intelligence(Pl)聯合創始人/UC Berkeley副教授

Stefan Schaal：Instrinsic (Alphabet)科學與AI事務負責人

蘇航：清華大學計算機系副研究員/IEEE TPAMI期刊編委

陳曦：亞馬遜應用科學、前沿人工智能與機器人部門負責人

姚卯青：智元機器人合伙人/具身業務部總裁

背景：AI與機器人的本質變化

羅劍嵐：目前，在機器人技術獲取大量進展的同時，我們也在試圖回答AI領域最深刻的問題之一：為什么AI系統能在圍棋等項目中成為世界冠軍，卻不能做三歲小孩能做的事情？

機器人基礎模型的最新進展來看，我認為構建一個計算大腦，能將計算轉化為物理能力，這也部分回答了這個問題。

同時，我們也看到了一個趨勢：基礎研究與工業產品之間的差距正在顯著縮短。例如，谷歌的Gemini項目本質上屬于基礎研究，但一旦開發完成，它幾乎可以在第二天就上線，供全球數十億用戶使用。

那么，第一個問題給Stefan和Sergey——

Stefan，你幾乎將畢生精力奉獻給了機器人技術，從模仿學習、強化學習、機器人運動到操作，我們許多人都是閱讀你們的論文長大的。

Sergey，你于2016年在谷歌建立了第一個機器人數據采集場，那是一個由七臺庫卡機器人組成的系統。

那么我的問題是，在過去十年間，到底發生了什么改變，以至于這個領域受到了空前的關注度？這一次和你們職業生涯中看到的其它次有什么不同？

StefanSchaal：計算機視覺算法在硬件上的應用，是機器人技術能夠開始感知和觀察周圍世界的起點之一。隨著深度學習革命興起，極大地提高了視覺處理的效率，這也要歸功于二維攝像頭的進步。

接著，深度學習逐漸應用于基礎模型。與此同時，它從一個被認為無法在大規模系統中應用的技術，發展到現在已成為可計算、可實現的技術。

SergeyLevine：是的，現在的一大變化是，學術界對「規模」以及「可擴展學習系統」的重要性有了更深刻的認識。

過去，即使在計算機視覺領域，人們也并未完全認識到規模和可擴展學習的重要性。

而在機器人領域，數據難以獲取，實驗難以開展，特別是在實驗室環境中，能擁有一臺機器人進行研究就已經很幸運了。

這導致研究人員形成了一種思維模式，即他們必須在小規模上取得成果，而這種成果往往只是大規模應用的「原型」，本質上還是小規模方法。

在使用機器學習時，很難擺脫這種小規模模式。如果你在小規模學習上取得成果，并試圖逐漸擴大規模，往往會遇到問題。

而在機器學習、計算機視覺和自然語言處理等領域，我們已經學到了寶貴的一課：大規模、簡單且通用的學習系統，能夠讓我們避開許多將小規模學習應用到現實世界時所面臨的復雜問題。

因此，我認為現在的不同之處在于，我們正在思考如何利用來自多個機器人的數據，如何將這些方法應用于不同環境、不同任務，甚至不同機器人之間的遷移。我認為，在機器人領域接受可擴展學習的觀點，是使這個時代與以往不同的關鍵因素之一。

從「單一任務」到「行為集合」

羅劍嵐：我們的科學研究方式已經發生了根本變化，傳統的小規模實驗室實驗已不再適用，必須進行大規模研究。那么，這對機器人技術意味著什么？

StefanSchaal：我們突然進入了實證科學的世界，進入了大數據時代。這是首次有機會真正將機器人技術擴展到各個領域，甚至是更通用的領域。現在，機器人正在從學習「單一任務」發展到學習「一類任務」，甚至是完整行為集合。

真正的挑戰，在于如何實現高性能，這是一個艱巨的任務，也是我一直擔心的問題。如果你想從90%的性能提升到99.9%的性能，可能需要徹底重新思考方法。

這種情況在某些領域已經發生過，也可能在我們身上發生——我們可能會在這個新的數據科學領域找到另一種方法來解決這個問題，我還不知道答案，但這將非常令人興奮。

SergeyLevine：我從大規模機器學習世界中學到了一個有趣教訓：與其構建更復雜的系統，有時我們應該構建更簡單、可擴展性更強的系統。

2010年代末到2020年代初的自然語言處理領域，就經歷了這樣的變化。當時，每個自然語言處理任務都是獨立的領域。然而，最終大型語言模型的出現，吸收了許多這些專門技術。

當然，畢竟機器人與網絡代理不同，它是一個高度集成的學科。但我認為，作為機器人專家，我們必須謹慎思考哪些系統構建應該簡化，并通過大規模學習來解決。

機器人技術確實需要高度的魯棒性和可靠性，而這很難從更多相同類型的學習技術中獲得。我們也應該非常謹慎地思考在哪里增加復雜性，在哪里強調簡單性和規模。

「沒什么能比得上真實數據」

羅劍嵐：機器人技術需要什么樣的數據？數據的多樣性和質量又該如何考量？

陳曦：機器人技術與大語言模型、視覺技術的關鍵區別在于，我們最終需要解決一個物理系統的問題。這意味著我們的數據也必須來自物理系統。當然，你可以通過模擬、人類示范等方式收集一些代理數據，但最終，沒有什么能比得上機器人在實際環境中操作并收集數據。

這一直是擴展機器人技術的瓶頸之一，因為它在很大程度上是孤立和碎片化的——研發項目分布在許多不同的學術實驗室中，通常由計算機科學專業的學生構建系統，他們通常不是硬件工程師或專家。

然而，在最近這一波對人工智能和機器人技術的興趣和投資浪潮中，許多公司都愿意并有能力進行大量投資，這使我們能夠獲得更多可用于運行策略和收集數據的物理系統。

因此，我對這個問題的簡短回答是：你最終需要大量的物理機器人，以及來自這些物理機器人的數據。

蘇航：對于具身人工智能來說，我們有時也會使用一些模擬數據，或者使用視頻數據來訓練。但我相信，在未來，真實數據將會變得非常重要，我認為我們將會擁有大量真實數據。

我認為，真正的瓶頸在于如何高效地收集數據。目前，遠程操作數據的收集效率并不令人滿意。而「機器人自主收集數據的方法」可能會更加高效，這意味著我們可以擴大數據收集規模。

因此，盡管目前自主收集數據的方法并不完美，但我相信，在不久的將來，這將成為數據注入的一種可能性。只要我們有大量的真實機器人，就意味著可以擁有大量數據集。

那么，如何利用這些數據呢？對于終身學習來說，這意味著我們需要一個閉環的數據重用機制。這可能是未來數據利用的方向。

羅劍嵐：我們應該如何獲取數據？真實數據、模擬器還是其他方式？你們怎么看？

Sergey Levine：真實數據非常重要。如果我們看看其他領域，機器學習之所以能在這些領域取得成功，是因為我們能夠有效地利用大規模的真實世界數據集。

這并不意味著我們只應使用真實數據，但的確需要獲取大規模的機器人數據集，并利用它來學習對物理交互的通用理解。

一旦我們擁有了一個對真實世界中的物理交互有良好理解的模型，它就能更好地吸收其他來源的數據，也就能在機器人技術上取得更大進步。因此，我認為模擬技術并不是推動機器人技術發展的關鍵，相反，大規模真實世界數據集可能會推動機器人理解各種其他類型數據的能力。

姚卯青：每種數據收集過程都有其自身的成本。例如，人力成本、存儲成本，數據量也與訓練模型所需的計算量相關。因此，有時候某種方式收集數據可能更便宜，但存儲和消耗數據的成本卻更高。

此外，我認為從長遠來看，為機器人技術收集數據花費數百萬、數十億甚至更多資金，我認為這并非是不可承受的——Meta的超級智能實驗室雇傭研究人員的成本就高達12億美元，這些資金完全可以輕松獲得數億條軌跡數據。

如果這是解鎖人工智能的密碼，我認為任何科技巨頭或國家都不會猶豫投入這筆資金。最終，問題不在于如何獲取數據，而在于如何從不同應用領域和行業中獲取最具代表性的數據。

我非常同意Stefan之前的觀點，我們需要大量在現實世界中工作的ASI系統，以獲取最有價值的數據，甚至是那些邊緣案例和失敗案例，以幫助我們有效地迭代系統。

因此，當我們有數百萬臺機器人在現實世界中部署時，我們的問題將不再是如何以低成本獲取數據，而是如何從數十億甚至數萬億條軌跡中篩選出最有用的數據，因為我們無法承擔存儲和計算所有數據的成本。

通用性 or 專業化？

羅劍嵐：如果我們想構建一個能夠像人類一樣在物理世界中感知、推理和行動的機器，它就必須被放置在現實世界中，與環境互動，并生成大量的互動數據。

最終，我們將擁有各種異構數據。我們的問題將不再是數據量的多少，而是如何處理這些數據。

Stefan，你提到過，目前我們既需要性能也需要專業化。而Sergey則認為，我們應該將通用性作為首要考慮因素。我對你們兩位在通用性與專業化方面的觀點很感興趣。

SergeyLevine：顯然，我們需要機器人能夠在特定的應用領域中發揮作用，這就意味著至少要在一定程度上專門化。但我認為，阻礙機器人在開放世界環境中應用的一個主要因素，是它們處理各種意外情況的能力。

這意味著，機器人需要具備通用能力。因為通用能力本質上能帶來魯棒性。

要想克服這一障礙，使機器人在現實世界環境中具備常識，這將是一個巨大的進步。一旦達到這一點，我們就可以開始在現實世界中部署機器人，讓它們積累經驗，并變得越來越專業化。

StefanSchaal：我認為，關鍵在于你想要機器人做到什么任務、多快能夠做到？這些都是不同的路徑。通用性顯然是我們所有人都渴望的，但如果你更關注工業任務，那么現在工業領域越來越傾向于高混合、低產量的生產模式，這意味著事情變化很快。

當事情變化很快時，人們不希望花費半小時、一小時甚至幾天的時間來重新訓練模型。因此，你需要快速概括和適應基礎模型的方法。

我認為，無論你選擇哪條路徑，都希望能產生數據，這些數據可以用于下一個機器人，使其變得更好，更通用。這些只是不同的路徑，取決于你是想在兩年內將機器人交付給客戶，還是還有更多的時間來實現這一目標。

產學研之間的鴻溝

羅劍嵐：在機器人領域，學術界和產業界之間一直存在差距，這種差距在機器人領域尤為明顯。

通常在學術論文中，你做了一些研究，錄制了視頻上傳，然后就結束了，你不再關心之后會發生什么。因此，我想問問你們兩位都有在學術界和產業界都有工作經驗的嘉賓，如何才能縮短這種差距？

陳曦：首先，機器人應該24小時不間斷工作——如果你的策略出了問題，你就需要回去修復它。你要對你的策略、你的模型的質量負責，這樣你也可以體驗到你的模型在各種長尾情況下如何失敗，并研究如何改進系統的通用性和魯棒性。

在機器人領域，仍然有大量的前沿研究需要完成，學術界仍然是培養人才和進行前沿研究的最佳場所。但與此同時，很多學術研究人員并不真正了解我們需要解決的實際問題。

因此，我認為產業界有義務將一些問題、一些動機帶回學術研究。據我觀察，很多學術研究人員也有動力去研究更接近現實世界的問題。因此，我希望在未來幾年內，這一差距能夠逐漸縮小。

StefanSchaal：要想從原型發展到真正能用的產品，你可以和合適的人一起努力實現這種技術轉移，也可以在選擇研究的問題設置時，就選擇一些對初始性能不太敏感的領域。因為，并非所有領域都像汽車行業那樣，必須達到99.999%的完美才能工作，還有其他一些領域對失敗更加寬容。

谷歌的Everyday Robots項目中的垃圾分類就是一個很好的例子——這種工作只需達到90%以上的準確率就可以了。

還有一些領域，你可以讓一個人在那里監督幾個機器人，然后隨著時間的推移逐漸提高性能，因為這可能需要一些時間，并最終需要更多的數據。

最大難題：Manipulation

羅劍嵐：我們主要關注的是導航、移動和操作。你們認為這三個領域中，哪一個目前對我們來說是最具挑戰性的？我們應該如何解決它？

SergeyLevine：我認為操作是最難的，因為操作需要你理解一個非常多樣化和復雜的世界，并與它進行物理交互。對于導航來說，我們需要理解一個復雜的世界，但我們與它的物理交互通常相對簡單。

而對于移動來說，雖然是物理交互，但相對簡單，因為真正被施加力的對象只是機器人本身。

「操作」是真正將所有最困難的挑戰融合在一起的領域。我懷疑，如果我們能找到一個通用且廣泛適用的機器人操作解決方案，那么無論我們想出什么方法來做到這一點，都將為我們解決其他問題提供一個良好的開端。

這并不是說沒有人應該研究導航或移動問題：將問題領域隔離起來，使其不那么復雜，不包含那么多困難因素，可以讓我們通過單獨解決一個挑戰來取得很大進展。

StefanSchaal：我同意這個觀點。一切有趣的事情最終都會融合在一起。因此，我們已經對固定基座的機械臂進行了操作研究。

但我認為，我們離真正做好還差得很遠。

單獨來看，移動技術在近年來已經變得相當成熟和出色，而導航技術本身，雖然同時定位與地圖構建（SLAM）已經存在很長時間了，但在隔離狀態下進行導航，即在充滿感官輸入和不確定性的世界中進行導航，就像自動駕駛汽車必須解決的問題一樣，顯然要困難得多。

但現在，你可以把所有這些技術融合在一起，應用到人形機器人上,所有這些難題都融合在了一起，你不僅要維持移動中的本體穩定性，還要在移動中進行操作。

在這其中，操作仍然是最不成熟的領域。這就是事實，我們必須在這方面取得進步。

陳曦：我想提出一些不同的看法：雖然我同意「操作」是這三個領域中最不成熟的領域，但我認為，將操作視為唯一的核心問題并不完全正確。（這是對兩位嘉賓觀點的夸張概括）

因為我們有針對移動和導航的很多解決方案，但它們并不共享與操作相同的方法論基礎。比如，我們使用SLAM來解決導航問題，然后使用某種局部實時策略來解決局部移動問題，然后再用完全不同的方法來解決操作問題。這并沒有建立起我們對所追求的物理世界的常識性理解。

因此，從某種意義上說，我們還有其他方法可以用來解決導航和移動問題。但我們還面臨著一個更根本的常識性理解問題，這正是我們希望通過基礎模型來解決的。

未來3-5年的前沿方案

羅劍嵐：我認為人們現在對解決機器人問題的不同方法有不同的看法。有人說應該通過模擬來解決，有人說應該收集數十億條真實世界的數據軌跡，還有人相信模型的力量。

那么，未來三到五年內，機器人領域的前沿會是什么？

StefanSchaal：我最想回到的一個話題是持續學習。我們已經有了使用較小機器學習模型的持續學習方法，自適應控制也是一種可以證明其有效性的方法。但如何將這個概念應用到大型模型和大規模模型中呢？

我們的機器人大多數時候都在學習一些東西，然后執行任務、評估效果，然后再開始學習。我們仍然擔心如何不斷添加數據而不破壞系統，不讓系統失控或做出糟糕的事情。

姚卯青：我同意這個觀點。我認為下一個前沿可能是從反饋中學習。目前，我們的學習策略是先有硬件，然后訓練策略。而在未來，我們可能會先有一個策略，然后通過與環境交互來不斷對其改進，同時從反饋中學習。目前，我認為對于強化學習來說，效率可能并不是非常理想。因此，如何最好地利用反饋將是下一個前沿。

SergeyLevine：也許我可以補充一下。我認為在接下來的幾年里，我們還沒有從根本上驗證在具身智能領域中擴展法則的所有假設，問題是我們還沒有足夠的數據量來與語言領域相媲美。

在接下來的幾年里，我們可能仍需要堅持這種推斷，看看我們會達到什么瓶頸。

而且，與語言領域不同的是，機器人處理的是離散化的符號標記或表示，但現實世界是連續的，更加復雜的，我們與世界有各種各樣的交互。我認為這些都是我們想要征服的真實前沿。

陳曦：我認為，越來越重要的問題將是如何使用機器人自主收集的數據，即使這些數據可能并不完美。

因為我們正在開發能夠將機器人帶出實驗室，并進入現實世界的技術。一旦某樣東西變得有用，人們就會大量制造它，就像汽車行業的案例。

如果我們能有成千上萬甚至數百萬臺機器人時，那么最重要的就是如何利用它們自然收集的經驗來改進它們。這些經驗可能不如遠程操作數據那么高質量，我們也無法像控制模擬器那樣緊密地控制它們。但這將是這些系統獲取大量額外知識的重要來源，我們必須想辦法利用它們。

對青年人才的建議

羅劍嵐：今天在座的有很多學生和研究人員，其中很多人在過去兩年內進入了這個領域。你們對年輕研究人員和學生有什么建議？對于未來的前沿領域，你們最興奮的是什么？

陳曦：我最興奮的是看到更多機器人執行有用的任務。

雖然我們沒有互聯網這樣的數據源，但我們有一個不同的機會——我們可以從一開始就構建對機器人預訓練更有用的數據。

如果在座的學生和研究人員，嘗試用機器人解決大量有用的問題，那么我們就能獲得非常有用和有趣的數據。我們有機會從頭開始構建一個非常有價值的數據集，而不需要（像互聯網數據那樣）從大量垃圾中篩選出有用的信息。

StefanSchaal：我們試圖進入物理人工智能領域。因此，我的建議是學習物理學、人工智能和機器學習。同時，你還需要學習大數據科學，因為現在這些都緊密相連。為了實現物理人工智能，我們需要具備所有這些領域知識的人才。

SergeyLevine：我認為在選擇研究課題時，要仔細思考這個問題是否僅僅是為了解決便利性問題，還是有可能解決一些根本性問題。

由于我們必須在一定程度上保持實用性，我們往往會陷入一些較小的思維模式中。例如，考慮如何解決實驗室中只有一臺機器人、數據昂貴或計算昂貴時遇到的特定挑戰。

有些研究根本問題的工作，最初看起來可能并不實用，但在長期內，在規模更大、資源更多的情況下，它們可能會變得非常重要。

保羅·克里斯蒂亞諾關于基于人類偏好的深度強化學習的工作就是一個例子：當這項工作完成時，他通過在一個小型模擬跳躍器上實現后空翻來測試它，這看起來似乎讓深度強化學習變得更加不實用，因為它需要人的參與來提供偏好。但多年后，這成為了基于人類反饋的強化學習（RLHF）的基礎，現在我們經常用它來微調大型語言模型。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.