![]()
編輯|張倩
都說機器人學習速度慢,精細動作做不好,影響了進廠打螺絲的進度。以后,這可能不成問題了。
剛剛,具身智能領域扛把子 Physical Intelligence 公布了一項新進展:他們借助一種名為「RL token」的方法,僅需十幾分鐘或幾小時的真實世界經驗,就能讓機器人掌握插網線、擰微型螺絲、插充電線等極其精細的操作。
![]()
![]()
過去一年,我們看到,機器人已經能干不少粗略的活兒了,比如疊衣服、端盤子。但是,它們非常不擅長高精度的工作。比如「拿起螺絲刀」很容易,但「把螺絲刀嚴絲合縫地對準一顆極小的螺絲」卻極難。而在真實的工廠環境中,這種對于精準、靈巧和速度的追求恰恰是最不能妥協的,也是體力勞動中最難的部分。
![]()
以前,如果想讓機器人學會這種精細活,工程師得把機器人龐大的「主腦」(也就是處理所有信息的大模型)重新訓練一遍,這不僅計算量巨大,而且慢得讓人抓狂。
Physical Intelligence 想出了一個非常聰明的偷懶辦法:不重新訓練整個主腦,而是加一個專門負責精細動作的「外掛」——RL token。
靠著這個方法,機器人的進化速度極其驚人:每項任務中最精細的步驟速度提高到原來的 3 倍,這比人類遠程操縱機器人干活兒還要快。
「從經驗中不斷進步」將是未來真實世界機器人大模型必備的核心能力。Physical Intelligence 表示,RLT 讓他們的模型離「直接在崗位上邊干邊學」又近了一步。
怎么做到的?
Physical Intelligence 之前已經證明,通過一種名為 Recap 的方法,VLA 模型能夠借助強化學習從經驗中學習。不過,Recap 主要是為了解決長周期任務的大規模強化學習問題;而在實際應用中,我們往往更希望機器人能夠利用幾小時甚至幾分鐘的數據,快速攻克某項技能里特別困難的個別環節。
打個比方,如果一個機器人需要極其精準地用螺絲刀進行組裝,我們完全可以只去微調「把螺絲刀對準螺絲」這一個具體動作。這可比把整個 VLA 大模型從頭到尾微調一遍要快得多。這種精準針對性的自適應訓練,甚至可以直接在機器人正式部署上崗時邊干邊學。
理想情況下,這種能力的進化應該直接在機器人的「大腦」里進行,并且能從每一次嘗試中榨取最多的學習經驗。但要在短短幾小時內把整個龐大復雜的 VLA 模型端到端地訓練一遍,不管是從算力還是從實操角度來看,都面臨著巨大的挑戰。
Physical Intelligence 的核心靈感是: 與其死磕大模型,不如讓 VLA 變通一下,使其能配合一個極其小巧、可以實時更新的模型來進行強化學習微調。他們訓練 VLA(Pi 0.6)輸出一個「RL token」,它就像是 VLA 內部復雜思考過程的一份「極簡摘要」。然后,他們把這個 RL token 當作輸入,喂給那個能夠進行實時強化學習訓練的小模型。
這個 RL token 會被交給 Actor(負責輸出動作)和 Critic(負責評估打分)網絡使用。這兩個網絡采用了一種非常節省數據的 off-policy 強化學習方法進行訓練。正因為 Actor 和 Critic 處理的是這種高度壓縮的摘要信息,它們可以被設計成非常輕量級的神經網絡,直接在機器人本體上進行訓練,每秒能更新幾百次。這種極高的響應速度,讓強化學習能夠在機器人每一次試錯之后,立刻去調整和改進它的行為。
![]()
RLT 技術首先會對 VLA 進行改造:加入一個由編碼器和解碼器組成的 Transformer 結構。這個結構被訓練去通過一個「信息瓶頸」來預測大模型的內部特征(embeddings),從而壓縮出一個極簡的表達方式,這就是他們所說的 RL token。這個 token 濃縮了當前的觀察畫面中,強化學習的 Actor 和 Critic 所需要的所有關鍵信息。這樣一來,即便是極小的 Actor 和 Critic 網絡,也能站在大模型豐富的內部理解之上,學會如何改進動作。
![]()
拿到了 RL token 后,研究者只需讓機器人在現實中積攢幾小時甚至幾分鐘的數據,就能通過在線強化學習來訓練小型的 Actor 和 Critic 網絡。為了讓這個過程效率拉滿,他們做了一些精心的設計:在線強化學習的 Actor 網絡必須和 VLA 在相同的動作空間里工作,與 VLA 的先驗行為保持一致,并且必須能從有限的真實世界數據里高效學習。
具體做法如下:
1. 預測「動作塊」: 強化學習策略預測的是一連串的「動作塊(action chunks)」,這與 VLA 習慣的動作結構保持一致,而不是去控制那些極其底層的單個細微操作。這讓在線策略能夠直接調整那些在任務中真正具有時間跨度的重要連貫動作。
2. 學會「修改」而非「推翻」:強化學習策略不是從零開始瞎摸索的。Actor 網絡會先接收 VLA 預測出的動作作為輸入,所以它學到的是如何「編輯修改」VLA 的動作,而不是全盤替換。研究者會把策略更新的方向限制在這個參考動作附近,這樣當 VLA 原本的動作已經算靠譜時,機器人的探索就不會亂來;只有當 Critic 網絡明確發現了更好的替代方案時,才會偏離原計劃。
3. 防止「抄作業」:為了防止小模型在訓練初期學會「偷懶」只知道照抄 VLA 的動作,他們還引入了「參考動作 dropout」機制,逼著 Actor 網絡保持自己獨立生成動作的能力。
4. 融入人類干預:最后,可以選擇性地讓人類直接介入強化學習的更新過程。當機器人卡殼或犯錯時,人類的糾正動作會被直接折疊并反饋到訓練中。
正是這些選擇,讓在線強化學習變成了一個可復用的「通用配方」。它不需要針對具體任務做專門的工程設計,就能直接掛載到預訓練好的 VLA 模型上,去應對各種不同的任務。
攻克精細操作的「最后關鍵一毫米」
研究者在四項需要在關鍵時刻具備極高精度的挑戰性任務上對 RLT 進行了測試:用電動螺絲刀將微小的 M3 螺絲擰入機械臂、系緊扎帶、插入網線以及插入電源線。
在這些任務中,通用的基礎模型通常能很好地完成大部分「粗略」動作,但任務最終的成功與否和速度快慢,往往取決于一個需要大量物理接觸的關鍵階段。在這個階段,位置、角度哪怕差之毫厘,或者時機稍微不對,都會導致徹底失敗。
![]()
![]()
拿擰螺絲來說,機器人必須在位置和旋轉角度上都達到亞毫米級的精準度,才能讓螺絲刀尖完美嵌入螺絲槽。要知道,螺絲刀尖距離機器人的「手」(抓取點)足足有 10 厘米遠,哪怕手腕只偏了一丁點兒,誤差到了刀尖上也會被無限放大。而且,從機器人自帶的手腕攝像頭視角看過去,這些細微的接觸過程甚至都很難看清楚。
![]()
在這四個任務中,基礎的 VLA 大模型在初期的表現都很棒(比如穩穩地拿起螺絲刀或扎帶),但在最需要精度的階段就會掉鏈子。RLT 技術就是專門為解決這個痛點設計的:研究者不再讓它從頭到尾重新學一遍整個任務,而是利用在線強化學習專門去攻克這些「硬骨頭」環節。 實際測試表明,機器人僅僅利用 15 分鐘的真實世界數據,就能優化每個動作里最難的部分
他們將 RLT 應用于這四項任務的關鍵階段,評估了它在兩種場景下的效果:一是短暫的關鍵插入動作(插線和插網線),二是時間跨度更長、變化更多的完整任務。
結果顯示,在所有四項任務中,與基礎模型相比,RLT 在速度和成功率上都迎來了突飛猛進。下面的圖表展示了訓練前后的性能對比,指標是「吞吐量」(即每 10 分鐘內成功完成任務的次數)。
![]()
下面的進度曲線圖展示了 RLT 在「插網線」任務上的吞吐量提升過程。整個訓練總共花了 2 個小時,但真正包含機器人動作的數據只有 15 分鐘,剩下的時間主要花在了機器復位重置和其他計算開銷上。
![]()
令人驚嘆的是,RLT 不僅僅比基礎模型強,它在「插網線」任務上的執行速度,甚至超越了人類遠程操作的速度!正如柱狀圖所示,由最終強化學習策略完成的測試中,有一半的速度比數據集中任何一次人類的示范操作都要快。
![]()
看來,機器人進廠打工的進度,比預想中要快。
參考鏈接:https://www.pi.website/research/rlt
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.