337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Ψ?剛剛開源了!邁向通用人形機器人的基座模型

0
分享至



人形機器人在春晚舞臺上大放異彩!然而,人們在看慣了機器人跳舞、后空翻,乃至武術表演之后,不禁開始思考:機器人何時才能真正走進大眾生活,解決日常生活中的瑣碎任務,從而解放人類的雙手?

剛剛,來自南加州大學的團隊開源了一個邁向通用人形機器人的基座模型 Ψ?(中文讀作:賽零),助力人形機器人的通用移動操作。在總體任務成功率和子任務指標上,Ψ?平均領先 NVIDIA 最新開源模型 GR00T N1.6 超過 40%。

01 引言從人類第一視角視頻中學習操作先驗知識

人形機器人移動操作(loco-manipulation)是當前具身智能領域最具挑戰性的研究方向之一。近年來,RT-1/2、OpenVLA、Gemini Robotics、GR00T、π0/0.5 等一系列工作相繼表明,大模型能夠顯著提升機器人操作的泛化能力。然而,這些方法普遍嚴重依賴大規模遙操作數據,而對于人形機器人而言,此類數據的采集成本十分高昂。

幸運的是,第一人稱視角人類視頻(egocentric human videos)由于信息豐富且易于獲取,為機器人學習提供了一種極具可擴展性的替代方案。

對于這類數據的利用,現有方法通常采用一種看似直覺的策略:將大量人類視頻數據與機器人數據混合在一起進行聯合訓練,試圖通過單純擴大數據規模來彌合人與機器人之間的差距。然而,這一策略真的是最優解嗎?混合數據訓練往往會迫使模型同時學習兩種分布差異顯著的數據,這可能在一定程度上削弱模型的學習能力。

針對這一難題,南加州大學助理教授王越領銜的 Psi-Lab 聯合 NVIDIA 與 WorldEngine 提出了富有洞察力的新方案Ψ?。該基座模型僅需80 條真機遙操作數據,即可掌握長程移動操作能力。在論文中,研究團隊設計了八個包含移動與靈巧操作的長程任務進行評測。實驗結果表明,Ψ? 在總體任務成功率和子任務指標上,平均領先 NVIDIA 最新開源大模型GR00T N1.6超過40%



  • 論文標題:Ψ0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation
  • 論文鏈接:https://arxiv.org/abs/2603.12263
  • 主頁鏈接:https://psi-lab.ai/Psi0/
  • 代碼鏈接:https://github.com/physical-superintelligence-lab/Psi0

02 數據篇:真機遙操采集高質量數據,

助力模型快速掌握新技能



圖 1 Ψ? 基座模型使用的訓練數據

高質量的領域內數據是模型學習長時域移動操作任務的關鍵。然而,現有遙操作系統仍存在明顯短板:端到端全身遙操作方案魯棒性不足,且大多將靈巧手簡化為低維夾爪指令;而將操作與行走解耦的方案雖提升了系統穩定性,卻往往需要多人協作,實用性受到限制。

為此,Ψ? 團隊提出了一套定制化遙操作框架,將上半身姿態、靈巧手與行走控制三者解耦,實現單人完成全身控制。如圖 1 所示,操作者通過 PICO 頭顯和手腕追蹤器提供上半身姿態信息,由逆運動學求解器實時計算手臂與軀干的位置;MANUS 數據手套用于采集手指的精細動作,并直接控制靈巧手的全部自由度;行走指令則由腰部和腳部追蹤器推斷得到,并傳遞給 RL 策略負責下半身的穩定控制。

這套輕量化的可穿戴方案不僅實現了單人全身操控,同時手腕追蹤器與 MANUS 手套的組合也有效規避了視覺 VR 追蹤中常見的遮擋與丟失問題,從而顯著提升了追蹤精度與系統可靠性。

03 模型訓練篇:經典三階段訓練范式,

最大化不同類型數據的價值

Ψ? 的研究團隊發現,人類與人形機器人之間存在根本性的運動學差異以及動作分布鴻溝。簡單地將這兩類異構數據混合進行訓練,模型往往難以有效區分并利用不同來源數據各自的優勢,從而導致數據利用效率不理想。那么,如何才能真正高效地利用這些異構數據呢?

核心思路在于 “解耦”:與其讓模型在統一混合訓練中自行消化所有數據,不如將學習過程拆分為多個階段,使每個階段都聚焦于從最合適的數據源中學習最關鍵的能力。

具體而言,Ψ? 提出了一種分階段訓練范式:

  • 預訓練階段:在大規模第一人稱視角的人類操作視頻上進行自回歸預訓練,使視覺語言模型(VLM)學習可泛化的視覺 — 動作表征。這一階段的目標并非學習精確的機器人控制,而是從人類豐富的操作經驗中提取高層次的視覺理解與動作語義。
  • 后訓練階段:在高質量的人形機器人真機數據上,訓練一個基于流匹配的多模態擴散動作專家,以學習精確的關節控制能力。這一階段的目標是將前一階段獲得的通用能力 “落地” 到具體的機器人本體上。
  • 微調階段:在針對特定任務收集的少量真機遙操作數據上進行微調,使模型能夠快速適應具體任務場景與操作目標。這一階段的目標是利用少量高質量數據對模型進行任務級對齊,使其在保持通用能力的同時,實現高成功率的任務執行。



圖 2 Ψ? 采用經典的三階段訓練配方

訓練配方(Training Recipe)

1. 預訓練:從人類視頻中學習操作先驗

Ψ? 的預訓練階段主要基于兩個數據集:EgoDex(約 829 小時的人類第一人稱靈巧操作視頻)和 Humanoid Everyday(約 31 小時、覆蓋 260 種任務的人形機器人數據)。

為實現人類手部數據與機器人末端執行器數據的統一訓練,團隊設計了共享的任務空間動作表征:左右手各 24 維動作表示,其中包含 9 維腕部位姿(3D 位置 + 6D 旋轉)以及五根手指的 3D 指尖位置,總計 48 維。

在訓練效率方面,團隊做出了一個關鍵取舍:預訓練階段的核心目標是讓 VLM 習得操作語義與視覺表征,而非精確的運動控制,因此僅預測單步動作即可,無需預測完整的動作序列。具體實現上,研究團隊采用 FAST tokenizer 將連續動作離散化,將每條 48 維動作壓縮為約 20 個 token。

2. 后訓練:在真機數據上學習精確控制

預訓練賦予了 VLM 操作語義理解與視覺表征能力。接下來的問題是:如何將這些高層能力轉化為關節級的精確控制?

Ψ? 的做法是凍結已訓練好的 VLM 參數,從零訓練動作專家模塊 —— 以 VLM 提取的隱層特征為條件,通過 Flow Matching 學習生成精確的關節空間動作序列。動作專家采用 MM-DiT 架構,在這一階段發揮了關鍵作用:模型利用 flow 時間步特征分別調制動作(A)特征和視覺 — 語言(VL)特征,并在每個 Transformer Block 中使動作 token 與 VL token 進行聯合的全局注意力計算。

這一階段使用跨任務的真實人形機器人數據進行訓練,為后續特定任務的微調打下了堅實基礎。

3. 微調:少量數據快速習得復雜技能

在擁有預訓練的 VLM 與后訓練得到的動作專家之后,整個模型可以在少量領域內遙操作數據上進行端到端微調,從而快速習得長時域、高靈巧度的全身操作能力。

04 模型架構篇:三大系統各司其職,

解耦大小腦實現全身控制



圖3 Ψ? 的模型架構

Ψ? 在模型架構上同樣遵循 “解耦” 的設計理念。考慮到視覺理解、動作生成與底層運動控制屬于不同層級的問題,系統將這些能力拆分為三個協同模塊:視覺語言策略、動作專家以及底層控制器。三者分工協作,從高層語義理解到低層控制逐級完成決策與執行。

System-2:視覺語言骨干網絡

Ψ? 的高層策略以視覺語言模型(VLM)作為 “大腦”,負責理解視覺場景與語言指令。具體實現上,團隊選用了當前性能領先的 Qwen3-VL-2B-Instruct 作為該模塊的基座模型。

System-1:多模態擴散 Transformer 動作專家

在 VLM 提取的視覺 — 語言特征條件引導下,一個約 5 億參數的動作專家負責預測全身動作序列(動作片段,action chunk)。該模塊采用基于 Flow Matching 的多模態擴散 Transformer(MM-DiT)架構。相比普通的 DiT 動作頭,MM-DiT 能夠更高效地融合動作特征與視覺 — 語言特征,從而實現更精準的動作生成。

System-0:強化學習運動控制器

動作專家輸出的全身動作中,上半身的 28 個自由度關節角直接下發執行;下半身的 8 維高層動作指令(包含俯仰角、身體高度、線速度等)則傳遞給 System-0—— 一個基于強化學習的底層跟蹤策略。該模塊采用現成的 AMO 控制器,負責將這些高層指令映射為 15 個自由度下半身關節角(3 個腰部 + 12 個腿部自由度)。

三個系統協同配合,最終輸出 43 個自由度的全身控制動作,實現人形機器人的靈巧操作與穩定移動。

05 模型部署篇:實時動作輸出,

一倍速絲滑執行各類任務

在人形機器人任務中,模型不僅需要生成精確動作,還需要滿足實時控制的要求。然而,大規模視覺 — 語言 — 動作模型往往存在推理延遲,容易導致機器人動作不連續,并可能出現抖動。Ψ? 通過在訓練階段引入實時動作分塊(RTC)機制,使模型在推理時能夠平滑銜接動作序列,從而實現穩定、流暢的實時控制。





圖 4 Ψ? 展示的真機技能:倒水、握住把手、推車一氣呵成

訓練時實時動作分塊(Training-time RTC)

人形機器人需要流暢、快速響應的控制能力,尤其是在執行需要長時域規劃的精細操作任務時。然而,目前主流的視覺 — 語言 — 動作模型(VLA)普遍參數量達到數十億級,這不可避免地帶來了推理延遲,導致機器人出現 “不自然的走走停?!?行為。

為此,Ψ? 團隊在訓練階段引入了實時動作分塊(Real-Time Chunking,RTC)機制。RTC 的核心思想是:每次預測下一段動作時,模型會將上一段已提交執行的動作塊作為條件輸入。這樣,模型能夠輸出連貫一致的未來動作序列。

為了讓訓練過程真實反映實際推理中的延遲情況,團隊在訓練時隨機對前 d 個動作 token 去除擴散噪聲,并在損失計算中將其屏蔽。其中,d 在 0 到 d_max 之間均勻采樣,d_max 表示以時間步為單位的最大推理延遲上限。

06 真機評測:八項任務實測,

平均成功率超基線 40%

為了驗證模型在真實環境中的泛化能力與穩定性表現,Ψ? 在多個真實場景中的長時域操作任務上進行了系統性評測。實驗結果表明,在僅使用約 800 小時人類視頻數據和 30 小時真機數據進行訓練的情況下,Ψ? 在整體成功率上仍顯著領先現有基線方法。





圖 5 Ψ? 展示的真機任務,轉身倒水、擦碗、疊碗

如圖 4~8 所示,Ψ? 在八個真實場景的長時域操作任務上進行了評估,涵蓋了日常生活中的多種場景 —— 從抓取放置、推物、擦拭等基礎交互,到需要精細手指協調的靈巧操作(如擰水龍頭、勾出薯片托盤),再到涉及軀干旋轉、下蹲等全身動作,以及行走和轉向的移動任務,任務難度跨度極大。

在評估協議方面,每個任務收集了 80 條遙操作軌跡,所有基線模型均在相同數據集上進行了微調。每個任務由 3 到 5 個子任務組成,在報告整體成功率的同時,也單獨統計了每個子任務的成功率。



圖6 與基線模型的評估實驗結果對比

如圖 6 所示,Ψ? 模型在所有基線方法中表現最為突出,在八個長時域靈巧移動操作任務中均保持最穩定的性能。尤其值得一提的是,它的平均整體成功率比排名第二的GR00T-N1.6—— 最新發布的人形機器人基礎模型 —— 高出至少 40%,而這些基線方法通常使用的訓練數據規模超過 Ψ? 的 10 倍。





圖 7 Ψ? 展示的真機任務:擰水龍頭,給人類遞水果籃

Ψ? 的優異表現源于其分階段訓練范式:模型首先在大規模人類第一人稱操作視頻上進行視覺語言預訓練,從而學習與操作任務相關的視覺語義與動作先驗。隨后,利用高質量的人形機器人真機數據訓練動作專家,使模型在機器人關節空間中建立精確的控制能力。通過這種逐步對齊的學習過程,高層語義理解可以自然過渡到低層運動控制,從而在復雜長時域操作任務中實現穩定且高效的表現。





圖 8 Ψ? 展示的真機任務:抽出薯片筒,扔垃圾,雙手抱物下蹲

07 結論

這一結果有力地說明了一個關鍵洞察:有效的 scaling 并非單純堆積數據,而是用合適的數據,以正確的方式進行 scaling。具體而言,高質量的第一人稱人類操作數據與領域特定的真機軌跡數據的組合,能夠帶來顯著優異的性能表現。

更重要的是,這僅僅是一個開始。未來,隨著模型記憶能力的增強、更靈巧的機械手的引入,以及觸覺等多模態感知的加入,我們有理由相信,機器人將逐步具備更強的理解、學習與適應能力。它們不僅能夠完成單一任務,還將能夠在復雜的真實世界中持續學習、協作與進化。我們期待,這一方向的探索能夠推動通用機器人邁向一個更加開放、充滿可能性的未來。

作者簡介:

PSI-0項目由南加州大學 Physical Superintelligence Lab(PSI Lab,https://psi-lab.ai)與 WorldEngine 合作完成。該工作由南加州大學計算機科學助理教授王越指導,主要作者包括南加州大學博士生魏松林、李博謙、景弘毅,以及本科生趙振宇。

PSI Lab 致力于構建能夠在真實人類環境中安全、自主運行的物理智能體,推動人形機器人從實驗室走向日常生活。圍繞這一目標,實驗室持續開展機器人數據引擎、學習算法與系統部署等方向的研究,重點關注多模態數據構建、world model 與VLA、全身控制以及靈巧操作等關鍵問題,并強調算法研發與真實機器人系統落地的緊密結合。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
日媒:美“新型”稀土技術,可高效清潔回收稀土,或動搖稀土霸權

日媒:美“新型”稀土技術,可高效清潔回收稀土,或動搖稀土霸權

爆角追蹤
2026-03-27 14:43:47
“咬死”ASML,禁止維修光刻機只是開始,輪到中國工程師頭疼了!

“咬死”ASML,禁止維修光刻機只是開始,輪到中國工程師頭疼了!

流史歲月
2026-03-27 12:05:09
時代最令人失望者!加州州長怒批馬斯克:親手將美國電車王冠讓給了中國

時代最令人失望者!加州州長怒批馬斯克:親手將美國電車王冠讓給了中國

快科技
2026-03-27 14:18:12
獨家|中遠海運集運旗下兩艘集裝箱船已向波斯灣方向折返 暫未通過霍爾木茲海峽

獨家|中遠海運集運旗下兩艘集裝箱船已向波斯灣方向折返 暫未通過霍爾木茲海峽

財聯社
2026-03-27 15:20:06
美國內閣花式夸夸群再上演,美國內政部長:委內瑞拉應為特朗普立雕像;美國國防部長:特朗普為“自由世界”所作的努力“應載入史冊”

美國內閣花式夸夸群再上演,美國內政部長:委內瑞拉應為特朗普立雕像;美國國防部長:特朗普為“自由世界”所作的努力“應載入史冊”

極目新聞
2026-03-27 20:01:33
女教師回家途中被撞倒后遭碾壓拖行5.9公里后身亡,肇事司機涉嫌超速醉駕、銷毀證據、找人“頂包”,車上多人被公訴

女教師回家途中被撞倒后遭碾壓拖行5.9公里后身亡,肇事司機涉嫌超速醉駕、銷毀證據、找人“頂包”,車上多人被公訴

每日經濟新聞
2026-03-27 20:23:04
荷媒:世界杯正賽隊庫拉索面對中國表現平平,沒展示出任何競爭力

荷媒:世界杯正賽隊庫拉索面對中國表現平平,沒展示出任何競爭力

懂球帝
2026-03-27 20:30:12
伊朗宣布:關閉霍爾木茲海峽,通過者將遭嚴厲打擊,敦促西亞各國民眾立即撤離美軍駐扎區域!特朗普:伊朗想讓我當最高領袖,但我拒絕了

伊朗宣布:關閉霍爾木茲海峽,通過者將遭嚴厲打擊,敦促西亞各國民眾立即撤離美軍駐扎區域!特朗普:伊朗想讓我當最高領袖,但我拒絕了

每日經濟新聞
2026-03-27 18:47:26
打虎!廣東省政協副主席郭永航被查

打虎!廣東省政協副主席郭永航被查

極目新聞
2026-03-27 18:37:06
浙江宣傳批《逐玉》男主演“粉底液將軍”:肌膚細膩、形象輕佻

浙江宣傳批《逐玉》男主演“粉底液將軍”:肌膚細膩、形象輕佻

互聯網大觀
2026-03-27 10:39:27
鄧超孫儷正式解綁:16年婚姻,各自安好

鄧超孫儷正式解綁:16年婚姻,各自安好

手工制作阿殲
2026-03-27 20:41:14
張本智和回擊中國網友:我是自愿加入日本籍的,憑啥讓我滾出四川?哭訴:那是我老家

張本智和回擊中國網友:我是自愿加入日本籍的,憑啥讓我滾出四川?哭訴:那是我老家

乒乓網國球匯
2026-03-27 00:03:40
張雪峰女兒張姩菡發文緬懷爸爸,引網友淚目

張雪峰女兒張姩菡發文緬懷爸爸,引網友淚目

環球網資訊
2026-03-27 10:41:04
打虎!郭永航被查

打虎!郭永航被查

新京報
2026-03-27 18:25:25
張雪峰去世事件升級!網傳有健身房的跑步機空無一人,恐慌加劇…

張雪峰去世事件升級!網傳有健身房的跑步機空無一人,恐慌加劇…

火山詩話
2026-03-27 17:20:58
慘烈!劉傳興僅打1分鐘遭陶漢林肘擊痛苦倒地 被擔架車推下場

慘烈!劉傳興僅打1分鐘遭陶漢林肘擊痛苦倒地 被擔架車推下場

醉臥浮生
2026-03-27 20:16:10
一女子在湖南省道縣人民醫院生產后,與新生兒不幸雙雙離世,多方回應

一女子在湖南省道縣人民醫院生產后,與新生兒不幸雙雙離世,多方回應

半島官網
2026-03-27 15:13:26
庫拉索怎么進世界杯的?國足并不菜!張玉寧8.5分最高 韋世豪第二

庫拉索怎么進世界杯的?國足并不菜!張玉寧8.5分最高 韋世豪第二

刀鋒體育
2026-03-27 16:37:11
法國發布重磅提醒?美軍若強行插手臺海,法國軍事分析做出推演

法國發布重磅提醒?美軍若強行插手臺海,法國軍事分析做出推演

安安說
2026-03-27 12:18:51
楊希今天單挑完勝2大歐洲聯賽主力前鋒:坐穩國足主力右后衛!

楊希今天單挑完勝2大歐洲聯賽主力前鋒:坐穩國足主力右后衛!

邱澤云
2026-03-27 17:57:00
2026-03-27 22:11:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12619文章數 142595關注度
往期回顧 全部

科技要聞

楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

頭條要聞

男生欲性侵15歲女同學將其殺害 事后去事發地查看情況

頭條要聞

男生欲性侵15歲女同學將其殺害 事后去事發地查看情況

體育要聞

邵佳一:足球就像一場馬拉松

娛樂要聞

范瑋琪加盟,官宣《浪姐7》遭全網抵制

財經要聞

我在小吃培訓機構學習“科技與狠活”

汽車要聞

與眾08,金標大眾不能輸的一戰

態度原創

游戲
數碼
時尚
房產
本地

PS5國行版官宣漲價!Pro版高達6299元!

數碼要聞

哈趣Ace1:百元價位千元體驗,IP67防護+杜比級聲場的全能耳夾耳機

女友BELLA+封面 | 張哲旭&弭金:尋找與契合

房產要聞

6.8萬方!天河員村再征地,金融城西區開發全面提速

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

無障礙瀏覽 進入關懷版