網易首頁 > 網易號 > 正文申請入駐

阿里ABot-PhysWorld：14B參數視頻模型實現機器人物理世界理解

2026-04-01 22:39:20　來源: 科技行者

北京舉報

分享至

這項由阿里巴巴AMAP CV Lab團隊主導的研究發表于2026年3月的arXiv預印本平臺，論文編號為arXiv:2603.23376v1。有興趣深入了解技術細節的讀者可以通過這個編號查詢完整論文。

當我們觀看科幻電影中機器人靈巧操作物品的場景時，你有沒有想過現實中的機器人為什么還做不到這么自然流暢？問題的關鍵在于，現有的機器人"大腦"——也就是AI模型——雖然能生成看起來很真實的操作視頻，但這些視頻往往違背了最基本的物理定律。就像一個從未接觸過真實世界的畫家，雖然能畫出美麗的圖畫，卻可能畫出漂浮在空中的蘋果或者能穿透桌面的手。

阿里巴巴的研究團隊注意到了這個根本性問題。他們發現，目前最先進的視頻生成模型，包括Google的Veo 3.1和OpenAI的Sora v2 Pro，在生成機器人操作視頻時經常出現物理上不可能的情況：機器人的手會直接穿過物體，被抓起的東西會違反重力定律懸浮在空中，或者物體會發生不自然的變形。這些問題看似只是視覺效果的瑕疵，實際上卻暴露了模型對物理世界理解的根本缺陷。

為了解決這個問題，研究團隊開發了ABot-PhysWorld，這是一個包含140億參數的巨型AI模型。這個數字意味著什么呢？可以這樣理解：如果把每個參數比作一個神經元，那么這個模型的"大腦"包含的神經元數量相當于人類大腦的千分之一，已經是一個相當龐大的人工智能系統了。

這個模型最大的突破在于，它不僅能生成視覺上逼真的機器人操作視頻，更重要的是，這些視頻嚴格遵循物理定律。當機器人抓取一個蘋果時，蘋果會按照真實的重力作用下落；當機器人推動一個盒子時，盒子會按照摩擦力和推力的關系真實移動。這種物理準確性對于機器人學習和仿真至關重要，就像飛行員需要在物理準確的模擬器中訓練一樣。

一、數據收集：構建機器人的"教科書"

要讓AI模型學會物理定律，首先需要給它提供高質量的"教材"。研究團隊面臨的第一個挑戰是：現有的視頻數據雖然數量龐大，但大多數都不適合訓練機器人模型。就像用風景畫來教醫學生解剖學一樣，用普通視頻來訓練機器人模型效果必然有限。

團隊決定從頭構建一個專門的數據集。他們從五個主要的開源機器人數據庫中精心挑選了近300萬個真實的機器人操作視頻片段。這些數據庫包括AgiBot、RoboCoin、RoboMind、Galaxea和OXE等知名項目的成果。每個視頻片段都記錄了真實機器人在真實環境中執行各種任務的完整過程，從簡單的抓取動作到復雜的組裝操作。

然而，原始數據的質量參差不齊，就像一堆混合了各種書籍的圖書館，需要精心整理才能成為有效的學習材料。研究團隊設計了一套嚴格的篩選流程。首先，他們會自動檢測視頻中是否存在明顯的技術問題，比如攝像頭移動、分辨率異常或者時長不合適的片段。接著，他們使用光流分析技術來識別視頻中的運動模式，確保每個片段都包含有意義的機器人動作，而不是靜止畫面或者無關的背景運動。

更重要的是，團隊還需要驗證視頻中的動作是否與控制指令匹配。就像確認一個烹飪視頻中廚師的實際動作是否與菜譜描述一致，研究人員使用先進的視覺分析技術來檢查機器人的視覺動作是否與記錄的控制信號同步。這一步驟至關重要，因為任何不匹配都可能讓模型學到錯誤的操作邏輯。

在數據篩選過程中，團隊還面臨了數據不平衡的問題。某些簡單的抓取動作可能有成千上萬個樣本，而復雜的雙臂協作任務可能只有幾十個例子。這就像一本教科書中基礎章節的內容占了90%，高級內容卻寥寥無幾。為了解決這個問題，研究團隊設計了一個分層抽樣策略。

他們將所有任務分為三個等級：常見任務（如單純的抓?。⒅械热蝿眨ㄈ绶胖煤投询B）、稀有任務（如精密裝配）。對于常見任務，他們會限制樣本數量，避免模型過度學習這些簡單操作。對于中等任務，他們保持適度的樣本比例。而對于稀有但重要的任務，他們會盡可能保留所有樣本，確保模型能學到這些珍貴的操作技巧。

這種策略的效果就像平衡飲食一樣：既不會因為過度攝入某種營養而導致營養失衡，也不會因為缺乏某種關鍵營養而影響健康發育。通過這種方法，最終的訓練數據集既保持了足夠的多樣性，又避免了數據冗余。

二、物理感知的視頻標注：教會AI理解"為什么"

有了高質量的視頻數據還不夠，AI模型還需要理解每個動作背后的物理原理。這就像僅僅看到廚師的動作還不能學會烹飪，還需要理解每個步驟的目的和原理。傳統的視頻標注往往只描述表面現象，比如"機器人抓起了蘋果"，但這對于物理理解來說遠遠不夠。

研究團隊開發了一套革命性的"物理感知"標注系統。這套系統不僅要描述發生了什么，更要解釋為什么會發生，以及如何發生的。當標注一個抓取蘋果的動作時，系統會詳細記錄：機器人手爪如何接觸蘋果表面、接觸點的壓力分布、蘋果在重力作用下的響應、以及整個抓取過程中力的傳遞和平衡關系。

這種標注方式分為四個層次，就像解構一個復雜的音樂作品。第一層是"場景搭建"，描述環境中所有物體的初始狀態和位置關系，就像舞臺布景的詳細說明。第二層是"動作細節"，記錄機器人的每個具體操作，包括運動軌跡、速度變化和力度控制。第三層是"狀態變化"，追蹤環境中每個物體的狀態轉變，從靜止到運動、從分離到接觸。第四層是"視覺總結"，從攝像機的角度描述整個過程的視覺呈現。

為了確保標注的準確性，團隊使用了兩個不同的AI模型來分工合作。第一個是Qwen3-VL 32B模型，專門負責觀察和理解視頻內容。它會仔細分析每一幀畫面，識別其中的物體、動作和狀態變化，然后生成結構化的物理描述。第二個是Qwen3 32B FP8模型，專門負責將這些結構化信息轉換成自然流暢的語言描述。

這種分工就像電影制作中的分鏡師和編劇的合作：分鏡師負責捕捉視覺細節，編劇負責將這些細節組織成連貫的故事。通過這種方式，每個視頻片段都配備了詳細的物理解釋，為AI模型提供了理解真實世界物理法則的豐富素材。

標注系統還特別注重因果關系的記錄。當一個物體因為碰撞而移動時，系統不僅要記錄移動的事實，還要明確指出移動的原因、碰撞的力度、以及運動的物理規律。這種深層次的理解對于模型學習物理直覺至關重要，就像學習物理學不僅要記住公式，更要理解公式背后的物理原理。

三、模型架構：構建物理世界的"翻譯器"

ABot-PhysWorld的核心是一個基于Diffusion Transformer的生成模型，這個名字聽起來很復雜，但我們可以用一個簡單的比喻來理解。如果把視頻生成比作繪畫，那么傳統方法就像一筆畫完整幅畫，而Diffusion方法則像是從一張充滿噪點的畫布開始，逐步去除噪點，最終呈現出清晰的圖像。

這種逐步生成的方式有一個巨大優勢：它允許在生成過程中的每一步都進行物理檢查和修正。就像一個經驗豐富的畫家，在繪畫過程中會不斷觀察和調整，確保每個細節都符合透視法則和光影原理。ABot-PhysWorld在生成每一幀視頻時，都會檢查是否違反了物理定律，如果發現問題就及時修正。

模型的整體架構包含140億個參數，這些參數就像一個巨大的神經網絡，每個神經元都負責處理特定的視覺和物理信息。模型首先會理解輸入的文字指令，比如"機器人用右臂將枕頭整齊地放在被子上"，然后將這個指令轉換成詳細的動作規劃。

接著，模型會開始生成視頻序列。它不是一次性生成完整視頻，而是像動畫師制作動畫一樣，一幀一幀地繪制。每生成一幀，模型都會檢查這一幀是否與前面的幀保持物理一致性。比如，如果前一幀顯示一個球在桌子上，下一幀就不能讓這個球突然出現在空中，除非有合理的物理解釋。

為了實現這種物理檢查能力，研究團隊在模型中嵌入了一套"物理規則引擎"。這套引擎就像一個嚴格的物理老師，會實時監督生成過程，確保每個動作都符合物理常識。當檢測到違反物理的情況時，引擎會要求模型重新生成這一部分內容。

模型還具有跨機器人的泛化能力。傳統的機器人視頻生成通常只能處理特定類型的機器人，就像只會畫特定品種狗的畫家。而ABot-PhysWorld通過學習不同機器人的共同運動規律和物理特性，能夠為各種不同的機器人生成合適的操作視頻。無論是雙臂機器人還是單臂機器人，無論是工業機器人還是家用機器人，模型都能生成物理上合理的操作序列。

四、物理偏好對齊：用"獎懲機制"強化物理直覺

即使有了先進的模型架構和高質量的數據，AI模型在生成視頻時仍然可能出現物理錯誤。這就像一個天賦很好的學生，即使有了好的教材和老師，在學習過程中仍然會犯錯誤。關鍵是要有一個有效的糾錯機制。

研究團隊開發了一套基于"直接偏好優化"（DPO）的訓練方法。這種方法的核心思想是：讓模型學會區分物理上正確和錯誤的視頻，然后獎勵正確的生成結果，懲罰錯誤的生成結果。這就像訓練一個學生，當他給出正確答案時給予表揚，給出錯誤答案時指出問題所在。

具體的實現過程是這樣的：對于每個輸入指令，模型會生成多個不同版本的視頻。然后，一套專門的評判系統會對這些視頻進行物理檢查。這套評判系統由兩個不同的AI模型組成，形成了一種"雙重檢查"機制，確保評判的準確性和公正性。

第一個評判模型是Qwen3-VL 32B，它的任務是觀察視頻并提出具體的物理問題。比如，對于一個抓取蘋果的視頻，這個模型可能會問："機器人的手爪有沒有穿透蘋果？"、"蘋果是否符合重力定律？"、"抓取過程中蘋果的形變是否合理？"。這些問題不是隨意提出的，而是基于對視頻內容的深入分析，針對可能出現的物理問題進行精確詢問。

第二個評判模型是Gemini 3 Pro，它的任務是回答這些物理問題。這個模型會仔細觀察視頻的每一幀，使用"鏈式思考"的方式來分析問題。比如，當被問及蘋果是否符合重力定律時，它會首先掃描整個視頻，標記出蘋果的運動軌跡，然后分析這個軌跡是否合理，最后給出明確的判斷。

通過這種雙重檢查機制，系統能夠準確識別出物理上最合理和最不合理的視頻版本。然后，訓練系統會調整模型參數，讓它更傾向于生成物理合理的版本，同時減少生成物理錯誤版本的概率。

這個過程需要極大的計算資源。由于模型有140億參數，直接調整所有參數會導致內存不足。為了解決這個問題，團隊采用了一種叫做"LoRA"（低秩適應）的技術。這種技術就像在原有的復雜機械上添加一些精密的調節器，而不是重新制造整個機械。通過這種方式，他們能夠用相對較少的資源實現高效的模型優化。

五、動作控制：讓AI理解機器人的"肢體語言"

光能生成物理合理的視頻還不夠，一個真正有用的機器人世界模型還必須能夠理解和執行具體的控制指令。這就像不僅要會看懂舞蹈視頻，還要能夠根據具體的舞蹈動作指導來編排新的舞蹈。

傳統的視頻生成模型主要依賴文字描述，但機器人的控制需要更精確的空間和動作信息。機器人的每個動作都可以用一系列數值來描述：三維空間中的位置坐標、手臂的旋轉角度、手爪的開合程度等。如何將這些抽象的數值轉換成模型能夠理解的格式，是一個關鍵的技術挑戰。

研究團隊的解決方案很有創意：他們將機器人的控制指令轉換成"動作地圖"。這些地圖就像給視頻添加了一層特殊的信息覆蓋層，清楚地標示出機器人應該如何移動。

具體來說，他們將機器人手臂的三維位置投影到二維圖像平面上，用不同顏色的箭頭表示運動方向和深度。手爪的狀態用圓形標記表示，圓形的透明度表示手爪的開合程度。對于雙臂機器人，他們使用紅色和藍色來區分左臂和右臂的動作。

這種視覺化的動作表示方法有幾個優勢。首先，它保留了動作的空間信息，讓模型能夠精確理解每個動作的位置和方向。其次，它與視頻的像素格式兼容，可以直接輸入到視覺模型中進行處理。最重要的是，它提供了一種通用的表示方法，可以適用于不同類型的機器人。

為了處理這些動作地圖，研究團隊在模型中添加了一個并行的"動作處理分支"。這個分支專門負責理解和處理動作指令，而主干網絡負責生成視頻內容。兩個分支的輸出會在適當的層次融合，確保生成的視頻既符合動作要求，又保持視覺質量。

這種并行處理的設計很巧妙，就像一個優秀的指揮家同時關注樂譜和樂隊的演奏效果。動作分支確保每個動作都精確執行，主干網絡確保整體的視覺效果自然流暢。兩者的結合產生了既準確又美觀的機器人操作視頻。

為了避免破壞模型原有的物理知識，研究團隊采用了"零初始化"的融合策略。在訓練開始時，動作分支的貢獻被設置為零，這樣模型可以在保持原有能力的基礎上，逐步學習動作控制。這就像在一首已經很好聽的歌曲中逐步加入新的樂器，而不是突然改變整首歌的風格。

六、評測基準：建立"體檢標準"

要驗證ABot-PhysWorld的性能，需要一套公正、全面的評測標準。然而，現有的評測基準存在一個根本問題：它們主要關注生成視頻與訓練數據的相似度，而不是真正的物理合理性和泛化能力。這就像用背誦課文的能力來評判學生的理解能力，顯然不夠科學。

為了解決這個問題，研究團隊創建了EZSbench（Embodied Zero-Shot Benchmark），這是第一個專門針對機器人視頻生成的零樣本評測基準。"零樣本"意味著測試中使用的機器人、任務和場景都是模型在訓練時從未見過的組合。這就像讓學生面對完全陌生的題型，真正檢驗他們的理解能力而不是記憶能力。

EZSbench的構建過程非常用心。研究團隊首先創建了一個多樣化的初始觀察庫，包含各種不同的機器人類型、操作環境和任務場景。為了確保測試場景的新穎性，他們采用了雙分支策略來生成測試素材。

第一個分支使用文本到圖像的生成模型Nano Banana來創建完全合成的機器人操作場景。這些場景通過控制四個關鍵變量來確保多樣性：機器人形態（不同的手臂結構和外觀）、操作環境（從廚房到工廠的各種場景）、任務類型（從簡單抓取到復雜裝配）、以及觀察視角（不同的攝像機位置和角度）。

第二個分支則是對真實的機器人圖像進行背景編輯，在保持前景機器人和物體不變的情況下，改變背景環境。這種方法能夠創造出在真實物理基礎上的新穎場景組合。

每個測試場景都配備了詳細的物理描述，這些描述經過嚴格的驗證過程。系統會生成運動學上合理的操作軌跡，預測微觀物理交互（如接觸、摩擦、碰撞），然后將這些信息整合成連貫的場景描述。

評測方法也經過精心設計，避免了自我評判的偏見問題。傳統的評測往往使用單一模型既生成問題又回答問題，這容易產生偏見。EZSbench采用了"雙模型解耦"的評測協議。

Qwen3-VL-32B-Thinking模型負責觀察測試視頻并生成具體的物理檢查問題。這些問題基于對初始狀態和操作指令的分析，涵蓋九個維度的物理一致性：空間關系、時間邏輯、物理屬性等。系統會確保30-50%的問題是"反向問題"（比如問紅蘋果是否是綠色的），防止模型通過簡單的肯定回答來作弊。

Qwen2.5-VL-72B-Instruct模型則負責回答這些問題。這個模型會仔細觀察視頻的每一幀，分析其中的物理現象，然后給出明確的判斷。最終的物理得分基于回答與真實情況的一致性來計算。

通過這種嚴格的評測體系，研究團隊能夠客觀地衡量不同模型在物理理解、動作控制和泛化能力方面的表現。

七、實驗結果：性能的全方位驗證

經過嚴格的測試，ABot-PhysWorld在多個方面都顯示出了顯著的性能提升。在PAI-Bench機器人領域子集的測試中，該模型取得了最高的綜合得分0.8491，特別是在領域得分方面達到了0.9306的新紀錄，明顯超過了基礎版本的0.8785。

更重要的是，實驗結果揭示了現有先進模型的一個普遍問題：在視覺質量和物理保真度之間存在權衡。Veo 3.1和Sora v2 Pro等模型雖然在視覺質量方面表現出色（質量得分分別為0.7740和0.7679），但在物理準確性方面相對較弱（領域得分為0.8350和0.7626）。這些模型更注重生成美觀的視頻，而對物理合理性的關注不夠。

ABot-PhysWorld成功打破了這種權衡關系。它在保持競爭性視覺質量（質量得分0.7676）的同時，實現了出色的物理準確性。這表明通過適當的設計，AI模型完全可以在美觀和準確性之間找到平衡點。

在零樣本測試EZSbench上，ABot-PhysWorld同樣表現優異，獲得了最高的綜合得分0.8030。這個結果特別有意義，因為它證明了模型的物理理解能力能夠泛化到訓練時從未見過的場景中。

定性分析更是直觀地展示了不同模型的差異。在處理復雜交互時，基線模型往往出現各種物理錯誤：Sora v2 Pro和Veo 3.1會產生手爪或物體變形；GigaWorld-0和Cosmos出現抓取穿透現象；WoW會產生非接觸抓取和幾何扭曲；UnifoLM和Wan 2.5則會錯誤識別目標物體。

相比之下，ABot-PhysWorld能夠正確識別目標物體，保持時空連貫性，避免變形和穿透現象。在一個典型的測試場景中，當指令要求機器人抓取綠色玩具牛油果并放入不銹鋼鍋中時，其他模型要么抓取了錯誤的物體（如抹刀而非牛油果），要么產生了物理上不可能的變形，而ABot-PhysWorld能夠準確執行整個操作序列，每個步驟都符合物理常識。

在動作控制方面，模型同樣表現出色。在200個動作條件生成的測試實例中，ABot-PhysWorld在像素準確性（PSNR: 21.09）、局部紋理保真度（SSIM: 0.8126）和軌跡一致性（0.8522）方面都超過了基線方法。這些數字背后反映的是模型對精確動作控制的掌握能力。

特別值得注意的是模型的跨機器人泛化能力。測試中包含了各種不同類型的機器人：單臂工業機器人、雙臂協作機器人、不同品牌的家用機器人等。ABot-PhysWorld能夠為所有這些不同的機器人生成合適的操作視頻，說明它學到的是通用的物理規律和操作原理，而不是特定機器人的動作模式。

八、技術創新的深層意義

ABot-PhysWorld的成功不僅僅是一個技術突破，更代表了AI發展的一個重要方向轉變。長期以來，視頻生成領域主要關注視覺逼真度，就像追求一幅畫是否畫得像真的，而忽略了其中的物理合理性。這種做法在娛樂應用中可能問題不大，但對于機器人這樣需要與真實世界交互的應用來說，物理準確性比視覺美觀更加重要。

研究團隊提出的"物理偏好對齊"概念具有重要的理論價值。傳統的機器學習方法通過最小化預測誤差來優化模型，這種方法將所有誤差等同看待。但在物理世界中，不同類型的誤差有著截然不同的重要性。一個輕微的色彩偏差可能無關緊要，但一個違反重力定律的運動就是災難性的錯誤。

通過引入物理知識作為訓練過程中的強約束，ABot-PhysWorld展示了如何將領域專業知識有效地融入到大規模神經網絡中。這種方法論對其他需要專業知識的AI應用領域具有重要的啟發意義，比如醫學診斷、藥物設計、材料科學等。

模型的跨機器人泛化能力也揭示了一個深層次的AI原理：通過學習抽象的物理規律，模型能夠處理具體的、多樣化的實際情況。這就像掌握了數學原理的學生能夠解決各種不同的數學題目一樣。這種抽象能力是真正智能系統的重要特征。

數據策略方面的創新同樣值得關注。分層抽樣和物理感知標注的結合，展示了如何在大規模數據訓練中保持質量控制。隨著AI模型越來越大，訓練數據的質量變得比數量更加重要。ABot-PhysWorld的成功證明，精心策劃的小規模高質量數據集可能比隨意收集的大規模數據集更有效。

九、實際應用前景

ABot-PhysWorld的出現為機器人技術的發展開辟了新的可能性。在工業制造領域，這種能夠生成物理準確操作視頻的模型可以用于機器人動作規劃的預視化。工程師可以在實際部署機器人之前，先通過模型生成的視頻來驗證操作序列的可行性，大大降低了試錯成本。

在機器人教育和訓練方面，這個模型可以充當一個永不疲倦的虛擬教練。新的機器人操作算法可以先在這個虛擬環境中進行大量練習，學會基本的物理交互規律，然后再轉移到真實機器人上進行微調。這種方法可以顯著提高機器人學習的效率和安全性。

對于機器人設計師來說，ABot-PhysWorld提供了一個強大的原型驗證工具。在設計新的機器人結構或操作策略時，設計師可以快速生成模擬視頻來評估設計的有效性，而不需要制造昂貴的物理原型。

在消費級應用中，這種技術可能催生全新的人機交互方式。用戶可以通過自然語言描述他們希望家用機器人執行的任務，系統會生成相應的操作視頻供用戶確認，然后指導真實的機器人執行。這種"所見即所得"的交互模式將使機器人更容易被普通用戶接受和使用。

更進一步，這種技術還可能應用于虛擬現實和增強現實場景中。在VR環境中訓練機器人操作員時，物理準確的模擬將提供更真實的訓練體驗。在AR應用中，用戶可以預覽機器人即將執行的操作，確保操作的安全性和準確性。

十、挑戰與未來發展

盡管ABot-PhysWorld取得了顯著進展，但仍然面臨一些技術挑戰。當前的模型主要基于固定視角的數據訓練，這限制了它在多視角場景中的應用能力。在真實環境中，機器人往往需要從不同角度觀察和操作物體，這要求模型具備更強的空間理解和視角轉換能力。

計算資源的需求也是一個現實挑戰。140億參數的模型需要大量的計算資源來運行，這可能限制了它在資源有限的機器人平臺上的部署。未來的研究需要在保持性能的同時，探索模型壓縮和優化的方法。

模型的實時性能也需要進一步提升。機器人操作往往需要快速響應，而當前的視頻生成過程仍然需要較長時間。如何在保證質量的前提下提高生成速度，是一個重要的工程挑戰。

在更深層次上，當前的模型雖然能夠遵循基本的物理定律，但對于復雜的物理現象（如流體動力學、彈性變形、多體碰撞等）的建模仍然有限。隨著機器人應用場景的擴展，模型需要處理更加復雜和多樣的物理交互。

數據的持續更新和擴展也是一個長期挑戰。隨著機器人技術的快速發展，新的機器人類型、新的操作任務和新的應用場景不斷涌現。如何保持數據集的時效性和覆蓋面，確保模型能夠跟上技術發展的步伐，需要建立持續的數據收集和更新機制。

安全性和可靠性是機器人應用的核心要求。雖然ABot-PhysWorld在物理準確性方面有所提升，但如何確保生成的操作序列在所有情況下都是安全的，如何處理意外情況和異常場景，這些都需要進一步的研究和驗證。

說到底，ABot-PhysWorld代表了機器人AI發展的一個重要里程碑。它成功地將物理知識融入到大規模神經網絡中，為機器人視頻生成技術設立了新的標準。雖然仍然面臨各種挑戰，但這項研究為構建更智能、更可靠的機器人系統指明了方向。隨著技術的不斷完善和應用場景的拓展，我們有理由相信，這種物理感知的AI技術將在未來的智能機器人時代發揮重要作用。

歸根結底，這項研究的最大價值在于它提醒我們：真正有用的AI不僅要看起來聰明，更要真正理解我們所生活的這個物理世界的規律。只有這樣，AI才能真正成為人類的得力助手，而不僅僅是一個會生成漂亮圖像的工具。

Q&A

Q1：ABot-PhysWorld是什么？

A：ABot-PhysWorld是阿里巴巴開發的一個140億參數的AI視頻生成模型，專門為機器人操作設計。它最大的特點是能生成既視覺逼真又符合物理定律的機器人操作視頻，解決了現有模型經常出現物體穿透、違反重力等物理錯誤的問題。

Q2：ABot-PhysWorld如何確保生成的視頻符合物理定律？

A：研究團隊開發了一套"物理偏好對齊"訓練方法。模型會生成多個版本的視頻，然后由兩個不同的AI模型組成評判系統檢查物理合理性，獎勵正確的結果，懲罰錯誤的結果。這就像有一個嚴格的物理老師在實時監督，確保每個動作都符合物理常識。

Q3：這個模型有什么實際用途？

A：ABot-PhysWorld可以用于機器人動作規劃預視化、機器人算法訓練、原型設計驗證等多個領域。比如工程師可以先通過模型驗證操作序列的可行性，或者讓機器人在虛擬環境中練習后再轉移到真實環境，大大提高效率和安全性。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.