337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

智在無界發布最強具身世界模型,20萬小時人類視頻屠榜6大榜單

0
分享至



機器之心發布

「人類視頻,是機器人理解并與物理世界交互的最關鍵路徑。」

這句如今逐漸成為行業共識的判斷,其實最早來自一家國內具身智能初創公司 ——BeingBeyond(智在無界)。

在過去半年中,這家公司完成了「海量人類視頻訓練」的兩個重要里程碑:相繼發布了全球首個基于1000 小時1 萬小時人類視頻預訓練的具身模型 —— Being-H0 與 H0.5,率先開辟了「大規模人類視頻驅動具身學習」的技術路線。

隨后,NVIDIA 的 EgoScale、Generalist AI 的 GEN-1 等海外工作陸續跟進,也從側面印證了這一方向的前瞻性。

作為人類視頻學習路線的開創者,4 月 14 日,智在無界發布第三代旗艦模型 Being-H0.7,該模型將數據規模擴展至20 萬小時人類視頻,并提出一種全新的范式 ——基于潛空間推理的世界模型。在 6 項國際性權威評測中,H0.7 綜合排名全球第一(其中 4 項登頂),同時也是首個覆蓋跨本體、跨場景、連續動態、流體、柔性物體、物理規律與上下文推理等七大關鍵維度的通用世界模型。



  • 主頁鏈接:
  • https://research.beingbeyond.com/being-h07
  • 論文鏈接:
  • https://research.beingbeyond.com/projects/being-h07/being-h07.pdf

Past?Present?Future

世界模型的分野

「世界模型(World Model)」最初其實是一個非常樸素的概念:給定當前狀態和動作,預測下一時刻的狀態。



早在 2018 年, Jürgen Schmidhuber 就在其《World Models》中系統闡述了用神經網絡建模動力學的思路。但隨著生成模型的發展,一個逐漸流行的誤解也隨之出現:世界模型 = 預測未來畫面(逐像素生成)。

事實上,無論是 Schmidhuber 的原始設想,還是 Yann LeCun 團隊在 JEPA (Joint Embedding Predictive Architecture),都從未將「像素級預測」視為核心目標。

原因很簡單,真實世界的「狀態」,遠遠不等同于像素。物體之間的空間關系、柔性物體的形變、液體的流動、摩擦與重力的作用…… 這些決定物理世界運行的關鍵因素,并不能通過逐像素的圖像完全表達。世界模型不應執著于復現「畫面會變成什么樣」,而應學會理解「世界為什么會這樣變化」。

從產業角度看,NVIDIA 當前的世界模型工作在一定程度上回歸到視頻生成路線,這與其「算力提供方」的角色天然形成協同,但對具身智能而言,這并非最優路徑。

智在無界認為,一個理想的世界模型應同時具備兩個核心能力:物理世界理解(Physical Understanding)與物理交互(Physical Interaction)。



現有 AI 模型范式在「物理理解–交互」坐標系中的能力分布,Being-H0.7 在海量人類數據驅動下顯著拓展了世界模型的能力邊界。

按照這一標準回看過去幾年的 AI 發展路徑:從 LLM 到 VLM,再到 AIGC 時代的 Sora、Genie 3,這些模型對視覺世界的理解不斷加深,但始終停留在二維感知層面,缺乏與真實物理世界的交互能力。

近幾年,隨著 VLA 路線的興起,π0.5、GR00T、Being-H0.5 等模型通過在視覺語言模型上微調,直接輸出機器人動作。雖然這讓模型具備了執行任務的能力,但也帶來了新的問題:在訓練過程中,多模態理解能力往往被削弱,模型容易過擬合,很多時候是在「背答案」,而非真正基于環境做出判斷。

為彌補這一缺陷,以英偉達 Cosmos-Policy、DreamZero 為代表的世界模型路線,嘗試通過視頻生成來建模交互。但這類方法不僅計算開銷巨大、難以實時運行,而且基于二維視覺表征的方式,本質上仍然難以真正理解物理世界。

在這樣的背景下,LeCun (AMI Labs) 提出,應構建更加基礎的世界模型,以提升對真實世界的理解能力。而智在無界則更進一步,提出基于潛空間推理的全新范式,同時拓展世界模型在「理解」和「交互」兩個維度上的能力。

20 萬小時人類視頻

H0.7 的「通用世界模型基因」

傳統 VLA 模型只能基于當前觀測預測動作,缺乏對未來變化的建模能力;而視頻生成式世界模型則依賴像素級預測來「想象」未來,但不僅難以抽象物理規律,還帶來了巨大的計算負擔。

事實上,人類視覺系統天然會過濾靜態信息、強化對動態變化的感知,大腦中也存在專門處理運動的區域,用于自動抑制背景干擾。基于這一認知,Being-H0.7 不再追求像素級重建,而是試圖學習一種更高效的能力 —— 類似「物理直覺」的快速判斷機制。

因此,Being-H0.7 選擇了一條不同路徑:不再顯式生成未來畫面,而是提煉那些真正影響未來行動的關鍵信息。

不同于 VLA 從當前觀察直接映射到動作,或視頻生成式世界模型引入龐大的預測模塊,Being-H0.7 在模型內部引入了一組可學習的中間變量(latent queries),作為一塊預留的「思考空間」(latent reasoning)。在前向的過程中,模型將當前觀測、任務目標以及對未來可能演化的判斷壓縮至這一空間,并由其統一指導最終的動作生成。



但這一「思考空間」本身并不天然具備對未來的建模能力。為此,Being-H0.7 采用了雙分支設計:一條路徑在「未來可見」的條件下(后驗視角,posterior branch),引導模型學習哪些中間判斷真正有助于動作決策;另一條路徑在「不可見未來」的真實部署條件下(先驗視角,prior branch),約束模型僅基于當前觀測形成盡可能一致的判斷。

不同于一些工作簡單地將未來信息單向注入世界模型,Being-H0.7 在這兩種視角之間建立持續對齊與相互約束:后驗分支提供未來演化的監督信號,先驗分支嚴格受限于真實可觀測信息。通過不斷對齊,模型逐漸學會在「思考空間」中,自適應地根據當前情景,推理對后續行動真正有用的信息。

這種推理能力,本質上接近于人類的「物理直覺」。現實世界中,人類并不會逐幀預測未來畫面,而是快速判斷:物體接下來會朝哪個方向運動?接觸關系會如何變化?施加的力會帶來穩定還是失衡?交互過程會推進目標還是偏離?

人類之所以能夠在很少試錯的情況下掌握這些能力,是因為這種「直覺」早已在長期進化中內化為本能。

相比之下,僅依賴實驗室數據的機器人系統很難獲得這種能力,更難實現泛化。基于這一洞察,智在無界構建了全球少有的 20 萬小時人類視頻數據集,并據此訓練 Being-H0.7,使模型獲得類似「預訓練基因」的能力,從而真正理解并改變物理世界。



在實現上,H0.7 的結構反而相對簡潔:兩路視角通過注意力掩碼(attention mask)共享主干上下文,只在 latent queries 處進行對齊,并共同接受動作監督。未來信息無需解碼為未來圖像,而以緊湊表征參與訓練。相比 Cosmos Policy 這類視頻生成式世界模型,H0.7 的訓練成本不到其 1%。

另外一個強大的優勢則是推理速度的顯著提升,是 Fast-WAM 的 11 倍,是 imagine-then-execute 這類生成式世界模型的 40 倍以上,Being-H0.7是世界上第一個能夠在端側設備上實時穩定部署的世界模型。強大的推理能力賦予了 H0.7 對于外界動態快速的感知能力,能完成如判斷滑落小球軌跡、高速流水線包裝、液體準確傾倒等這些之前 VLA、世界模型都難以勝任的任務。



在評測方面,不同于多數模型只在單一榜單評測,Being-H0.7 在 6 項全球權威評測榜單上綜合排名世界第一,是目前覆蓋范圍最廣的具身世界模型。在跨本體、跨場景、連續動態、流體、柔性物體、物理規律與上下文推理等七大關鍵維度上,Being-H0.7 均展現出領先的物理理解與泛化能力,其能夠完成復雜的多物體協作、長時序規劃與精細物理交互任務。



為直觀地展示 Being-H0.7「思考空間」中所包含的信息,可以進一步將觀測圖像與 Being-H0.7 先驗分支的中間變量共同作為條件,基于視頻模型對任務未來狀態進行可視化預測。

盡管 Being-H0.7 在推理時并不顯式進行像素級未來重建,其隱空間表征中已經蘊含了對未來世界狀態的預測,體現出「隱式具身世界模型」的核心特征。



真機實驗部分,Being-H0.7 借助世界模型架構,展現出了令人驚喜的表現。做到了更精準的空間感知、物理理解和運動推理能力,更具體地講,實現了以下幾種物理世界級的理解和交互能力:

  • 動態軌跡預測:在高速動態場景下,Being-H0.7 借助物理世界知識和快速推理,能夠預測物體軌跡并精準完成物理世界交互;



  • 物理規律理解:Being-H0.7 通過大規模預訓練構建了豐富的世界知識,能夠準確理解流體物理規律并完成復雜任務指令;



  • 運動推理能力:Being-H0.7 具備物理世界下的動力學推理能力,能夠準確推理物體交互后的空間方位并規劃好動作。



基于以上能力,Being-H0.7 能夠完成高速運動物體的追蹤和接取、精細流體控制、柔性物體交互等高挑戰性的任務。



文中視頻鏈接:https://mp.weixin.qq.com/s/4GBE4mjEPHVakZ0sGbuKlg

世界模型的再定義:從 AMI Labs 到 BeingBeyond

Our main goal is to build intelligent systems that understand the real world —— AMI Labs

面對這一愿景,作為開啟「大規模人類視頻驅動具身學習」這一路線的先行者,BeingBeyond 創始人盧宗青表示:

理解世界不夠,必須學會改變世界。物理世界的理解與交互是不可分割的。如果一個模型只學習「世界會變成什么樣」,而不學習「采取什么行動會導致這種變化」,它本質上仍然是一個被動觀察者,容易退化為「缸中之腦」。

因此,不同于 LeCun,智在無界采用的技術路徑是:同時建模狀態變化與動作生成(joint prediction of state and action)。在數據層面,這一設計自然對應于第一人稱人類視頻,它不僅提供視覺觀測,同時也包含了人類動作。這樣的數據可規模化獲取,天然適用于具身學習。因而,我認為,大規模人類視頻是通向具身基礎模型的一條可行路徑,使機器人能夠從人類行為中學習如何理解并作用于物理世界。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
廣西攔路的路霸已被刑事拘留,網友好奇為啥只抓5人

廣西攔路的路霸已被刑事拘留,網友好奇為啥只抓5人

映射生活的身影
2026-04-16 23:47:58
越南新規!4月15日起,從胡志明機場入境,必須填寫入境卡,不分簽證

越南新規!4月15日起,從胡志明機場入境,必須填寫入境卡,不分簽證

越南語學習平臺
2026-04-17 10:55:47
采訪了100個娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

采訪了100個娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

千秋文化
2026-04-15 20:18:32
東風導彈嚴重泄密案:追查6年無果,卻意外被一賣菜老漢揪出真兇

東風導彈嚴重泄密案:追查6年無果,卻意外被一賣菜老漢揪出真兇

華人星光
2026-04-16 11:44:43
2026醫改大動作:取消24小時值班,終于對醫患雙方都負責了

2026醫改大動作:取消24小時值班,終于對醫患雙方都負責了

貓叔東山再起
2026-04-16 10:25:09
一個女人最珍貴的3個部位,留給真正懂她的男人!

一個女人最珍貴的3個部位,留給真正懂她的男人!

風起見你
2026-04-17 01:21:18
廣東4消息!焦泊喬心情大好,薩林杰已復出,2件事暗示奶茶將被裁

廣東4消息!焦泊喬心情大好,薩林杰已復出,2件事暗示奶茶將被裁

后仰大風車
2026-04-17 08:10:14
打出0:6的巴基斯坦陸軍元帥到訪 伊朗派F-4護航

打出0:6的巴基斯坦陸軍元帥到訪 伊朗派F-4護航

看看新聞Knews
2026-04-16 15:28:10
五百塊從樹農手里買走,數萬、十幾萬賣到別墅區:一棵老柿樹的奇幻漂流

五百塊從樹農手里買走,數萬、十幾萬賣到別墅區:一棵老柿樹的奇幻漂流

新京報
2026-04-16 08:03:24
以色列誰都敢打,為何唯獨不敢動巴基斯坦?核武只是冰山一角

以色列誰都敢打,為何唯獨不敢動巴基斯坦?核武只是冰山一角

泠泠說史
2026-04-11 23:48:34
亞洲飛人劉翔現身智己LS8發布會 久違露面風采不減當年 盛贊智己LS8遠超更貴油車

亞洲飛人劉翔現身智己LS8發布會 久違露面風采不減當年 盛贊智己LS8遠超更貴油車

快科技
2026-04-17 08:04:05
一朝曼城,終身藍月!席爾瓦發文告別自由身離隊,卻遭瓜帥吐槽

一朝曼城,終身藍月!席爾瓦發文告別自由身離隊,卻遭瓜帥吐槽

夜白侃球
2026-04-17 10:38:55
ETC和車牌付怎么選?真實車主實測對比,看完不再糾結被忽悠

ETC和車牌付怎么選?真實車主實測對比,看完不再糾結被忽悠

復轉這些年
2026-04-15 11:07:53
格力怒斥海信,稱其沒資格用“真銅實料”四字進行宣傳,海信高管回懟:又當又立

格力怒斥海信,稱其沒資格用“真銅實料”四字進行宣傳,海信高管回懟:又當又立

大風新聞
2026-04-15 15:07:03
火箭新變化!烏度卡鎖定8人輪換,餅皇遭棄用,火箭變陣針對湖人

火箭新變化!烏度卡鎖定8人輪換,餅皇遭棄用,火箭變陣針對湖人

錢說體育
2026-04-17 12:24:20
我是東北人,去了一趟上海后,聊聊對上海的感受,全是心里話

我是東北人,去了一趟上海后,聊聊對上海的感受,全是心里話

神牛
2026-04-16 14:36:42
特朗普:伊朗已同意幾乎所有要求,達成協議非常樂觀,如在伊斯蘭堡簽署協議,我可能會前往

特朗普:伊朗已同意幾乎所有要求,達成協議非常樂觀,如在伊斯蘭堡簽署協議,我可能會前往

浙江之聲
2026-04-17 12:23:39
中國向伊朗提供緊急人道主義援助

中國向伊朗提供緊急人道主義援助

新華社
2026-04-16 23:43:04
“芯片又不是濃縮鈾,賣給中國怎么了?”

“芯片又不是濃縮鈾,賣給中國怎么了?”

觀察者網
2026-04-16 12:07:05
男子三次騷擾火鍋店女老板,直接被扇飛眼鏡

男子三次騷擾火鍋店女老板,直接被扇飛眼鏡

青木說
2026-04-16 17:35:18
2026-04-17 13:23:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12785文章數 142631關注度
往期回顧 全部

科技要聞

Anthropic推出Opus 4.7,坦言依不及Mythos

頭條要聞

毛焦爾當面"逼宮"匈牙利總統:你不配 趕緊辭職走人

頭條要聞

毛焦爾當面"逼宮"匈牙利總統:你不配 趕緊辭職走人

體育要聞

贏下快船,這場很庫里,很格林,很科爾

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財經要聞

海爾與醫美女王互撕 換血抗衰誰的生意?

汽車要聞

又快又穩的開掛動力! 阿維塔06T全系搭分布式電驅

態度原創

藝術
教育
旅游
數碼
軍事航空

藝術要聞

26幅 中國當代名家風景畫

教育要聞

“恭喜你成太子太傅了”,沙特王子報考上交大研究生,評論區炸鍋

旅游要聞

打卡白色瀑布!鄭州流蘇花、木香花觀賞指南

數碼要聞

佳翼推出M.2平裝版ArcherX PCIe擴展卡,利用顯卡陰影下插槽

軍事要聞

美宣布黎以停火10天 以方稱不會撤軍

無障礙瀏覽 進入關懷版