337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

FysicsWorld:填補全模態交互與物理感知評測的空白

0
分享至



近年來,多模態大語言模型正在經歷一場快速的范式轉變,新興研究聚焦于構建能夠聯合處理和生成跨語言、視覺、音頻以及其他潛在感官模態信息的統一全模態大模型。此類模型的目標不僅是感知全模態內容,還要將視覺理解和生成整合到統一架構中,從而實現模態間的協同交互。

這種轉變的驅動力源于真實物理世界的復雜性,自從文明誕生以來,人類通過對反映現實世界本質的視覺線索、聽覺信號、空間動態等復雜多模態信息的不斷觀察、分析和推理來實現對真實物理世界的正確認識和理解。

因此,一個面向真實物理世界的先進的全模態智能架構,不僅需要對真實世界中的多模態交互做出正確響應,還應具備遵循物理世界規律的感知與推理能力,以實現對復雜現實環境的可靠理解。

盡管當前的多模態與全模態大模型不斷突破,但評測體系卻始終難以跟上模型能力的擴張——模態覆蓋不完整、模態之間缺乏真實物理世界關聯、各種多模態任務長期局限于文本輸出下的評測,難以反映模型在真實環境中的全模態耦合與人機交互的能力。這讓研究者無法全面評估模型在面對復雜物理世界場景時的實際能力,也無法進行公平、統一的跨模態比較。

為解決這一發展瓶頸,飛捷科思智能科技(上海)有限公司(Fysics AI)和復旦大學認知與智能技術實驗室(CITLab)研究團隊共同正式推出了全球首個面向真實物理世界的統一全模態評測基準——FysicsWorld(中文名稱:物理世界)

該基準不僅能夠評測模型在圖像、視頻、音頻與文本間進行雙向輸入與輸出的能力,還覆蓋了模型對真實物理世界場景的感知、理解、生成以及跨模態推理等核心能力。



圖 1:FysicsWorld 全模態智能評測體系示意圖

FysicsWorld 包括具備高質量樣本的 16 大任務,涉及上百類真實開放域場景,并精心設計了跨模態信息之間的依賴關系與互補性,從而全面呈現物理世界多模態信息的復雜性。



  • 論文標題:FysicsWorld: A Unified Full-Modality Benchmark for Any-to-Any Understanding, Generation, and Reasoning
  • 技術報告鏈接:https://arxiv.org/pdf/2512.12756
  • GitHub 項目主頁鏈接:https://github.com/Fysics-AI/FysicsWorld
  • 數據集鏈接
  • https://huggingface.co/datasets/Fysics-AI/FysicsWorld
  • https://hf-mirror.com/datasets/Fysics-AI/FysicsWorld
  • 模型排行榜鏈接:https://huggingface.co/spaces/Fysics-AI/FysicsWorld-LeaderBoard

此外,FysicsWorld 創新地提出了跨模態互補性篩選策略(Cross-Modal Complementarity Screening, CMCS),其通過嚴格的模態依賴性驗證機制,確保基準中的每個樣本在求解時均必須依賴多種模態的信息融合,從而有效避免「單模態捷徑」帶來的偏差。因此,CMCS 能夠更可靠地評估模型在真實物理世界場景下的多模態綜合智能水平。

通過大量實驗證明,FysicsWorld 不僅能夠清晰揭示當前全模態模型架構在融合多模態理解推理、基于語音驅動的人機交互、跨模態生成及物理現實世界場景感知等環節的真實短板,也為未來面向物理環境的全模態架構研發提供了診斷工具與方向指引。隨著 FysicsWorld 的推出和應用,下一代人工智能正在從簡單的「多模態拼接」邁向真正的全模態統一智能,在面向真實世界的理解和交互方面邁出關鍵一步。

深度挖掘:從「多模態拼接」到

面向真實物理世界的「全模態智能」的深度需求

隨著多模態模型從最初的「視覺 + 語言」,逐步走向「視覺 + 音頻 + 語言」,再到如今面向真實物理世界的全模態統一架構,人們對大模型的期待已遠超「看得懂、聽得懂」。

研究者希望它們能夠在真實環境中準確理解現實物理世界中的復雜場景、整合來自不同感官的信號、進行跨模態推理,并以更加自然、符合物理世界規律的方式與人類交互,為未來具身智能時代的發展奠定基礎。然而,現有評測體系遠遠無法反映模型在真實物理場景下的能力:

  • 模態覆蓋不全:多數跨模態基準仍局限于文本為中心的有限模態中,鮮有工作能夠徹底涵蓋文本 - 圖像 - 視頻 - 音頻為代表的物理世界全模態信息,無法真正評測新一代模型在更為復雜的真實世界場景中的全模態信息融合理解能力。
  • 輸出形式單一:現有的跨模態評測基準大多數僅考察文本輸出,幾乎不涉及多模態生成,也缺乏語音驅動的多模態交互等面向真實世界以人為主體的任務,難以推動未來以語音驅動為基礎的跨模態人機交互的發展。
  • 模態關聯不強:現有的多數跨模態數據集僅僅將多個不同模態信息(例如圖像、視頻、音頻)簡單拼接,進行排列組合,卻忽略了不同模態信息之間的關聯性及耦合性,導致跨模態數據的信息密度較低,不要求模型融合真實物理場景中不同模態的線索進行真正的跨模態理解和推理,這阻礙了對新一代全模態模型的能力探索和深度挖掘。



圖 2:全模態智能評測體系對比圖

在模型能力快速發展、應用場景愈發貼近真實物理世界的今天,一個能夠真正覆蓋任意模態輸入輸出,挖掘以人為主體的語音驅動多模態人機交互能力,并能夠反映模型在物理真實場景下跨模態智能水平的統一評測基準體系,已經成為推動全模態智能向前邁進的迫切需求。

核心突破:FysicsWorld

首次打通「全模態全鏈路」的統一任務體系

全模態評測任務體系:從基礎感知到高階交互的系統覆蓋

FysicsWorld 構建了一套兼顧廣度與深度的任務體系,將 16 項多模態任務系統化地組織為一條從基礎感知延伸至面向真實物理世界的高階交互的能力曲線。

在基礎多模態能力層面,FysicsWorld 全面檢驗模型在圖像理解、視頻理解、音頻推理,以及視覺生成等核心任務上的表現,確保視覺與聽覺能力在細粒度層面得到充分驗證。

在高階跨模態交互層面,FysicsWorld 進一步將評測推向真實應用場景下的跨模態交互任務,構建了細粒度的能力挖掘與評價體系,通過語音驅動的視覺理解與人機交互、基于視覺信息的音頻合成、跨模態綜合邏輯推斷、以及基于動作序列和當前狀態的后續行為預測等任務,共同構成對模型在真實物理世界中多源信號融合、語義一致性、復雜推理與動態環境適應能力的嚴格考查。這些設計不僅關注信息處理本身,更強調模型在真實環境中進行整體決策和協同感知的能力。

憑借這一結構完整、層級清晰的任務體系,FysicsWorld 首次實現了對全模態模型從單模態到多模態、從靜態到動態、從時序到空間、從感知到生成與推理的連續覆蓋,并充分貼合真實物理世界的環境復雜性,為下一代面向物理場景的全模態智能提供了真正意義上的統一評測框架。



圖 3:FysicsWorld 評測體系分類圖



圖 4:FysicsWorld 系統性評測體系示意圖

跨模態數據的融合與高質量構建:新穎的跨模態數據構造流程

FysicsWorld 在數據構建階段采用了嚴謹的多源融合流程。研究團隊從異構高質量數據集中篩選多模態樣本,并通過人工審校與半自動化輔助校對的雙重機制,對語義一致性、表達自然度和場景匹配性進行嚴格篩查,逐步排除不符合標準的內容,確保問答和指令在邏輯與語義上保持高準確度。

在語音驅動的人機交互相關任務中,FysicsWorld 進一步構建了閉環數據構造與驗證流程:先由對文本進行自動化重寫與口語化表述增強,再通過多樣的語音合成技術,基于 10 余種不同的真人語音音色,構造真實自然且高度擬人化的語音交互數據,隨后通過語音識別反向驗證語義一致性,以保證合成的語音內容表達自然、含義明確,并與文本嚴格對齊。

依托這一精細化、多階段的構建模式,FysicsWorld 構建了更加真實與自然的高質量語音驅動人機交互任務,在大規模覆蓋與數據純度之間取得了良好平衡,為全模態任務體系提供了可靠且高質量的基礎數據支撐。

跨模態互補性篩選策略:打破模態孤島,確保跨模態間的信息依賴

在多模態評測中,一個經常被忽視的風險在于,許多任務實際上并不真正依賴多模態信息即可被輕松解決,這使得評測結果難以有效反映模型真實的多模態融合能力。為解決這一長期存在的問題,FysicsWorld 創新地引入了跨模態互補性篩選策略(Cross-Modal Complementarity Screening, CMCS),從數據構造層面確保跨模態任務具備明確的模態信息耦合與依賴。

跨模態互補性篩選策略的核心機制簡單而有效,對于待篩選的跨模態樣本,該策略隨機移除一個或多個模態,并觀察評測模型的性能變化。若模型在模態消融后仍能保持較高的任務表現,則該樣本被視為跨模態依賴不足或信息冗余,因而從 FysicsWorld 中剔除。這類樣本容易使模型依賴單一模態的捷徑作答,無法有效檢驗真實的多模態融合能力。

反之,經過任意模態消融后模型都無法順利解決的數據樣本才會被 FysicsWorld 保留,這些數據能夠體現各模態之間顯著的信息互補性和耦合性,必須整合視覺、聽覺和語言線索的互補證據才能解決這類問題。



圖 5:FysicsWorld 跨模態數據構造示意圖

得益于跨模態互補性篩選策略,最終的數據集具備強模態互補性,使 FysicsWorld 能夠更準確地檢驗模型的真實多模態融合水平,成為當前評估全模態能力最具參考價值的基準之一。

多維度論證:

全模態模型的真實能力圖譜

基于 FysicsWorld,研究團隊圍繞國際上 30 余個最先進的 AI 模型進行了系統性的評測,涵蓋全模態大模型、多模態大模型、特定模態的專用模型以及統一理解與生成式模型。

基礎多模態能力分層清晰,基石仍待打牢

在圖像、視頻和音頻理解的基礎多模態任務中,實驗結果呈現出明顯分層。GPT-5 與 Gemini-2.5-Pro 等閉源模型整體領先,表現穩定可靠。開源全模態模型雖在部分任務上逐漸縮小差距,但在長視頻語義鏈路、復雜聽覺理解以及高難度推理中仍顯薄弱。統一結構的理解 - 生成模型在圖像和視頻生成上展現一定競爭力,但在細粒度文本約束、語義一致性及結構控制能力上仍落后于專門的擴散式或視頻生成模型。

這些結果揭示了當前模型在基礎感知與生成能力上的主要瓶頸,同時為跨模態任務提供了重要的性能基線。



圖 6:音頻推理和視頻生成任務中不同模型性能對比示意圖

跨模態推理與交互:真實世界融合能力仍處早期

當任務從單模態切換到真實物理場景下的多模態協作時,模型性能普遍出現明顯下滑,退化幅度遠超預期——尤其是在那些必須依賴圖像、視頻、音頻之間真實互補關系才能作答的任務中,短板暴露無遺。

無論是通過語音驅動的視覺理解與人機交互、基于視覺信息的音頻合成、跨模態綜合邏輯推斷以及基于動作序列和當前狀態的后續行為預測等任務,都要求模型具備深層次的跨模態交互、真實物理世界常識理解與時空推理能力,嚴格考查了模型在真實物理世界中多源信號融合、語義一致性、復雜推理與動態環境適應能力。然而實測表明,主流模型在面向真實世界的多模態對齊、信息融合、跨模態生成以及物理場景適應能力等關鍵環節,仍存在顯著不足。

這些結果清晰指出,盡管多模態模型在基礎認知上已有顯著進展,但要實現面向真實物理世界的全模態智能,還需要在跨模態融合、動態環境理解、物理約束推理與多源感知協同等方向進一步突破。



圖 7:全模態 / 視覺語言大模型在圖像為中心任務上的性能對比



圖 8:全模態 / 視覺語言大模型在視頻為中心任務上的性能對比

洞察與趨勢:面向真實物理世界的

全模態智能仍有廣闊空間

現有全模態模型和多模態大模型在多源感知和基礎生成上雖已初見成效,但在面對復雜物理場景、多源信息交互以及長時序動態環境時,仍難以實現穩定、深度的跨模態融合與統一推理。

這意味著,面向真實物理世界的全模態智能的下一階段,不僅需要繼續鞏固單模態能力的根基,提升視覺、聽覺、語言等單模態處理在真實場景中的精度與一致性,更需要在模態融合策略上進行系統性優化,實現多模態信息在時空、語義及物理約束維度的協調與整合。

跨模態動態推理、場景化理解與生成能力,將成為衡量下一代全模態模型核心競爭力的關鍵指標。模型不僅需要在復雜物理環境中整合圖像、視頻、音頻與文本信息,還要能夠在長時序、多事件交互、受物理環境約束的情況下保持邏輯一致性、語義連貫性與生成穩定性。這對模型的結構設計、推理機制以及數據構建提出了更高要求,也為研究者和工程團隊提供了明確的發展方向。

作為首個支持全模態輸入輸出、覆蓋感知 - 理解 - 推理 - 生成、并具備強跨模態依賴性的統一評測基準,FysicsWorld 為面向真實物理世界的全模態智能提供了可控、系統且可比較的能力映射工具,使研究者能夠清晰洞察模型在多模態感知、物理場景信息融合和跨模態推理生成上的真實水平,為推動全模態智能在真實世界中實現穩定、深度的跨模態融合與統一推理提供了堅實支撐。

飛捷科思智能科技(上海)有限公司由復旦大學智能機器人與先進制造創新學院副院長、智能機器人研究院常務副院長,原英偉達 PhysX 物理引擎主要奠基人與研發團隊負責人張立華教授創辦,是國內唯一擁有完全自主研發的可微分通用物理仿真引擎產品的企業。

公司以新一代物理仿真引擎 Fysics 為核心,致力于打造全球領先的物理智能關鍵技術與產品,推動具身智能與人形機器人技術研發及應用場景的快速落地,在高精度物理仿真引擎、高質量具身智能仿真平臺、機器人敏捷運動與魯棒智能控制等領域處于行業領先水平,并向行業提供覆蓋「仿真—訓練—部署—迭代」的全棧解決方案。依托自主可控的物理智能底座,公司持續賦能中國具身智能與機器人產業的發展。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
新華社消息|外媒:美國有意停火并與伊朗談判 以色列擔心美方“讓步”

新華社消息|外媒:美國有意停火并與伊朗談判 以色列擔心美方“讓步”

新華社
2026-03-25 09:47:27
14.99萬!“史上最便宜”特斯拉來了

14.99萬!“史上最便宜”特斯拉來了

首席品牌觀察
2026-03-24 16:18:39
中國未來最大敵人:不是特朗普,而是手握殺招、重構科技規則的他

中國未來最大敵人:不是特朗普,而是手握殺招、重構科技規則的他

共工之錨
2026-03-25 01:10:27
加蘭加盟快船起飛!小卡變話癆:他讓我打球太輕松了

加蘭加盟快船起飛!小卡變話癆:他讓我打球太輕松了

仰臥撐FTUer
2026-03-25 11:47:03
鐵證面前,還能撤案?深扒無果、信息全封,路虎車主背景有多硬?

鐵證面前,還能撤案?深扒無果、信息全封,路虎車主背景有多硬?

世界圈
2026-03-24 12:52:50
iOS 26.4 更新,帶來一波新功能

iOS 26.4 更新,帶來一波新功能

果粉俱樂部
2026-03-25 13:10:03
美團致歉:承擔全部費用和損失

美團致歉:承擔全部費用和損失

每日經濟新聞
2026-03-24 15:30:45
伊朗退了,敘利亞退了,巴勒斯坦退了,黎巴嫩退了,塞爾維亞退了

伊朗退了,敘利亞退了,巴勒斯坦退了,黎巴嫩退了,塞爾維亞退了

南權先生
2026-01-29 15:57:27
四川北路沒落后,淮海中路也撐不住了?

四川北路沒落后,淮海中路也撐不住了?

環線房產咨詢
2026-03-24 15:19:16
大膽預測!5年后NBA最強10人:文班穩坐第一,東契奇只排第4?

大膽預測!5年后NBA最強10人:文班穩坐第一,東契奇只排第4?

老郎體育匯
2026-03-25 11:52:55
中國腦梗人數全球第一:肉吃得越少,血管就越通,真的嗎?

中國腦梗人數全球第一:肉吃得越少,血管就越通,真的嗎?

蜉蝣說
2026-03-24 10:00:57
俄官宣重大消息:普京即將訪華!搶在特朗普前,中俄有大事要談

俄官宣重大消息:普京即將訪華!搶在特朗普前,中俄有大事要談

小小科普員
2026-03-24 20:05:51
最后畫面太揪心!張雪峰面部異常,沒能等到女兒11歲生日!

最后畫面太揪心!張雪峰面部異常,沒能等到女兒11歲生日!

我不叫阿哏
2026-03-25 13:55:42
國臺辦:和平統一后,臺灣民眾可沿京臺高速自駕到北京游覽

國臺辦:和平統一后,臺灣民眾可沿京臺高速自駕到北京游覽

紅星新聞
2026-03-25 11:05:43
重磅!6000 萬葡萄牙巨星渴望加盟曼聯,門德斯親自操盤

重磅!6000 萬葡萄牙巨星渴望加盟曼聯,門德斯親自操盤

瀾歸序
2026-03-25 04:28:05
爆料廣東隊裁掉混子球員,要簽約超級中鋒,杜鋒被球迷要求下課

爆料廣東隊裁掉混子球員,要簽約超級中鋒,杜鋒被球迷要求下課

宗介說體育
2026-03-25 10:07:26
女籃世界杯柏林抽簽揭曉:網友熱議中國女籃面臨變數,真正幸運簽待定!

女籃世界杯柏林抽簽揭曉:網友熱議中國女籃面臨變數,真正幸運簽待定!

生活新鮮市
2026-03-25 06:58:57
王石不裝了,頭套也不戴了,直接光頭,不敢喝酒,只喝茶

王石不裝了,頭套也不戴了,直接光頭,不敢喝酒,只喝茶

西樓知趣雜談
2026-03-02 09:44:56
真的要夸夸香飄飄,居然能請到莎莎穿長裙拍商務照,

真的要夸夸香飄飄,居然能請到莎莎穿長裙拍商務照,

小光侃娛樂
2026-03-25 12:40:06
拒絕婚檢!吉林準新娘發帖怒斥,既然不信任我,為何還要跟我結婚

拒絕婚檢!吉林準新娘發帖怒斥,既然不信任我,為何還要跟我結婚

火山詩話
2026-03-23 16:50:31
2026-03-25 15:15:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12594文章數 142592關注度
往期回顧 全部

科技要聞

紅極一時卻草草收場,Sora宣布正式關停

頭條要聞

特朗普:希望通過外交方式停戰 以"挽救百萬人生命"

頭條要聞

特朗普:希望通過外交方式停戰 以"挽救百萬人生命"

體育要聞

NBA最強左手射手,是個右撇子

娛樂要聞

張雪峰經搶救無效不幸去世 年僅41歲

財經要聞

管濤:中東局勢如何影響人民幣匯率走勢?

汽車要聞

智己LS8放大招 30萬內8系旗艦+全線控底盤秀實力

態度原創

房產
親子
本地
藝術
公開課

房產要聞

北上廣深二手房集體回暖!三月小陽春行情全面兌現

親子要聞

韓國女星為懷二胎瘋狂打針,全身浮腫角膜裂開,懷上概率僅0.01%

本地新聞

來永泰同安 赴一場春天的約會

藝術要聞

《百花譜》,這個春天畫花不用愁!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版