網易首頁 > 網易號 > 正文申請入駐

又一國產模型黑馬出世，追平Gemini 2.5 Pro，空間編輯反超視頻模型？

2026-04-10 20:36:22　來源: 智東西

北京舉報

分享至

智東西
作者江宇
編輯漠影

大廠AI戰局升溫，轉型幾乎成為共識。模型在進化，Agent在落地，但成本高、落地難、數據不夠，行業還在補課。

而京東在AI上的布局已然聚焦清晰：圍繞供應鏈優勢，推進具身智能，讓AI真正進入物理世界。此次推出的一體化圖像模型——JoyAI-Image-Edit，高度適用于生成電商、具身智能訓練圖片。

近日，京東開源圖像模型JoyAI-Image-Edit，將空間智能納入圖像理解與編輯，讓AI開始處理真實世界中的空間關系，讓模型真正“理解空間，編輯空間”。

簡單解釋，這是一個以空間智能為核心的圖像生成與編輯模型，讓AI真正“看懂”三維空間，從而讓生成更合理、編輯更精準。

從公開評測來看，JoyAI-Image-Edit各項指標顯著領先，邁進了國際第一梯隊：空間理解刷新同量級開源模型SOTA，達到世界一流水平，大部分指標媲美或超越閉源模型 Gemini 2.5 Pro。長文本生成中英文雙語領先，圖像編輯能力全面覆蓋，空間編輯精度甚至超過部分視頻世界模型。

智東西也實測了一番，在物體位置調整這類場景中，模型能夠穩定保持結構一致性。

值得注意的是，此番調整的物體在畫幅中僅占據很小比例，且原物體并非形狀規則，為毛絨材質，并帶有手部細節。即便如此，模型在移動或旋轉時仍能有效減少透視錯亂與遮擋問題，畫面整體保持自然。

▲輸入圖與指令（左）、輸出圖（右）

進一步看，這類能力的主要落點，在電商內容生產與具身智能訓練這兩類場景尤為適配，進而也能延展到建筑設計、游戲開發和影視制作等場景。電商和具身，恰好與京東現有的AI布局形成了直接呼應。

一、把“空間智能”寫進模型：從“會改圖”到“會動空間”，圖像編輯能力開始分層

傳統圖像編輯模型的短板集中在空間層。語義能跟上，但空間關系容易崩，例如替換物體、修改姿態時，常出現比例失真、遮擋錯誤、光影不一致等問題，本質是缺乏幾何層面的理解能力。

JoyAI-Image-Edit則把“空間編輯”單獨拉出來做能力核心。模型在支持15類通用編輯任務之外，進一步支持物體移動、旋轉、視角變換等空間級操作，并可理解“移動0.3米”“旋轉45度”等具備明確幾何參數的指令，讓編輯過程具備“可控性”。

在能力結構上，模型還采用MLLM+VAE+擴散模型（MMDiT）的統一架構。

具體來說，MLLM負責空間理解與語義建模，擴散模型執行生成與編輯，空間信息直接參與生成過程，形成“理解—生成—再理解”的循環。

空間能力是怎么提升起來的？答案在于數據體系的重構——包括300萬規模的OpenSpatial-3M數據集、多視角生成數據，以及可記錄精確位姿參數的空間編輯數據。這些數據引導模型在訓練階段學習真實幾何關系。

得益于這種設計，在2D語義感知、3D空間理解、4D時空推理三個層級共13項Benchmark上，JoyAI-Image-Edit在9項空間理解Benchmark上均取得顯著提升，平均分達到64.4，追平閉源的Gemini-2.5-Pro。

在SpatialEdit-Bench上，JoyAI-Image-Edit的空間編輯能力表現尤為突出：Object Overall Score為0.649、Camera Overall Score為0.571，大幅領先所有圖像編輯模型，空間編輯精度超越Veo3.1、ViduQ2-Turbo和Kling等視頻世界模型。

與此同時，在業界權威的榜單GEdit（偏向中文指令評測和真實用戶需求）和ImgEdit（偏向全面覆蓋的能力評測，強調推理和精細化編輯能力）上，JoyAI-Image-Edit得分分別為8.27和4.57，刷新開源圖像編輯模型SOTA。

▲在249道評測集黑盒人工評測成績：JoyAI-Image-Edit表現優于Qwen-Image-Edit-2511以及Flux2.Dev

由此可見，將空間理解、生成和編輯整合在同一體系，可以使模型不僅知道“畫什么”，還知道“物體在什么位置、如何變化、是否合理”。

當圖像可以被真正“操作”，而不只是簡單修改時，圖像模型的能力邊界也隨之被重新定義。

二、電商+具身場景高可用，空間能力開始直接“變現”

空間能力成立以后，最先吃到紅利的，就是最依賴“真實世界”的場景。

在電商領域，商品多視角生成、虛擬試衣、商品擺位調整等任務對空間一致性要求極高。

JoyAI-Image-Edit的空間編輯能力——可以移動物體、旋轉角度、調整視角，并理解具體幾何參數——在電商場景下帶來了非常直觀的應用價值。

比如服飾和鞋類商品，經常需要展示不同角度、姿態或搭配組合。使用該模型，可以在原始圖片基礎上一鍵調整衣服折疊角度、鞋子擺放方向或包包手持位置，生成多角度素材，同時保持整體比例、光影和背景一致。

▲輸入圖（左）、輸出圖（右）、指令：Rotate the sneaker to show the front view

類似地，對于家電、家具或小型電子產品，空間編輯可讓商品在不同場景下“自動換位”或旋轉展示，如沙發在不同房間角度、咖啡機在不同臺面布局，無需重拍，就能生成多角度素材。

結合模型的通用編輯能力，還可以同時進行文字標注、色彩微調和背景修飾等“一鍵精修”式功能，實現一次操作完成多種需求。

這樣，電商團隊能夠快速產出多角度、精修、高可用的商品圖，大幅降低拍攝成本，同時保證展示效果的統一。

在具身智能訓練中，這些能力同樣適用。

機器人依賴大量真實世界數據，但采集成本高、周期長。該模型可以生成具備空間一致性的高質量圖像數據，用于補充訓練數據，與真實采集數據形成互補，從而提高訓練效率和模型效果，輔助解決具身行業的數據難題。

此外，通過生成新視角輔助空間推理（Thinking with Novel Views），模型不僅用于內容生產，也能反向提升空間理解能力，為機器人“看懂世界”提供支持。

由此可見，無論是電商還是具身智能，本質都依賴空間理解能力，而JoyAI-Image-Edit正是最直接落地的工具。

三、開源模型亮相，AI全景布局浮現端倪

這次開源JoyAI-Image-Edit顯然是京東聚焦于走向實體世界這一宏大AI布局的一部分，但通過觀察可以發現，開源并不是它唯一的動作。

除了這一模型，京東不久前還開源了JoyAI-LLM Flash模型，能力上在同等參數規模下顯著提升了性能與效率，降低開發者使用門檻，避免單純的參數規模競爭。

與此同時，京東在供應鏈和線下場景中的動作也在悄然推進：一方面，建設全球最大的具身智能數據采集中心，結合模型生成能力進行訓練，為數據難題提供了新的解法；另一方面，通過JoyInside將AI能力嵌入家電、機器人、AI玩具終端，讓模型直接落地真實環境，和用戶產生大量深度交互。

從開源模型的應用和這些場景動作結合來看，可以明顯感受到京東在模型、數據和終端之間嘗試形成閉環。

開源或許只是早期的一步，而京東在產業場景中不斷深挖AI實踐與價值，則讓我們得以觀察到其AI能力的潛在落地路徑。

結語：京東一手開源，一手落地

從JoyAI-Image-Edit這次開源動作可以看到，京東在AI上的選擇很明確：一手開源，一手落地。

在模型側，持續開放能力，把門檻降下來，讓更多開發者可以直接用起來；在場景側，把AI嵌入供應鏈、物理世界、真實產業場景，從數據、模型到終端形成閉環，讓能力在真實環境中跑通。

可見，京東的AI戰略更為務實。

供應鏈是京東最硬的一張牌。在AI時代，這張牌的價值進一步放大——模型可以嵌入商品、物流與設備，數據可以持續回流，能力可以不斷迭代。

在今天，AI有望成為京東的另一張“增長引擎牌”。

注：文中部分輸入圖來源于Arena

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.