近日,京東探索研究院正式開源多模態基礎模型JoyAI-Image-Edit,支持文生圖、圖像理解以及指令引導的圖像編輯。該模型不僅具備像素級精細化編輯能力,更能賦予平面圖像真實的"立體感",是業內首個將空間智能深度融入統一多模態框架的開源模型,在引入空間能力的同時,依然具備強大的通用生成與理解性能。
在公開的Benchmark中,JoyAI-Image-Edit的空間理解和空間編輯能力已達世界一流水平,超過現有開源模型,比肩頂尖閉源模型。
目前,模型已開源,開發者可直接基于其構建空間編輯應用。
![]()
JoyAI-Image-Edit的空間理解和空間編輯能力已達世界一流水平
破局行業痛點:理解與生成之間的“空間斷層”
統一多模態模型是當前學界和產業界共同攻堅的方向,不少頭部公司都在嘗試將圖像理解與生成整合進同一個模型框架。然而,理解與生成的協同在空間維度上存在明顯短板。
這種短板在實際編輯中暴露得尤為突出:移動物體導致結構變形、比例失調;調整物體間的位置關系則遮擋層次全部錯亂;切換視角時透視幾何嚴重失真;反復微調后畫面一致性徹底崩塌。根源在于模型缺乏對三維空間結構的深層理解,理解模塊輸出的語義信息沒有真正"流入"生成模塊的幾何控制過程,編輯操作只是在像素層面"搬運",而非在空間層面"推理"。
JoyAI-Image-Edit正是為此而生——從數據構建、任務設計到訓練策略全鏈路注入空間感知,讓理解、生成與編輯在統一框架內彼此增強。
三大核心亮點:從架構到場景的全面突破
JoyAI-Image-Edit的技術優勢集中體現在三個層面。 第一,生成與理解的深度融合。模型采用MLLM–MMDiT統一架構,徹底打破了理解與生成的邊界。通過視覺感知與生成能力的深度協同,其空間理解指標已可比肩行業頂級閉源模型,在公開Benchmark中領跑同規模開源模型。 第二,空間編輯的范式突破。這是JoyAI-Image-Edit最具辨識度的能力。它支持三類此前開源模型難以勝任的操作:視角變換——用戶可通過自然語言指定相機的偏航角、俯仰角及縮放程度,模型在保持場景幾何一致性的前提下生成新視角圖像;空間漫游——支持連續的視角移動,生成在空間中邏輯連貫的多視角圖像序列,類似于在三維場景中"走動";物體空間關系操控——在保持場景整體結構穩定的前提下,對特定物體進行位移、縮放等空間變換,同時確保遮擋與光影關系自然合理。 第三,多場景的高性能表現。模型同時支持15類通用編輯能力,涵蓋替換、刪除、添加、風格調整等常用操作,結合空間編輯能力,在長文本渲染、多視角一致性生成等高難度任務中均表現卓越。 這些空間編輯能力背后有兩大關鍵技術支撐:一是自研的OpenSpatial數據引擎,實現了空間數據的自動化合成;二是百萬級規模的Blender渲染多視角數據集,使用Blender 4.5渲染了約100萬組多視角圖像,為模型的空間感知能力提供了堅實的數據基礎。
![]()
具身場景,合成空間一致的多角度訓練樣本
落地場景:從電商到具身智能的廣泛想象
JoyAI-Image-Edit的開源,為多個垂直領域打開了新的應用空間。 在電商領域,產品通常需要多角度、多場景展示圖,傳統方式依賴攝影棚實拍或3D建模渲染,成本高、周期長。通過JoyAI-Image-Edit,商家只需一張商品主圖即可自動生成不同角度的展示圖,商品"放入"不同場景時幾何關系依然合理。
![]()
在具身智能領域,空間理解與生成的閉環能力是構建世界模型的基礎。機器人執行導航、抓取等任務時需要對三維空間進行推理,而真實場景數據采集成本極高。JoyAI-Image-Edit可從有限真實圖像出發,合成大量空間一致的多視角訓練樣本,為視覺-語言-動作系統和世界模型提供底層能力支撐。
在3D重建領域,傳統流程依賴多視角實拍或激光雷達掃描,對硬件和拍攝條件要求較高。JoyAI-Image-Edit提供了全新路徑——用戶僅需輸入三張圖片,即可生成幾何一致的多視角圖像序列,在電商三維展示、品牌VI生成、數字孿生、工業仿真及文化遺產保護等場景中前景廣闊。 在建筑設計、游戲與影視領域,設計師可從一張概念圖快速探索不同視角效果,無需啟動完整三維建模流程,顯著提升創意驗證效率。 這不是一次漸進式的版本更新,而是AI圖像編輯從"平面修圖"邁向"空間重塑"的范式級躍遷。隨著模型全面開源,更多開發者將在此基礎上探索空間智能的更多可能。廣大開發者可前往HuggingFace或Github獲取模型。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.