337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華、西交聯(lián)合開源發(fā)布Cheers : 更簡潔、更高效統(tǒng)一多模態(tài)路線

0
分享至





  • 論文標題:Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation
  • 項目地址:https://github.com/AI9Stars/Cheers
  • 模型地址:https://huggingface.co/ai9stars/Cheers
  • HF Daily Paper:https://huggingface.co/papers/2603.12793
  • 論文鏈接:https://arxiv.org/abs/2603.12793

過去幾年,多模態(tài)模型在理解任務上快速演進,圖像問答、OCR、視覺推理、跨模態(tài)對話等能力不斷提升;與此同時,圖像生成模型也在視覺質(zhì)量、指令遵循和細節(jié)表達上持續(xù)突破。下一步一個自然的問題是:能否用同一個模型,同時做好理解與生成?這正是統(tǒng)一多模態(tài)模型(Unified Multimodal Models, UMMs)正在回答的問題。

但這件事并不容易。理解任務更依賴穩(wěn)定、抽象、適合推理的語義表示,生成任務則要求模型保留充足的局部細節(jié)與高頻紋理,以保證圖像質(zhì)量和真實感。近期越來越多工作都注意到,理解與生成在視覺表征和優(yōu)化目標上存在天然張力,如何在同一個框架中兼顧二者,仍然是統(tǒng)一多模態(tài)建模最核心的挑戰(zhàn)之一。



今天,我們正式介紹并開源發(fā)布 CHEERS。CHEERS 提出了一種面向統(tǒng)一多模態(tài)理解與生成的架構路線:在盡可能保持系統(tǒng)簡潔的前提下,將理解任務與生成任務統(tǒng)一到同一個端到端框架中進行聯(lián)合優(yōu)化,并最大程度繼承開源預訓練模型已有知識。我們希望它回答的不只是 “能否統(tǒng)一”,更是能否以一種足夠簡潔、足夠高效、足夠開源友好的方式完成統(tǒng)一。Cheers 實現(xiàn)了:

  • 統(tǒng)一多模態(tài)理解與生成的端到端框架
  • 保持架構簡潔,同時實現(xiàn)理解與生成聯(lián)合優(yōu)化
  • 零額外預訓練成本,充分繼承開源預訓練模型知識,相對傳統(tǒng) VLM 僅增加輕量 VAE 與 Cascaded Flow Matching Head
  • 更少訓練數(shù)據(jù)下達到同規(guī)模 SOTA / 領先性能
  • 4× token compression,兼顧統(tǒng)一建模與高效率

一、當前統(tǒng)一多模態(tài)模型的技術方案?



從視覺表示角度看,現(xiàn)有工作又大致呈現(xiàn)出幾種典型思路。有些方法會把理解和生成放在相對分離的視覺空間里,各自優(yōu)化、互不干擾,這類方案任務性能通常不差,但統(tǒng)一性相對有限;有些方法更強調(diào)單一語義空間,希望讓同一套表示同時支撐理解與生成,但往往會在結構細節(jié)上遇到瓶頸;還有一些方法嘗試融合異構特征,把語義信息與像素級信息匯總到一起,但融合之后也容易出現(xiàn)干擾和拉扯。CHEERS 的位置,正是在這些路線之間給出一個更加克制的答案:不追求把所有問題壓縮成一種表示,也不走完全分離的雙系統(tǒng),而是在統(tǒng)一框架下重新安排語義與細節(jié)的職責。

二、CHEERS,一條現(xiàn)實可行的統(tǒng)一路線

在這個問題上,CHEERS 的出發(fā)點非常明確:不是為了統(tǒng)一而引入龐大而復雜的組合系統(tǒng),而是在保留已有開源預訓練能力的基礎上,用盡可能小的架構增量完成從 “理解模型” 到 “理解 + 生成統(tǒng)一模型” 的升級。具體來說,CHEERS 構建了一個統(tǒng)一多模態(tài)大模型框架,通過統(tǒng)一視覺 tokenizer、LLM 主干以及 Cascaded Flow Matching Head,將多模態(tài)理解與圖像生成納入同一條端到端鏈路。

這個設計最重要的價值在于兩點。第一,它實現(xiàn)了理解與生成任務的同時優(yōu)化。同一個 LLM 主干既服務于文本自回歸與多模態(tài)理解,也服務于圖像生成過程中的條件建模,從而讓統(tǒng)一不再停留在 “模塊拼裝”,而成為真正端到端的聯(lián)合建模。第二,它盡可能繼承了開源預訓練模型已有知識。CHEERS 不需要為了 “統(tǒng)一化” 額外再做一輪昂貴的大規(guī)模預訓練,而是完整保留并利用已有預訓練能力,讓統(tǒng)一多模態(tài)模型的構建成本顯著降低。對于開源社區(qū)而言,這一點尤其重要,因為真正能被持續(xù)復現(xiàn)、擴展和使用的路線,不只是性能強,更要足夠現(xiàn)實。

三、CHEERS 如何處理 “語義” 和 “細節(jié)”



近期不少統(tǒng)一多模態(tài)工作都已經(jīng)觀察到類似經(jīng)驗:理解更偏向穩(wěn)定語義,生成更依賴細節(jié)保真。這說明問題本身正在逐漸被行業(yè)看清。在 CHEERS 中,視覺信息被組織為兩類互補成分:語義 token 用于多模態(tài)理解和生成條件控制,細節(jié)殘差則用于在生成過程中補足高頻紋理和局部保真。



對應地,在生成階段,CHEERS 采用 “先語義、后細節(jié)” 的級聯(lián)方式:先生成全局語義布局,再通過語義門控逐步注入細節(jié)信息,對局部紋理進行修正和增強。同時我們發(fā)現(xiàn),即便沒有對高頻細節(jié)注入強度做顯式監(jiān)督,模型也會在生成后期自然增強對高頻細節(jié)的使用。這種現(xiàn)象非常像人類作畫時 “先搭結構、再補內(nèi)容、后補紋理” 的過程,也說明 CHEERS 的設計并不是機械堆疊模塊,而是在建模上更貼近理解與生成各自的需求節(jié)奏。

四、小數(shù)據(jù),大性能:

更重要的是特征空間的統(tǒng)一





從實驗結果來看,CHEERS 在同等規(guī)模統(tǒng)一多模態(tài)模型中取得了很強的綜合表現(xiàn)。在多項主流理解基準與生成基準上,CHEERS 都展現(xiàn)出競爭性甚至領先的結果。論文中,CHEERS 在 GenEval 上達到 0.78,在 MMBench、MMStar、AI2D、MathVista 等理解基準上也取得了穩(wěn)健表現(xiàn)。同時,CHEERS 還實現(xiàn)了 4× token compression,為高分辨率視覺理解與生成提供了更高效率的統(tǒng)一建模方式。

相比單純列舉性能,我們更想強調(diào)另一點:CHEERS 達成這些結果時,使用的數(shù)據(jù)規(guī)模顯著小于部分同類方法。CHEERS 總訓練樣本規(guī)模為 83M,相比一些同類工作節(jié)省了約 2× 甚至更多的數(shù)據(jù)需求,仍然能夠達到同規(guī)模 SOTA 或領先性能。這說明 CHEERS 的優(yōu)勢不只是 “訓得出來”,而是它對已有預訓練知識具有更高的繼承和利用效率。某種意義上,這比單純提升某個 benchmark 分數(shù)更值得關注,因為統(tǒng)一多模態(tài)走到今天,真正稀缺的已經(jīng)不只是數(shù)據(jù)規(guī)模,而是如何把已有知識體系更高效地組織起來。

五、總結

在我們看來,CHEERS 的意義不止體現(xiàn)在結果上,也體現(xiàn)在它對統(tǒng)一多模態(tài)研究提供了一些值得繼續(xù)思考的方向。

第一個啟發(fā)是:統(tǒng)一模型真正需要統(tǒng)一的,未必是單一視覺表示本身,而可能是一個足夠穩(wěn)定、足夠高效的信息接口。如果不同任務對視覺信息的需求本來就不同,那么比起強行讓所有能力共享同一份表征,更重要的也許是讓不同信息以合適方式進入統(tǒng)一主干。

第二個啟發(fā)是:理解與生成并不一定互相拖累,關鍵在于架構設計是否合理。論文表明,在統(tǒng)一架構設計下,聯(lián)合訓練生成目標不會顯著破壞理解能力,反而有機會帶來細粒度感知層面的增益。

第三個啟發(fā)是:高效統(tǒng)一多模態(tài),不一定意味著更重、更大、更復雜。CHEERS 用簡單的系統(tǒng)改動,完成了從傳統(tǒng)理解型 VLM 到統(tǒng)一模型的升級,這為后續(xù)很多開源工作提供了一種更現(xiàn)實的參考路徑。

第四個啟發(fā)是:效率問題本身就是統(tǒng)一多模態(tài)問題的一部分。CHEERS 的 4× token compression 不只是工程優(yōu)化,也意味著高分辨率理解與生成可以在更現(xiàn)實的計算預算下被同時納入一個系統(tǒng)中,這對未來更長上下文、更復雜視覺輸入的統(tǒng)一建模都很關鍵。

我們期待的不只是一個更強的模型,而是一條讓更多研究者和開發(fā)者都能繼續(xù)往前推進的路線。因此我們開源了訓練、推理測評代碼和模型權重,并于近期開源微調(diào)數(shù)據(jù)。希望大家可以支持我們的工作。

作者簡介:

張易辰,碩士,高級工程師,專注于理解生成統(tǒng)一方向,面向基礎模型架構設計、大模型預訓練進行了相關研究;彭達,碩士在讀,專注于多模態(tài)理解和生成、高效推理,面向基礎架構、預訓練、視頻高效編碼進行了相關研究;通訊作者郭宗昊,博士,清華THUNLP訪問學者,專注于多模態(tài)智能,面向多模態(tài)基礎模型架構設計、大模型預訓練與模型深思考能力進行了相關研究,在CVPR、NeurIPS、IJCV等頂會頂刊發(fā)表論文20余篇,谷歌學術引用超2000次。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
央企“最牛女副處長”落馬:兩年與上司開房410次,細節(jié)曝光

央企“最牛女副處長”落馬:兩年與上司開房410次,細節(jié)曝光

西門老爹
2025-12-16 15:35:31
“專科男生古茗8小時”事件,被全網(wǎng)嘲笑:無知的人連裝都不會裝

“專科男生古茗8小時”事件,被全網(wǎng)嘲笑:無知的人連裝都不會裝

妍妍教育日記
2026-02-26 20:37:12
解放軍對越軍山洞使用炸藥汽油,爬出的越軍,說出一數(shù)字令人沉默

解放軍對越軍山洞使用炸藥汽油,爬出的越軍,說出一數(shù)字令人沉默

磊子講史
2026-03-16 14:37:50
外媒:扎哈羅娃警告稱,俄將嚴厲回應西方國家針對有關船只采取的不友好行為

外媒:扎哈羅娃警告稱,俄將嚴厲回應西方國家針對有關船只采取的不友好行為

環(huán)球網(wǎng)資訊
2026-03-26 18:05:41
中國拒G7峰會,法國威脅:歐洲市場或關閉

中國拒G7峰會,法國威脅:歐洲市場或關閉

東風寄的千愁
2026-03-27 22:44:16
中央連發(fā)兩文定調(diào)!不出意外的話,一線城市的房價或迎來大變化

中央連發(fā)兩文定調(diào)!不出意外的話,一線城市的房價或迎來大變化

離離言幾許
2026-03-27 13:47:28
決戰(zhàn)霍爾木茲:美軍A-10與阿帕奇重啟海峽清剿戰(zhàn)

決戰(zhàn)霍爾木茲:美軍A-10與阿帕奇重啟海峽清剿戰(zhàn)

航空之家Aviation
2026-03-25 16:40:34
淺色系穿搭!這個組合讓你在健身房瞬間吸引眼球!

淺色系穿搭!這個組合讓你在健身房瞬間吸引眼球!

獨角showing
2025-12-31 21:08:57
伊朗發(fā)動“真實承諾-4”行動第84波攻勢

伊朗發(fā)動“真實承諾-4”行動第84波攻勢

新華社
2026-03-27 23:55:07
上海14歲初中女生跳樓自殺給父母留下三頁遺書:若有來生絕不再見

上海14歲初中女生跳樓自殺給父母留下三頁遺書:若有來生絕不再見

深度報
2025-08-15 22:42:15
浙江出了個鬼村:6年76名村民離奇死亡,終于一場大火燒出真兇

浙江出了個鬼村:6年76名村民離奇死亡,終于一場大火燒出真兇

梅子就是我
2024-06-03 19:00:09
悲劇!新星進國乒半年就退役,看不慣關系戶,飯圈影響大患抑郁癥

悲劇!新星進國乒半年就退役,看不慣關系戶,飯圈影響大患抑郁癥

八斗小先生
2026-03-27 18:22:28
原來大家的金錢觀已經(jīng)都混亂了,網(wǎng)友:沒有欲望是一件很可怕的事

原來大家的金錢觀已經(jīng)都混亂了,網(wǎng)友:沒有欲望是一件很可怕的事

另子維愛讀史
2026-03-12 22:27:11
取顆耳朵里的沙子,自閉癥男孩被醫(yī)生勸退:我們不接這樣的孩子

取顆耳朵里的沙子,自閉癥男孩被醫(yī)生勸退:我們不接這樣的孩子

大米和小米
2026-03-26 19:04:26
陳羽凡現(xiàn)狀:低調(diào)生活,50歲胖到認不出,17歲兒子1米8長得像媽

陳羽凡現(xiàn)狀:低調(diào)生活,50歲胖到認不出,17歲兒子1米8長得像媽

三公子娛樂丫
2025-05-17 17:59:45
網(wǎng)友曝張雪峰搶救細節(jié):倒地30分鐘才被發(fā)現(xiàn),用ECMO全力搶救無效

網(wǎng)友曝張雪峰搶救細節(jié):倒地30分鐘才被發(fā)現(xiàn),用ECMO全力搶救無效

半窗疏影
2026-03-26 20:17:36
英國NHS實習醫(yī)生涉嫌支持哈馬斯,31歲面臨70年監(jiān)禁

英國NHS實習醫(yī)生涉嫌支持哈馬斯,31歲面臨70年監(jiān)禁

老馬拉車莫少裝
2026-03-27 07:37:33
為什么伊朗泄密者那么多?一位伊朗平民的話才是真相

為什么伊朗泄密者那么多?一位伊朗平民的話才是真相

杯子叨叨
2026-03-06 10:43:15
怒了!羅技官方廣告罵消費者像狗,回應被指甩鍋

怒了!羅技官方廣告罵消費者像狗,回應被指甩鍋

愛吃冰棍的小痞子
2026-03-26 23:35:42
“黃金大買家”,開始拋售黃金

“黃金大買家”,開始拋售黃金

第一財經(jīng)資訊
2026-03-27 13:03:09
2026-03-28 02:40:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12619文章數(shù) 142595關注度
往期回顧 全部

科技要聞

楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

頭條要聞

男醫(yī)生給孕妻做彩超 丈夫崩潰撞墻:不過了 明天就離婚

頭條要聞

男醫(yī)生給孕妻做彩超 丈夫崩潰撞墻:不過了 明天就離婚

體育要聞

邵佳一:足球就像一場馬拉松

娛樂要聞

范瑋琪加盟,官宣《浪姐7》遭全網(wǎng)抵制

財經(jīng)要聞

我在小吃培訓機構學習“科技與狠活”

汽車要聞

與眾08,金標大眾不能輸?shù)囊粦?zhàn)

態(tài)度原創(chuàng)

本地
教育
房產(chǎn)
親子
旅游

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

教育要聞

澳洲留學和vs英國留學哪個更值得?

房產(chǎn)要聞

6.8萬方!天河員村再征地,金融城西區(qū)開發(fā)全面提速

親子要聞

“孕妻彩超現(xiàn)場最荒唐的一幕”:無知偏執(zhí),正在逼瘋正常人!

旅游要聞

日照嵐山“打飛的”賞春成新時尚

無障礙瀏覽 進入關懷版