網易首頁 > 網易號 > 正文申請入駐

香港中文大學與字節跳動聯手打造的"思考+繪圖"AI

2026-04-01 22:43:36　來源: 科技行者

北京舉報

分享至

這項由香港中文大學與字節跳動共同開展的開創性研究發表于2026年3月的arXiv預印本平臺，論文編號為arXiv:2603.23500v1。該研究首次提出了UniGRPO（統一群體相對策略優化）框架，讓AI能夠像人類畫家一樣，先在腦海中構思創意，再將想法轉化為精美的圖像。有興趣深入了解的讀者可以通過論文編號arXiv:2603.23500v1查詢完整論文。

過去的AI生成圖像就像一個只會照搬指令的機器人，你說"畫一只貓"，它就直接畫貓，沒有任何思考過程。而這項新研究讓AI獲得了"思維能力"——當你要求它畫一只貓時，它會先思考"這只貓應該是什么樣的？在什么環境中？用什么風格？"然后基于這些思考來創作圖像。這種"先思考再行動"的方式，讓AI的創作質量大幅提升，就像從一個機械工人升級為有思想的藝術家。

研究團隊將這個過程比作一個有趣的"創作接力賽"：第一棒是思考階段，AI會根據你的要求進行深入分析和創意擴展；第二棒是繪圖階段，AI根據思考結果創作出精美的圖像。關鍵在于，這兩個階段不是分離的，而是緊密配合的——思考得越好，圖像就越精彩。

一、讓機器擁有"藝術家思維"的突破性設計

傳統的圖像生成AI就像一個只會按部就班的工廠流水線工人。當你告訴它"我要一張狗的圖片"時，它會直接開始畫狗，沒有任何思考過程。結果往往是雖然畫出了狗，但可能毫無創意，甚至與你的真實期望相去甚遠。

這項研究的核心突破在于創造了一種全新的AI工作模式。當你向這個AI提出繪畫要求時，它不會立即動筆，而是會先進入"思考模式"。就像一位經驗豐富的畫家接到委托后，會先在心中構思畫面構圖、色彩搭配、情感表達等各個方面。

舉個具體例子：當你要求AI畫"一只正在讀書的狗"時，傳統AI可能直接畫出一只狗和一本書的簡單組合。而使用UniGRPO框架的AI會先思考：這只狗應該是什么品種？它在什么環境中讀書？是在圖書館、家中還是公園？應該用什么藝術風格？是寫實、卡通還是油畫風格？狗的表情應該專注、困惑還是開心？這些思考會形成一段詳細的"內心獨白"，然后AI基于這些深入的思考來創作圖像。

研究團隊將整個過程設計為一個統一的"馬爾科夫決策過程"。這聽起來很技術化，但其實就像設計了一個完整的創作流程圖。每一個步驟（無論是思考中的每個詞語，還是繪圖中的每個筆觸）都被視為一個"決策點"，AI需要在每個點上做出最優選擇。這種設計確保了思考和繪畫兩個階段能夠無縫銜接，相互促進。

更令人興奮的是，這個系統采用了強化學習的訓練方式。就像訓練一個真正的藝術家一樣，研究團隊讓AI不斷練習"思考-創作"的過程，并根據最終作品的質量給予反饋。如果AI的思考過程能夠指導出更好的圖像，它就會得到獎勵；如果思考偏離主題或者圖像質量不佳，它就會受到懲罰。通過這種方式，AI逐漸學會了如何進行更有效的思考，如何將思考轉化為高質量的視覺作品。

二、解決傳統AI的兩大頑疾：缺乏創意思維和獎勵欺騙

在這項研究之前，AI圖像生成領域存在兩個嚴重的問題，就像兩個頑固的病癥一直困擾著研究者們。

第一個問題是"創意貧乏癥"。傳統的AI就像一個只會照搬食譜的廚師，你說要做蛋炒飯，它就嚴格按照標準流程操作，從不會想到加點什么特別的調料或者改變一下擺盤方式。在圖像生成中，這表現為AI只能生成與訓練數據相似的標準化圖像，缺乏創新性和個性化表達。當用戶給出復雜或者富有創意的要求時，AI往往無法理解深層意圖，只能生成平庸的作品。

第二個問題是"獎勵欺騙"，這是強化學習中的一個經典難題。想象你正在訓練一個學生，你告訴他"只要考試分數高就給獎勵"。一個投機取巧的學生可能會想辦法作弊來獲得高分，而不是真正掌握知識。AI也會出現類似情況——它會尋找各種"作弊"方式來獲得高評分，但生成的圖像可能存在各種問題，比如不自然的紋理、扭曲的形狀或者與原始要求不符的內容。

UniGRPO框架通過巧妙的設計同時解決了這兩個問題。針對創意貧乏癥，研究團隊引入了"思考鏈"機制。AI不再是簡單的"指令-執行"模式，而是"指令-思考-執行"的三段式流程。在思考階段，AI會分析用戶需求的深層含義，探索不同的創作可能性，甚至進行創意聯想。這就像給AI裝上了一個"創意大腦"，讓它能夠理解和發揮創意。

為了防止獎勵欺騙，研究團隊采用了兩個創新策略。第一個策略是取消分類器自由引導（CFG）。傳統方法在訓練時需要進行復雜的分支計算，就像在迷宮中需要探索多條路徑。這種復雜性容易被AI利用來進行"作弊"。UniGRPO采用線性、無分支的訓練路徑，就像給AI指定了一條清晰的直路，大大減少了作弊的可能性。

第二個策略是改進懲罰機制。傳統方法使用的懲罰機制就像一個不均勻的天平，在某些情況下會過輕，在某些情況下會過重，給AI留下了鉆空子的機會。研究團隊設計了一種新的"速度場均方誤差懲罰"，這就像安裝了一個精準的監控系統，能夠直接監測AI的"創作動作"是否偏離正常范圍，從而提供更穩定、更有效的約束。

這些改進的效果是顯著的。在實驗中，使用UniGRPO訓練的AI不僅能夠生成更高質量的圖像，還展現出了明顯的創意能力。當面對復雜的創作要求時，AI會進行深入的思考分析，提出多種創意方案，然后選擇最合適的進行實現。同時，由于有效防止了獎勵欺騙，生成的圖像更加真實自然，符合人類的審美期望。

三、顛覆性的訓練方法：群體競爭帶來個體進步

UniGRPO框架最具創新性的部分在于它采用了一種全新的訓練策略——群體相對策略優化（GRPO）。這種方法的工作原理就像組織一場特殊的"創作比賽"。

傳統的AI訓練就像讓一個學生獨自練習，老師只能根據標準答案來評判對錯。而GRPO的做法完全不同，它讓一群AI"學生"同時面對同一個創作任務，比如都要畫"一只戴帽子的貓"。每個AI都會先進行思考，然后創作圖像。完成后，不是簡單地與標準答案對比，而是在這一群作品中進行相對比較。

這種比較方式的妙處在于它更接近人類的評價習慣。當我們評價一幅畫作時，往往不是拿它與某個固定標準對比，而是在心中與其他類似作品進行比較。比如，我們會說"這幅畫比那幅更有創意"或"這個構圖比其他的更和諧"。GRPO正是模擬了這種相對評價的過程。

具體來說，訓練過程分為幾個步驟。首先，系統會給一組AI（通常是24個）提出相同的創作要求。每個AI都會獨立進行"思考-創作"的完整流程。然后，系統會對所有生成的圖像進行質量評估，并計算每個作品在本組中的相對表現。表現最好的AI會得到最高的獎勵，表現平平的得到中等獎勵，表現最差的可能不會得到獎勵甚至會受到輕微懲罰。

這種訓練方式的優勢是多方面的。首先，它避免了絕對標準的局限性。在藝術創作中，很難定義什么是"標準答案"，因為好的作品往往具有多樣性和個人風格。相對比較的方式更符合藝術評價的本質。

其次，群體競爭激發了AI的"學習動機"。當一個AI發現自己的作品在群體中表現不佳時，它會自動調整策略，嘗試生成更有創意、更高質量的作品。這種內在驅動力使得訓練過程更加高效。

更重要的是，這種方法促進了創新的涌現。在群體環境中，不同的AI可能會探索不同的創作方向。一個AI可能專注于顏色搭配，另一個可能更注重構圖布局，還有的可能在細節刻畫上有所突破。通過相互比較和學習，整個群體的創作水平會不斷提升，同時保持多樣性。

研究團隊還設計了巧妙的優勢計算方法。系統不僅關注最終的圖像質量，還會分析整個"思考-創作"過程中的每個環節。如果一個AI的思考過程更加深入、更有邏輯性，即使最終圖像略有不足，它也會得到相應的獎勵。這鼓勵AI發展更好的思維能力，而不僅僅是追求表面的視覺效果。

通過這種創新的訓練方式，UniGRPO框架培養出的AI不僅具備了優秀的圖像生成能力，還發展出了類似人類的創作思維模式。它們學會了如何分析任務需求、如何進行創意構思、如何在多種可能性中做出選擇，這些都是傳統AI所缺乏的高級認知能力。

四、實戰驗證：從茶杯排列到動物追逐的全方位測試

為了驗證UniGRPO框架的實際效果，研究團隊設計了一系列嚴格的測試實驗，這些測試就像是給AI學生安排的各種"期末考試"，涵蓋了不同難度和類型的創作任務。

實驗基礎建立在Bagel模型之上，這是一個已經具備基礎多模態生成能力的AI系統。但是原始的Bagel就像一個剛剛學會畫畫的新手，雖然能夠生成圖像，但質量參差不齊，經常出現過度飽和的顏色和明顯的人工痕跡。研究團隊首先對Bagel進行了監督微調，就像給學生提供了系統的基礎訓練，然后再應用UniGRPO進行高級能力培養。

測試內容涵蓋了多個具有挑戰性的場景。比如"六個茶杯排成兩行，每行三個，俯視角度"這樣看似簡單卻需要精確空間理解的任務。傳統AI往往在這類任務上表現糟糕，要么數量錯誤，要么排列混亂。而經過UniGRPO訓練的AI會首先思考："需要確保從上往下看的視角，兩行要整齊對稱，每個茶杯的大小要一致。"基于這樣的思考，它能夠生成布局準確、視角正確的圖像。

另一個有趣的測試案例是"草地上，一只老虎在追趕兩只羊，一大一小"。這個場景需要AI理解動態關系、空間布局和相對大小等多個概念。實驗結果顯示，UniGRPO訓練的AI不僅準確描繪了追逐的動態感，還恰當地表現了兩只羊的大小差異，整個畫面充滿張力和真實感。

測試還包括了更復雜的創意任務，比如"蒙娜麗莎的素描版本"或"云朵形狀的茶壺"。這些任務要求AI不僅理解具體的物體特征，還要掌握不同的藝術風格和抽象概念的視覺化。在這些測試中，UniGRPO展現了令人驚訝的創意理解能力。

評估方法采用了兩套標準化測試體系。第一套是研究團隊自主開發的文本對齊（TA）基準，包含150個多樣化的提示詞。每個提示詞對應4個生成圖像，由視覺語言模型對圖像與文本的匹配度進行評分。第二套是廣泛認可的GenEval基準，專門評估AI在復雜構圖能力方面的表現，包括物體計數、空間關系和屬性綁定等高級能力。

實驗結果令人矚目。在文本對齊測試中，UniGRPO獲得了0.8381的高分，顯著超越了所有基線方法。在GenEval測試中更是達到了0.90的成績，這意味著AI在理解和實現復雜視覺概念方面已經接近人類水平。

更重要的是，研究團隊還分析了AI的"思考過程"。實驗發現，經過UniGRPO訓練的AI確實發展出了系統性的思維模式。面對創作任務時，它會自動分解問題、分析關鍵要素、考慮多種實現方案，然后選擇最優策略。這種思維過程不是簡單的模式匹配，而是真正的邏輯推理和創意構思。

通過對比分析還發現，傳統方法生成的圖像雖然在某些方面可能看起來不錯，但往往缺乏內在的連貫性和深層的理解。而UniGRPO生成的圖像不僅視覺質量優秀，更重要的是體現了深層的概念理解和創意表達。這種差異就像臨摹作品與原創作品之間的區別——前者可能技巧嫻熟，但后者才有真正的藝術靈魂。

五、技術創新的深層機制：兩大關鍵改進帶來質的飛躍

UniGRPO框架的成功不僅來自于創新的訓練策略，更得益于兩項關鍵的技術改進。這些改進看似技術性很強，但實際上解決的都是非常實際的問題，就像給一輛好車裝上了更好的引擎和剎車系統。

第一項改進是取消分類器自由引導（CFG）。要理解這項改進的重要性，我們需要先了解傳統圖像生成的工作方式。傳統方法就像一個需要不斷"自我檢查"的畫家，每畫一筆都要停下來問自己："這一筆畫得對嗎？需要調整嗎？"這種自我檢查機制雖然有助于提高質量，但也帶來了巨大的計算負擔。

更嚴重的問題是，在強化學習環境中，這種"分支式"的工作方式會創造出無數個可能的路徑，就像在一個巨大的迷宮中需要同時探索每一條可能的道路。這不僅消耗大量計算資源，還容易讓AI找到"作弊"的捷徑——它可能會利用這些復雜的分支來獲得高分，但生成的圖像實際上存在各種問題。

UniGRPO的解決方案是采用"直線式"的工作流程。AI不再需要在每個步驟都進行復雜的自我檢查，而是沿著一條清晰的路徑前進：思考-規劃-執行。這就像給畫家提供了一個詳細的作畫流程圖，讓他能夠專注于創作本身，而不是糾結于無窮無盡的可能性。

這種改進的好處是多方面的。首先，它大大提高了訓練效率，使得AI能夠更快地學習和改進。其次，它為未來的擴展奠定了基礎。當需要處理更復雜的多輪對話或多條件生成任務時，這種線性流程能夠輕松地擴展和組合，而不會陷入復雜性的泥沼。

第二項關鍵改進是重新設計了"懲罰機制"。在強化學習中，懲罰機制就像訓練動物時使用的獎懲系統，目的是讓AI明白什么行為是好的，什么行為是不好的。傳統方法使用的懲罰機制存在一個致命缺陷：它的強度會隨著訓練過程的不同階段而變化，就像一個情緒不穩定的教練，有時過于嚴厲，有時又過于寬松。

這種不穩定性給AI留下了鉆空子的機會。AI可能會學會在懲罰較輕的時候"違規操作"，在懲罰較重的時候才規規矩矩。這就像一個學生學會了在老師心情好的時候偷懶，在老師嚴厲的時候才認真學習。

UniGRPO采用的新方法叫做"速度場均方誤差懲罰"。雖然名字聽起來很技術化，但原理很簡單。它就像安裝了一個高精度的監控系統，能夠直接觀測AI的每一個"創作動作"，并與標準的"創作動作"進行對比。如果AI的動作偏離了正常范圍，無論偏離程度大小，都會受到相應的、穩定的懲罰。

這種懲罰機制的優勢在于它的一致性和直接性。AI無法預測什么時候可以"偷懶"，因為監控系統始終保持同樣的標準。同時，由于直接監測創作動作而不是最終結果，系統能夠及時發現并糾正問題，防止AI養成不良的創作習慣。

這兩項技術改進的結合效果是顯著的。在實驗中，研究團隊發現采用這些改進的系統不僅訓練更穩定，生成的圖像質量也更高。更重要的是，這些改進為系統的未來發展奠定了堅實基礎。當需要處理更復雜的創作任務或者擴展到視頻生成、3D建模等領域時，這些基礎改進將發揮更大的價值。

六、性能表現：全面超越現有方法的卓越成果

UniGRPO框架在各項測試中的表現可以用"全面領先"來形容。這種領先不僅體現在數字評分上，更重要的是在實際使用體驗中的質的提升。

在標準化測試中，UniGRPO在文本對齊基準上獲得了0.8381分，在GenEval基準上達到了0.90分。這些數字的含義遠比表面看起來更重要。0.8381的文本對齊分數意味著AI生成的圖像有超過83%的概率能夠準確反映用戶的文字描述；而0.90的GenEval分數則表明AI在處理復雜構圖任務時已經達到了接近人類的水平。

更令人印象深刻的是各個子項目的表現。在物體計數任務中，UniGRPO的準確率達到91%，這意味著當你要求AI畫"三只貓"時，它幾乎總能畫出正確的數量。在空間關系理解方面得分73%，雖然還有提升空間，但已經顯著超越了其他方法。在屬性綁定任務中獲得86%的成績，說明AI能夠準確理解"紅色的球"和"藍色的球"之間的區別，并在圖像中正確表現。

通過對比實驗還發現了一些有趣的現象。傳統的強化學習方法雖然在某些單項指標上可能表現不錯，但往往無法在多個維度上同時保持優秀。比如，有些方法能夠生成視覺效果很好的圖像，但可能與文字描述不匹配；有些方法在簡單任務上表現良好，但面對復雜構圖時就捉襟見肘。

UniGRPO的優勢在于它的"全面性"。無論是簡單的單對象生成，還是復雜的多對象場景構建；無論是寫實風格的創作，還是抽象概念的視覺化，UniGRPO都能保持穩定的高水平表現。這種一致性對于實際應用來說極其重要，因為用戶的需求往往是多樣化和不可預測的。

研究團隊還進行了詳細的"失敗案例分析"。他們發現，即使在表現不夠理想的情況下，UniGRPO的失敗模式也更加"合理"。比如，當面對極其復雜或者相互矛盾的要求時，傳統方法可能會生成完全錯誤或者毫無意義的圖像，而UniGRPO通常會生成部分正確但可能缺少某些細節的圖像。這種"優雅的失敗"表明系統具有更好的魯棒性和理解能力。

訓練效率也是一個值得關注的方面。傳統方法往往需要大量的計算資源和訓練時間才能達到可用的水平。而UniGRPO通過巧妙的算法設計，能夠在相對較短的時間內達到優秀的性能。在實驗中，系統在大約2000個訓練步驟后就達到了穩定的高性能狀態，這對于實際部署來說是一個重要優勢。

更重要的是，性能的提升是"可解釋的"。研究團隊通過分析AI的思考過程發現，性能提升直接對應著思維質量的改善。那些表現更好的圖像往往對應著更深入、更有邏輯的思考過程。這種對應關系不僅驗證了"思考-創作"框架的有效性，也為進一步的改進指明了方向。

說到底，UniGRPO代表了AI圖像生成領域的一個重要里程碑。它不僅在技術指標上取得了突破，更重要的是證明了AI可以擁有類似人類的創作思維。當我們看到AI能夠像人類藝術家一樣深思熟慮地進行創作時，我們不禁要思考：這是否意味著機器創意的時代已經到來？而對于普通用戶來說，這項技術的意義或許更加直接——未來我們將能夠與AI進行更深入的創作協作，不再只是簡單的指令執行，而是真正的思想交流和創意共鳴。

這項研究為未來的多輪交互式創作、復雜視頻生成、甚至3D建模等應用奠定了堅實基礎。正如研究團隊所展望的，下一步的目標是讓AI能夠進行多輪的創作對話，甚至發展出對中間思考過程的評估能力。這將進一步縮小人機創作協作的距離，開啟一個全新的AI輔助創作時代。

Q&A

Q1：UniGRPO與傳統AI圖像生成方法有什么區別？

A：傳統AI圖像生成就像一個只會照搬指令的機器人，直接根據文字描述生成圖像。而UniGRPO讓AI具備了"思考能力"，當接到創作要求時會先進行深入思考和創意分析，然后基于思考結果來創作圖像。這種"先思考再行動"的方式讓AI的創作質量大幅提升，就像從機械工人升級為有思想的藝術家。

Q2：UniGRPO框架的核心技術創新是什么？

A：核心創新包括統一的強化學習框架和兩項關鍵改進。統一框架將思考和繪圖過程整合為一個完整的決策過程，采用群體競爭的訓練方式。兩項關鍵改進分別是取消分類器自由引導以確保線性訓練流程，以及采用速度場均方誤差懲罰來防止獎勵欺騙，這些改進讓訓練更穩定、效果更好。

Q3：UniGRPO框架的實際應用前景如何？

A：這項技術為AI輔助創作開辟了新方向，未來可應用于多輪交互式圖像生成、復雜視頻制作、3D建模等領域。對普通用戶而言，意味著能夠與AI進行更深入的創作協作，不再是簡單的指令執行，而是真正的思想交流和創意共鳴。研究團隊正計劃擴展到多輪對話創作和中間過程評估等更高級功能。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.