技術(shù)只有變得足夠“便宜”,才能實(shí)現(xiàn)真正“普及”,從而深度融入到工作與生活的方方面面。
所以,當(dāng)GLM-Image在API調(diào)用模式下生成一張圖片只需0.1元時(shí),價(jià)格僅為海外同類(lèi)產(chǎn)品的1/10至1/3,全球AI市場(chǎng)都為之震撼。
GLM-Image是智譜聯(lián)合華為開(kāi)源新一代圖像生成模型,也是首個(gè)在國(guó)產(chǎn)芯片上完成全程訓(xùn)練的SOTA多模態(tài)模型,其基于昇騰Atlas 800T A2設(shè)備和昇思MindSpore AI框架完成了從數(shù)據(jù)到訓(xùn)練的全流程。
GLM-Image模型強(qiáng)大的性能表現(xiàn),及背后的全棧國(guó)產(chǎn)化訓(xùn)練歷程,給出了一個(gè)極具參考價(jià)值的答案 :在AI高端領(lǐng)域,中國(guó)公司已走出無(wú)人區(qū),實(shí)現(xiàn)全棧技術(shù)突圍,對(duì)于后續(xù)整個(gè)AI產(chǎn)業(yè)具有里程碑的意義。
GLM-Image,新架構(gòu)帶來(lái)變革
在AI生圖領(lǐng)域,主要存在擴(kuò)散模型(Diffusion)和自回歸模型(Autoregressive,AR)兩種模型,兩者各有優(yōu)勢(shì)卻也存在短板。擴(kuò)散模型難以理解復(fù)雜指令,在海報(bào)、PPT、科普插圖等知識(shí)密集型場(chǎng)景中,往往會(huì)“語(yǔ)義脫節(jié)”的短板,會(huì)出現(xiàn)物理邏輯錯(cuò)誤等問(wèn)題;自回歸模型則在生成圖像質(zhì)量難以令人滿意。
為此,智譜GLM-Image創(chuàng)新性采用了自回歸 + 擴(kuò)散編碼器混合架構(gòu)。自回歸模型猶如“大腦”,擅長(zhǎng)處理序列邏輯和宏觀語(yǔ)義,負(fù)責(zé)邏輯推理與框架構(gòu)建;擴(kuò)散解碼器則專注于圖像的高頻細(xì)節(jié)還原,確保最終生成的圖像在視覺(jué)上達(dá)到工業(yè)級(jí)的美學(xué)標(biāo)準(zhǔn)。GLM-Image的混合架構(gòu)恰似“理解”意圖之后再進(jìn)行生圖創(chuàng)作,這是向探索以 Nano Banana Pro為代表的新一代“知識(shí)+推理”的認(rèn)知型生成模型邁出重要一步。
混合架構(gòu)的優(yōu)勢(shì),使得智譜GLM-Image尤其擅長(zhǎng)文字渲染,在海報(bào)、插畫(huà)等場(chǎng)景展現(xiàn)出強(qiáng)大的能力。來(lái)看看智譜GLM-Image的真實(shí)效果:
![]()
![]()
據(jù)悉,GLM-Image在CVTG-2K(復(fù)雜視覺(jué)文本生成)和LongText-Bench(長(zhǎng)文本渲染)榜單獲得開(kāi)源第一。
![]()
此外,GLM-Image在開(kāi)源不到24小時(shí)就登頂全球知名AI開(kāi)源社區(qū)Hugging Face Trending榜第一。Hugging Face是全球知名的開(kāi)源AI模型與工具生態(tài)平臺(tái),堪稱全球AI界的頂流。GLM-Image此次登頂,其模型SOTA性能、混合架構(gòu)創(chuàng)新和訓(xùn)練過(guò)程引發(fā)了全球AI圈的廣泛熱議。
![]()
昇騰·昇思助力全棧突圍
再好的架構(gòu)與算法,如果沒(méi)有強(qiáng)大算力底座的支撐,也無(wú)法訓(xùn)練出強(qiáng)大的模型。
眾所周知,像SOTA模型這種級(jí)別的前沿模型,對(duì)于AI算力集群的性能、穩(wěn)定性與通信帶寬有著極高要求,并且普遍需要國(guó)外AI芯片支撐此類(lèi)訓(xùn)練任務(wù)。不過(guò),智譜GLM-Image模型進(jìn)行了開(kāi)創(chuàng)性嘗試,從海量數(shù)據(jù)預(yù)處理到大規(guī)模預(yù)訓(xùn)練,再到最后微調(diào)全流程使用國(guó)產(chǎn)算力,使得其成為首個(gè)基于自主創(chuàng)新算力底座全程訓(xùn)練的SOTA模型,也實(shí)現(xiàn)國(guó)產(chǎn)模型+國(guó)產(chǎn)算力+國(guó)產(chǎn)AI框架的全棧突圍。
具體來(lái)看,GLM-Image屬于多模態(tài)模型,需要處理大量文字和圖片數(shù)據(jù),在模型訓(xùn)練階段的內(nèi)存開(kāi)銷(xiāo)和性能要求極高。為此,昇騰·昇思引入動(dòng)態(tài)圖多級(jí)流水下發(fā)、多流并行執(zhí)行、高性能融合算子等特性,全面提升從數(shù)據(jù)處理、預(yù)訓(xùn)練、SFT到RL的端到端性能。
例如,動(dòng)態(tài)圖多級(jí)流水下發(fā),徹底解決了Host側(cè)算子下發(fā)瓶頸問(wèn)題。在NPU+CPU的集群中,大規(guī)模多核CPU會(huì)涉及到單線程算子下發(fā)跟不上NPU計(jì)算速度,導(dǎo)致設(shè)備側(cè)空轉(zhuǎn)與整體資源利用率偏低。依托昇騰+昇思MindSpore的軟硬件協(xié)同,通過(guò)動(dòng)態(tài)圖多級(jí)流水下發(fā),將Python執(zhí)行、算子shape推導(dǎo)與算子下發(fā)等關(guān)鍵階段進(jìn)行流水化并高度重疊,有效提升Host側(cè)算子下效率。
![]()
又如,GLM-Image的多模態(tài)訓(xùn)練場(chǎng)景中,文本梯度同步、圖像特征廣播、混合并行等操作都有復(fù)雜的通信需求。單流串行執(zhí)行時(shí),計(jì)算和通信兩類(lèi)操作互相等待,整體資源利用率低。為此,通過(guò)多流并行執(zhí)行機(jī)制,讓計(jì)算與通信兩類(lèi)操作同時(shí)并行,打破通信墻和大幅提升資源利用率,整體提升訓(xùn)練性能10%。
再如,昇騰CANN高性能算子庫(kù)提供包括AdamW EMA融合算子、COC通算融合算子等,針對(duì)性解決訓(xùn)練后期loss震蕩、通信開(kāi)銷(xiāo)大等問(wèn)題,為GLM-Image模型的訓(xùn)練帶來(lái)高性能和穩(wěn)定性。
無(wú)疑,基于昇騰·昇思構(gòu)建的國(guó)產(chǎn)算力底座在此次GLM-Image模型訓(xùn)練中經(jīng)受住充分考驗(yàn),充分證明了從國(guó)產(chǎn)芯片、AI框架到多模態(tài)模型的全棧突圍并非遙不可及。
走出“無(wú)人區(qū)”具有里程碑意義
智譜與華為的此次深度合作,其意義遠(yuǎn)超一個(gè)模型的簡(jiǎn)單發(fā)布。
長(zhǎng)期以來(lái),中國(guó)AI開(kāi)發(fā)者高度依賴國(guó)外AI硬件、AI框架等。事實(shí)證明,這種方式受制于人且充滿高度不確定性,嚴(yán)重束縛中國(guó)AI的創(chuàng)新與發(fā)展。而智譜GLM-Image模型的問(wèn)世,驗(yàn)證了在國(guó)產(chǎn)全棧算力底座上訓(xùn)練高性能復(fù)雜多模態(tài)模型的可行性,這標(biāo)志著國(guó)產(chǎn)AI正式走出“無(wú)人區(qū)”、實(shí)現(xiàn)全棧突圍,對(duì)于未來(lái)市場(chǎng)有著不可低估的影響:
其一、打破依賴慣性,給予國(guó)內(nèi)AI開(kāi)發(fā)者們重要信心。智譜GLM-Image模型的出色表現(xiàn)具有里程碑的意義,證明國(guó)產(chǎn)大模型+國(guó)產(chǎn)AI芯片+國(guó)產(chǎn)AI框架的組合SOTA級(jí)模型領(lǐng)域同樣能打,后續(xù)其示范價(jià)值有望在AI開(kāi)發(fā)者中得到持續(xù)影響。
其二、智譜GLM-Image模型開(kāi)源,有望進(jìn)一步激發(fā)AI生圖領(lǐng)域的創(chuàng)新。眾所周知,開(kāi)源模式是降低創(chuàng)新門(mén)檻的和激發(fā)技術(shù)創(chuàng)新活力最為有效方式,而智譜GLM-Image開(kāi)源,已經(jīng)受到Hugging Face等知名平臺(tái)的密切關(guān)注,未來(lái)有望吸納更多開(kāi)發(fā)者了解和加入到智譜GLM-Image項(xiàng)目之中,從而激發(fā)AI生圖領(lǐng)域的迭代與創(chuàng)新。
其三、加速商業(yè)化落地和AI新生態(tài)形成。近年來(lái),海外頻繁傳出中國(guó)大模型獲得全球用戶青睞的消息,根本原因在于中國(guó)大模型產(chǎn)品技術(shù)具備相當(dāng)競(jìng)爭(zhēng)力的同時(shí),帶來(lái)極具性價(jià)比的使用體驗(yàn)。像智譜GLM-Image在API調(diào)用模式將生成一張圖片做到只需0.1元,這無(wú)疑對(duì)整個(gè)AI生圖市場(chǎng)帶來(lái)巨大沖擊力,有望進(jìn)一步推動(dòng)AI生圖相關(guān)技術(shù)與產(chǎn)品的普惠和AI生態(tài)的形成。
綜合觀察
勇氣是不確定性時(shí)代唯一的通行證。
當(dāng)市場(chǎng)充滿不確定性時(shí),在人工智能的“無(wú)人區(qū)”里,本就沒(méi)有現(xiàn)成的路。智譜與華為的緊密合作,無(wú)疑走出一條獨(dú)立、安全且具有國(guó)際競(jìng)爭(zhēng)力之路,不僅誕生出GLM-Image這樣出身的SOTA模型,更證明了國(guó)產(chǎn)AI全棧突圍并非遙不可及。
展望未來(lái),隨著智譜在人工智能智能領(lǐng)域的持續(xù)探索,以及昇騰、昇思產(chǎn)品競(jìng)爭(zhēng)力穩(wěn)步提升,國(guó)產(chǎn) AI 穿越“無(wú)人區(qū)”之后,迎接他們的將是AGI的星辰大海。
大數(shù)據(jù)在線是聚焦人工智能、大數(shù)據(jù)、云計(jì)算等前沿科技領(lǐng)域深度觀察的深度媒體。目前,大數(shù)據(jù)在線在微信公眾號(hào)、今日頭條號(hào)、新浪財(cái)經(jīng)、36氪、雪球號(hào)、觀察號(hào)等主流自媒體平臺(tái)均有入駐,積累粉絲超過(guò)20W;并榮獲今日頭條十大科技新銳媒體、商業(yè)新知十大人工智能媒體等多項(xiàng)殊榮。商務(wù)聯(lián)系請(qǐng)?zhí)砑游⑿牛篛wen_Inter,添加請(qǐng)備注具體信息。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.