網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

全棧突圍：智譜GLM-Image × 昇騰·昇思攜手走出“無(wú)人區(qū)”

2026-01-20 11:25:18　來(lái)源: dobigdata

北京舉報(bào)

分享至

技術(shù)只有變得足夠“便宜”，才能實(shí)現(xiàn)真正“普及”，從而深度融入到工作與生活的方方面面。

所以，當(dāng)GLM-Image在API調(diào)用模式下生成一張圖片只需0.1元時(shí)，價(jià)格僅為海外同類(lèi)產(chǎn)品的1/10至1/3，全球AI市場(chǎng)都為之震撼。

GLM-Image是智譜聯(lián)合華為開(kāi)源新一代圖像生成模型，也是首個(gè)在國(guó)產(chǎn)芯片上完成全程訓(xùn)練的SOTA多模態(tài)模型，其基于昇騰Atlas 800T A2設(shè)備和昇思MindSpore AI框架完成了從數(shù)據(jù)到訓(xùn)練的全流程。

GLM-Image模型強(qiáng)大的性能表現(xiàn)，及背后的全棧國(guó)產(chǎn)化訓(xùn)練歷程，給出了一個(gè)極具參考價(jià)值的答案：在AI高端領(lǐng)域，中國(guó)公司已走出無(wú)人區(qū)，實(shí)現(xiàn)全棧技術(shù)突圍，對(duì)于后續(xù)整個(gè)AI產(chǎn)業(yè)具有里程碑的意義。

GLM-Image，新架構(gòu)帶來(lái)變革

在AI生圖領(lǐng)域，主要存在擴(kuò)散模型（Diffusion）和自回歸模型（Autoregressive，AR）兩種模型，兩者各有優(yōu)勢(shì)卻也存在短板。擴(kuò)散模型難以理解復(fù)雜指令，在海報(bào)、PPT、科普插圖等知識(shí)密集型場(chǎng)景中，往往會(huì)“語(yǔ)義脫節(jié)”的短板，會(huì)出現(xiàn)物理邏輯錯(cuò)誤等問(wèn)題；自回歸模型則在生成圖像質(zhì)量難以令人滿意。

為此，智譜GLM-Image創(chuàng)新性采用了自回歸 + 擴(kuò)散編碼器混合架構(gòu)。自回歸模型猶如“大腦”，擅長(zhǎng)處理序列邏輯和宏觀語(yǔ)義，負(fù)責(zé)邏輯推理與框架構(gòu)建；擴(kuò)散解碼器則專注于圖像的高頻細(xì)節(jié)還原，確保最終生成的圖像在視覺(jué)上達(dá)到工業(yè)級(jí)的美學(xué)標(biāo)準(zhǔn)。GLM-Image的混合架構(gòu)恰似“理解”意圖之后再進(jìn)行生圖創(chuàng)作，這是向探索以 Nano Banana Pro為代表的新一代“知識(shí)+推理”的認(rèn)知型生成模型邁出重要一步。

混合架構(gòu)的優(yōu)勢(shì)，使得智譜GLM-Image尤其擅長(zhǎng)文字渲染，在海報(bào)、插畫(huà)等場(chǎng)景展現(xiàn)出強(qiáng)大的能力。來(lái)看看智譜GLM-Image的真實(shí)效果：

據(jù)悉，GLM-Image在CVTG-2K（復(fù)雜視覺(jué)文本生成）和LongText-Bench（長(zhǎng)文本渲染）榜單獲得開(kāi)源第一。

此外，GLM-Image在開(kāi)源不到24小時(shí)就登頂全球知名AI開(kāi)源社區(qū)Hugging Face Trending榜第一。Hugging Face是全球知名的開(kāi)源AI模型與工具生態(tài)平臺(tái)，堪稱全球AI界的頂流。GLM-Image此次登頂，其模型SOTA性能、混合架構(gòu)創(chuàng)新和訓(xùn)練過(guò)程引發(fā)了全球AI圈的廣泛熱議。

昇騰·昇思助力全棧突圍

再好的架構(gòu)與算法，如果沒(méi)有強(qiáng)大算力底座的支撐，也無(wú)法訓(xùn)練出強(qiáng)大的模型。

眾所周知，像SOTA模型這種級(jí)別的前沿模型，對(duì)于AI算力集群的性能、穩(wěn)定性與通信帶寬有著極高要求，并且普遍需要國(guó)外AI芯片支撐此類(lèi)訓(xùn)練任務(wù)。不過(guò)，智譜GLM-Image模型進(jìn)行了開(kāi)創(chuàng)性嘗試，從海量數(shù)據(jù)預(yù)處理到大規(guī)模預(yù)訓(xùn)練，再到最后微調(diào)全流程使用國(guó)產(chǎn)算力，使得其成為首個(gè)基于自主創(chuàng)新算力底座全程訓(xùn)練的SOTA模型，也實(shí)現(xiàn)國(guó)產(chǎn)模型+國(guó)產(chǎn)算力+國(guó)產(chǎn)AI框架的全棧突圍。

具體來(lái)看，GLM-Image屬于多模態(tài)模型，需要處理大量文字和圖片數(shù)據(jù)，在模型訓(xùn)練階段的內(nèi)存開(kāi)銷(xiāo)和性能要求極高。為此，昇騰·昇思引入動(dòng)態(tài)圖多級(jí)流水下發(fā)、多流并行執(zhí)行、高性能融合算子等特性，全面提升從數(shù)據(jù)處理、預(yù)訓(xùn)練、SFT到RL的端到端性能。

例如，動(dòng)態(tài)圖多級(jí)流水下發(fā)，徹底解決了Host側(cè)算子下發(fā)瓶頸問(wèn)題。在NPU+CPU的集群中，大規(guī)模多核CPU會(huì)涉及到單線程算子下發(fā)跟不上NPU計(jì)算速度，導(dǎo)致設(shè)備側(cè)空轉(zhuǎn)與整體資源利用率偏低。依托昇騰+昇思MindSpore的軟硬件協(xié)同，通過(guò)動(dòng)態(tài)圖多級(jí)流水下發(fā)，將Python執(zhí)行、算子shape推導(dǎo)與算子下發(fā)等關(guān)鍵階段進(jìn)行流水化并高度重疊，有效提升Host側(cè)算子下效率。

又如，GLM-Image的多模態(tài)訓(xùn)練場(chǎng)景中，文本梯度同步、圖像特征廣播、混合并行等操作都有復(fù)雜的通信需求。單流串行執(zhí)行時(shí)，計(jì)算和通信兩類(lèi)操作互相等待，整體資源利用率低。為此，通過(guò)多流并行執(zhí)行機(jī)制，讓計(jì)算與通信兩類(lèi)操作同時(shí)并行，打破通信墻和大幅提升資源利用率，整體提升訓(xùn)練性能10%。

再如，昇騰CANN高性能算子庫(kù)提供包括AdamW EMA融合算子、COC通算融合算子等，針對(duì)性解決訓(xùn)練后期loss震蕩、通信開(kāi)銷(xiāo)大等問(wèn)題，為GLM-Image模型的訓(xùn)練帶來(lái)高性能和穩(wěn)定性。

無(wú)疑，基于昇騰·昇思構(gòu)建的國(guó)產(chǎn)算力底座在此次GLM-Image模型訓(xùn)練中經(jīng)受住充分考驗(yàn)，充分證明了從國(guó)產(chǎn)芯片、AI框架到多模態(tài)模型的全棧突圍并非遙不可及。

走出“無(wú)人區(qū)”具有里程碑意義

智譜與華為的此次深度合作，其意義遠(yuǎn)超一個(gè)模型的簡(jiǎn)單發(fā)布。

長(zhǎng)期以來(lái)，中國(guó)AI開(kāi)發(fā)者高度依賴國(guó)外AI硬件、AI框架等。事實(shí)證明，這種方式受制于人且充滿高度不確定性，嚴(yán)重束縛中國(guó)AI的創(chuàng)新與發(fā)展。而智譜GLM-Image模型的問(wèn)世，驗(yàn)證了在國(guó)產(chǎn)全棧算力底座上訓(xùn)練高性能復(fù)雜多模態(tài)模型的可行性，這標(biāo)志著國(guó)產(chǎn)AI正式走出“無(wú)人區(qū)”、實(shí)現(xiàn)全棧突圍，對(duì)于未來(lái)市場(chǎng)有著不可低估的影響：

其一、打破依賴慣性，給予國(guó)內(nèi)AI開(kāi)發(fā)者們重要信心。智譜GLM-Image模型的出色表現(xiàn)具有里程碑的意義，證明國(guó)產(chǎn)大模型+國(guó)產(chǎn)AI芯片+國(guó)產(chǎn)AI框架的組合SOTA級(jí)模型領(lǐng)域同樣能打，后續(xù)其示范價(jià)值有望在AI開(kāi)發(fā)者中得到持續(xù)影響。

其二、智譜GLM-Image模型開(kāi)源，有望進(jìn)一步激發(fā)AI生圖領(lǐng)域的創(chuàng)新。眾所周知，開(kāi)源模式是降低創(chuàng)新門(mén)檻的和激發(fā)技術(shù)創(chuàng)新活力最為有效方式，而智譜GLM-Image開(kāi)源，已經(jīng)受到Hugging Face等知名平臺(tái)的密切關(guān)注，未來(lái)有望吸納更多開(kāi)發(fā)者了解和加入到智譜GLM-Image項(xiàng)目之中，從而激發(fā)AI生圖領(lǐng)域的迭代與創(chuàng)新。

其三、加速商業(yè)化落地和AI新生態(tài)形成。近年來(lái)，海外頻繁傳出中國(guó)大模型獲得全球用戶青睞的消息，根本原因在于中國(guó)大模型產(chǎn)品技術(shù)具備相當(dāng)競(jìng)爭(zhēng)力的同時(shí)，帶來(lái)極具性價(jià)比的使用體驗(yàn)。像智譜GLM-Image在API調(diào)用模式將生成一張圖片做到只需0.1元，這無(wú)疑對(duì)整個(gè)AI生圖市場(chǎng)帶來(lái)巨大沖擊力，有望進(jìn)一步推動(dòng)AI生圖相關(guān)技術(shù)與產(chǎn)品的普惠和AI生態(tài)的形成。

綜合觀察

勇氣是不確定性時(shí)代唯一的通行證。

當(dāng)市場(chǎng)充滿不確定性時(shí)，在人工智能的“無(wú)人區(qū)”里，本就沒(méi)有現(xiàn)成的路。智譜與華為的緊密合作，無(wú)疑走出一條獨(dú)立、安全且具有國(guó)際競(jìng)爭(zhēng)力之路，不僅誕生出GLM-Image這樣出身的SOTA模型，更證明了國(guó)產(chǎn)AI全棧突圍并非遙不可及。

展望未來(lái)，隨著智譜在人工智能智能領(lǐng)域的持續(xù)探索，以及昇騰、昇思產(chǎn)品競(jìng)爭(zhēng)力穩(wěn)步提升，國(guó)產(chǎn) AI 穿越“無(wú)人區(qū)”之后，迎接他們的將是AGI的星辰大海。

大數(shù)據(jù)在線是聚焦人工智能、大數(shù)據(jù)、云計(jì)算等前沿科技領(lǐng)域深度觀察的深度媒體。目前，大數(shù)據(jù)在線在微信公眾號(hào)、今日頭條號(hào)、新浪財(cái)經(jīng)、36氪、雪球號(hào)、觀察號(hào)等主流自媒體平臺(tái)均有入駐，積累粉絲超過(guò)20W；并榮獲今日頭條十大科技新銳媒體、商業(yè)新知十大人工智能媒體等多項(xiàng)殊榮。商務(wù)聯(lián)系請(qǐng)?zhí)砑游⑿牛篛wen_Inter，添加請(qǐng)備注具體信息。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.