在AI核心技術從“專用工具”向“通用智能伙伴”跨越的今天,全球算力升級正在支撐百萬級Token的長上下文處理,并通過整合文本、圖像、音頻、視頻及3D點云等多源數據,推動人機交互向“所見即所得”的多模態交互演進。
繼谷歌發布Nano Banana Pro認知型生成模型之后,1月14日,智譜聯合華為也正式發布了新一代圖像生成模型GLM-Image。作為智譜面向「認知型生成」技術范式的一次重要探索,該模型采用自主創新的「自回歸+擴散解碼器」混合架構,實現了圖像生成與語言模型的協同。
得益于昇騰NPU和昇思MindSpore AI框架所提供的從數據到訓練的全流程支撐,GLM-Image不僅是首個基于自主創新算力底座全程訓練的SOTA多模態模型,也是首個開源的工業表現級離散自回歸圖像生成模型。1月15日,GLM-Image更是登頂全球知名AI開源社區Hugging Face Trending榜。這也是中國首次實現基于自主創新算力底座的前沿多模態模型全流程訓練與全球開源榜首突破。
可以說,GLM-Image的創新實踐,既驗證了在昇騰全棧算力底座上訓練高性能多模態生成模型的可行性,也為社區挖掘自主創新算力潛力提供了重要參考。
![]()
擁抱架構創新,打造中國版開源Nano Banana
過去幾年,文本生成圖像(T2I)與多模態生成式模型的能力突飛猛進,尤其是Nano Banana Pro的問世,文本生成圖像正在廣泛應用于角色一致性、照片修復及無限畫布局部編輯等場景,成為創意與技術深度融合的助推器。
作為全球首家以通用人工智能(AGI)基座大模型為核心業務的上市公司,智譜也在積極開展AI圖像生成與編輯模型的創新。智譜全新推出的GLM-Image,在實際復雜圖文任務中的表現讓人眼前一亮。
![]()
比如,在科普插畫中,GLM-Image可以繪制出包含復雜邏輯流程與文字說明的科普插畫及原理示意圖;在社交媒體圖文封面中,GLM-Image可以制作社交媒體封面及內容等排版復雜的圖片;在商業海報中,GLM-Image能夠生成構圖富有設計感、文字嵌入準確的節日海報與商業宣傳圖。
![]()
GLM-Image之所以能夠讓創作更自由豐富,首先得益于創新的「自回歸+擴散解碼器」混合架構,可兼顧全局指令理解與局部細節刻畫,克服海報、PPT、科普圖等知識密集型場景生成難題。同時,GLM-Image還能夠自適應處理多種分辨率,幫助用戶生成任意比例的圖像。
在此基礎上,GLM-Image在文字渲染的權威榜單中達到開源SOTA水平。其中,在CVTG-2K(復雜視覺文本生成)和LongText-Bench(長文本渲染)榜單均位列開源模型第一,可大大提升在圖像中同時生成多處文字的準確性,以及渲染長文本、多行文字的準確性。
昇騰+昇思,全棧自主創新算力底座助力模型訓練
除了采用創新的混合架構之外,GLM-Image還是首個基于自主創新算力底座全程訓練的SOTA模型。模型的自回歸結構基于昇騰Atlas 800T A2設備與昇思MindSpore AI框架,完成了從數據預處理到大規模訓練的全流程構建,充分驗證了在全棧自主創新算力底座上也能訓練出SOTA模型。
其中,Atlas 800T A2作為昇騰訓練服務器設備,具有高計算密度、高能效比、高網絡帶寬、易擴展、易管理等特點,可以更好地滿足智譜在深度學習模型開發和AI訓練服務場景上的需要。
而昇思MindSpore AI框架則內置大模型訓練所需的多種并行能力,可提供簡單易用的大模型分布式策略配置接口,幫助智譜快速實現高性能的大模型分布式訓練。同時,該框架通過動靜統一編程,可最大程度地發揮昇騰硬件能力,幫助智譜縮短訓練時間,提升推理性能。
依托昇騰NPU與昇思MindSpore AI框架,智譜利用動態圖多級流水下發、高性能融合算子、多流并行等特性,自研了一整套模型訓練套件,對數據預處理、預訓練、SFT(監督微調)和RL(強化學習)的端到端流程進行了全面優化。
其中,借助動態圖的多級流水優化機制,將Host側算子下發的關鍵階段流水化并高度重疊,可提升訓練性能20%;借助AdamW EMA、COC、RMS Norm等昇騰親和的高性能融合算子,可提升訓練的穩定性,并將通信效率提升15%;借助多流并行策略,將通信和計算相互掩蓋,打破了文本梯度同步、圖像特征廣播等操作的通信墻,可整體提升訓練性能10%。
自主創新算力引領,人工智能產業發展再迎新突破
當前,全球AI產業競爭日趨激烈,國外大模型技術的創新與迭代速度持續加快。在此背景下,智譜攜手華為,在積極探索模型架構創新的同時,將自主創新算力充分應用到SOTA多模態模型訓練中,不僅展現出中國企業在AI領域的創新實力,更凸顯了自主創新算力底座所扮演的重要角色。
首先,驗證了自主創新算力也能高性能訓出SOTA模型。如今,模型訓練對算力的計算精度、通信效率、軟硬件協同優化的要求持續提升。智譜通過“昇騰+昇思”的應用實踐,不僅打破了自主創新算力難以勝任尖端AI訓練的刻板印象,也充分證明了自主創新算力完全有能力承載并驅動最前沿的AI研究與工程實踐。
其次,為中國AI企業開展模型訓練提供了極具價值的參考借鑒。智譜借助“昇騰+昇思”,從數據預處理、預訓練到監督微調,再到強化學習,為中國企業、開源社區開展模型訓練提供了端到端的全流程自主創新技術的落地范例,可幫助企業開發者降低自主創新算力底座的應用門檻,加速推進模型創新與落地進程。
再次,推動了全棧自主創新算力生態的繁榮發展。AI產業的創新發展,離不開算力底座、模型架構和應用落地三者的相互協同,智譜與昇騰、昇思的協同,不僅提升了模型訓練的效率與安全性,也反向驅動了昇騰與昇思的能力提升,加速自主創新算力底座從“可用”到“好用”的進化,并為推進AI產業生態的繁榮奠定了堅實基礎。
最后,加速了多模態AI技術自主創新與普惠化進程。多模態作為通往通用人工智能的關鍵一環,其能力直接關乎未來數字內容創作、智能交互等核心產業的創新發展。智譜借助昇騰、昇思成功訓練出GLM-Image,意味著中國AI產業可以更加安全、高效地開展多模態AI的創新,從而推動多模態技術更快速、更廣泛地應用到各行各業。
在多模態AI成為技術創新與產業應用核心方向的今天,智譜攜手昇騰、昇思,其突破性遠遠不止于打造一個優秀的圖像生成模型,更是一次自主創新算力底座支撐SOTA模型訓練的關鍵驗證。隨著智譜與昇騰合作的持續深化,也將吸引更多企業加入自主創新的AI生態構建中,推動中國AI產業高質量發展。未來,中國AI產業完全有能力構建從算力底座到應用創新的全鏈路競爭力,并為全球AI產業的發展貢獻中國智慧和中國方案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.