![]()
一位從事算法開發(fā)的朋友,向我們講述了他親身經(jīng)歷的故事:
他所在的團(tuán)隊(duì),被領(lǐng)導(dǎo)安排了一個(gè)任務(wù)——將已有的圖像識(shí)別模型從CUDA遷移到昇騰平臺(tái)上。
最開始,他以為會(huì)是個(gè)“大工程”,時(shí)常在論壇里看到缺少算子、工具鏈不夠完善的討論,想要在昇騰平臺(tái)上開發(fā)AI應(yīng)用,等于是在啃一塊硬骨頭,連基礎(chǔ)的算子都要自己寫。
結(jié)果竟然比想象中順利許多。
大部分主流算子已能在CANN的算子庫中找到,只有少數(shù)需要通過算子開發(fā)套件自定義實(shí)現(xiàn)。官方提供的工具鏈談不上成熟,整體來看已經(jīng)比較完善。最終只做少量修改,就跑通了模型。
一位開發(fā)者的際遇,其實(shí)是整個(gè)生態(tài)的縮影。
很長一段時(shí)間里,國內(nèi)計(jì)算生態(tài)的“貧瘠”可謂深入人心,“缺算子、缺文檔、缺工具”等問題被頻頻詬病。
現(xiàn)在,情況正在悄然改變。昇騰CANN的算子庫、工具鏈的不斷豐富,讓開發(fā)者的遷移體驗(yàn)越來越順暢,論壇里的因?yàn)椤芭懿煌ā碑a(chǎn)生的“吐槽帖”,漸漸變成了“怎么跑得更快”的“經(jīng)驗(yàn)貼”。
中國的計(jì)算產(chǎn)業(yè),終于走出了至暗時(shí)刻。
01 計(jì)算的終局是生態(tài)
回顧計(jì)算產(chǎn)業(yè)的發(fā)展史,從不缺少“性能耀眼”的產(chǎn)品,有的被寫進(jìn)了“技術(shù)史”,卻沒能在產(chǎn)業(yè)中占據(jù)一席之地。
典型的例子就是Intel的Itanium。
時(shí)間回到上世紀(jì)90年代末,在x86上一家獨(dú)大的Intel清楚地意識(shí)到:x86架構(gòu)的指令集復(fù)雜度高,遺留兼容性拖累了架構(gòu)演進(jìn)。
于是Intel選擇和HP聯(lián)手押注EPIC架構(gòu),把并行性、指令調(diào)度等由“硬件猜”的事交給編譯器靜態(tài)完成,CPU本身可以更簡單、更高效地執(zhí)行,相當(dāng)于“把硬件未來幾十年的負(fù)擔(dān)一次性解決”。
遺憾的是,Intel和HP都低估了構(gòu)建軟件生態(tài)的成本。
當(dāng)時(shí)Linux和Windows均已綁定了x86,企業(yè)沒有動(dòng)力投入到新架構(gòu),開發(fā)者想要在Itanium上運(yùn)行應(yīng)用,必須重寫或移植,導(dǎo)致積極性嚴(yán)重不足。被寄予厚望的Itanium,無奈淪為了“昂貴的試驗(yàn)品”。
和Intel形成鮮明對(duì)比的,是英偉達(dá)CUDA的崛起。
![]()
2006年的GPU市場,還是英偉達(dá)和ATI分庭抗禮的局面,就在AMD斥巨資并購ATI時(shí),英偉達(dá)默默做了別人不愿做的事:提供類似C語言的編程接口,允許開發(fā)者直接把GPU當(dāng)并行處理器使用,即使在市場不看好的情況下,仍然十幾年如一日地投資開發(fā)者生態(tài),完善工具鏈、文檔和社區(qū)。
當(dāng)深度學(xué)習(xí)浪潮到來時(shí),CUDA已然成為事實(shí)上的標(biāo)準(zhǔn),成了任何想做AI的團(tuán)隊(duì)都難以跳過的選項(xiàng)。
這些成功或失敗的案例背后,藏著計(jì)算產(chǎn)業(yè)的現(xiàn)實(shí):一些產(chǎn)品之所以輸?shù)袅宋磥恚皇且驗(yàn)樾阅懿粔驈?qiáng),而是沒能跨過生態(tài)這道坎,沒能打動(dòng)千萬計(jì)的開發(fā)者。技術(shù)決定起點(diǎn),而生態(tài)決定了終局。
02 一道殘酷的生死題
既然生態(tài)這么難,連Intel這樣的巨頭,當(dāng)年也沒能另起爐灶,為什么還要“冒險(xiǎn)”孵化自己的計(jì)算生態(tài)呢?
答案很殘酷,這不是選擇題,而是生死題。
以AI應(yīng)用為例,國內(nèi)外有不少計(jì)算企業(yè)想要在生態(tài)上走捷徑,即兼容CUDA。簡單來說就是在CUDA的API和芯片的底層驅(qū)動(dòng)間加一個(gè)“翻譯器”,幫助開發(fā)者快速跑通已有的CUDA應(yīng)用,最大程度降低開發(fā)者的門檻。
諸如此類的做法無可厚非。
早期靠“兼容”解決“能用”的問題,接下來圍繞卷積、矩陣乘法、KV Cache等重點(diǎn)算子做深度優(yōu)化,一步步實(shí)現(xiàn)“好用”,長期則試圖培育基于自身軟硬件的原生生態(tài),逐漸擺脫對(duì)CUDA的綁定。
只是CUDA并非開源,而且更新非常頻繁,第三方產(chǎn)品很難通過指令翻譯的方式實(shí)現(xiàn)完美兼容。在大多數(shù)通用AI訓(xùn)練和推理場景下,兼容路徑難以匹敵英偉達(dá)的性能和能效。
況且英偉達(dá)一旦感受到了競爭壓力,還可以通過“扎緊生態(tài)藩籬”的形式,倒逼開發(fā)者“用腳投票”。就像2024年初的一幕,英偉達(dá)宣布禁止在其他GPU上通過轉(zhuǎn)譯層運(yùn)行CUDA軟件,給不少廠商敲響了警鐘。
![]()
計(jì)算生態(tài)的“有”與“無”,決定著一整個(gè)產(chǎn)業(yè)鏈的生死存亡。
如果是“無”,始終存在被卡脖子的風(fēng)險(xiǎn),意味著關(guān)鍵軟件無法運(yùn)行、關(guān)鍵應(yīng)用無法落地,被鎖死在別人搭好的舞臺(tái)上。
哪怕只是“有”,即使暫時(shí)不夠好用、工具鏈不夠完善,也意味著可以逐步打磨、可以不斷迭代,避免徹底出局的風(fēng)險(xiǎn)。
業(yè)界不少芯片廠商選擇兼容CUDA生態(tài)時(shí),華為副董事長、輪值董事長徐直軍卻坦言:“如果我們投如此多的錢兼容CUDA生態(tài),而且還是CUDA過去的版本,哪天CUDA生態(tài)兼容不了了怎么辦?”
所以在計(jì)算生態(tài)的抉擇上,華為做了一個(gè)很多人不理解的決定——做屬于自己的CANN生態(tài)。
03 CANN開源開放的“陽謀”
2025年8月初的昇騰計(jì)算產(chǎn)業(yè)發(fā)展峰會(huì)上,華為宣布“CANN全面開源開放,Mind系列應(yīng)用使能套件及工具鏈全面開源,支持用戶自主的深度挖潛和自定義開發(fā),加速廣大開發(fā)者的創(chuàng)新步伐,讓昇騰更好用、更易用。”
在英偉達(dá)的封閉生態(tài)遭遇“信任危機(jī)”時(shí),華為站在了歷史正確的一邊——加速開源開放。
CANN的全面開源開放,意味著開發(fā)者可以深入到圖優(yōu)化、算子融合、內(nèi)存調(diào)度等底層機(jī)制,不僅可以調(diào)用,還能看到底層實(shí)現(xiàn)邏輯,甚至在必要時(shí)改造、優(yōu)化,進(jìn)行二次創(chuàng)新。
Mind系列工具鏈的開源,讓模型移植、調(diào)試、Profiling的全過程“白盒化”,開發(fā)者不再局限于現(xiàn)成的工具和框架,可以根據(jù)自身需求進(jìn)行深度定制和優(yōu)化,實(shí)現(xiàn)更高的性能和效率。
CANN還進(jìn)一步兼容了vLLM、SGLang、PyTorch、Tensorflow等主流框架,開發(fā)者將應(yīng)用遷移到昇騰平臺(tái)時(shí),無需對(duì)原有代碼進(jìn)行大規(guī)模修改,只需做少量適配乃至“零改動(dòng)”。
故事并未就此結(jié)束。
9月18日的華為HC 2025上,華為的硬件和超節(jié)點(diǎn)架構(gòu)占據(jù)了多家媒體的頭條,其實(shí)還有另一個(gè)影響可能更深遠(yuǎn)的動(dòng)作——華為宣布將開放靈衢2.0技術(shù)規(guī)范,全面開放超節(jié)點(diǎn)技術(shù),包括開放超節(jié)點(diǎn)參考架構(gòu)、開放超節(jié)點(diǎn)基礎(chǔ)硬件、開源操作系統(tǒng)靈衢組件等等。
![]()
無論是昇騰384超節(jié)點(diǎn),還是支持8192張卡的Atlas 950超節(jié)點(diǎn),都是基于靈衢互聯(lián)協(xié)議開創(chuàng)的。底層技術(shù)協(xié)議和整套超節(jié)點(diǎn)技術(shù)的開放,意味著產(chǎn)業(yè)界可以基于技術(shù)規(guī)范自研相關(guān)產(chǎn)品或部件,自主設(shè)計(jì)基于靈衢的各種產(chǎn)品,實(shí)現(xiàn)真正意義上的AI算力自由。
個(gè)中邏輯并不難解釋。
只有走開源路線,降低產(chǎn)業(yè)參與門檻,才有更多的企業(yè)從中受益,才會(huì)讓更多的開發(fā)者敢于All in。華為通過硬件開放、軟件開源主動(dòng)拆掉了最核心的“護(hù)城河“,用“技術(shù)讓利”換取“生態(tài)復(fù)利”,吸引全球的開發(fā)者參與進(jìn)來,促進(jìn)產(chǎn)業(yè)鏈上下游協(xié)同,形成良性的正反饋循環(huán)。
一組不應(yīng)該被忽略的數(shù)據(jù)是:CANN全面開源開放48小時(shí)內(nèi),昇騰開發(fā)者社區(qū)新增注冊用戶就超過了10萬,Gitee平臺(tái)上的CANN代碼庫收獲了5.7萬星標(biāo),向外界宣示了中國計(jì)算生態(tài)的號(hào)召力和凝聚力。
04 前路漫漫亦燦燦
客觀評(píng)價(jià)CANN代表的國產(chǎn)計(jì)算生態(tài),必須承認(rèn)仍處于“追趕”階段,在成熟度、應(yīng)用廣度、生態(tài)完善度上和CUDA仍有差距。畢竟CUDA已經(jīng)打磨了近20年,CANN在2018年才推出。
有差距不代表沒機(jī)會(huì),大模型技術(shù)正在重構(gòu)千行萬業(yè),也在加劇底層計(jì)算生態(tài)的重新洗牌。
比如華為一直積極與高校合作,通過編寫教材、開設(shè)實(shí)驗(yàn)課、聯(lián)合研發(fā)等方式,將昇騰、鯤鵬生態(tài)納入到了人才培養(yǎng)體系,同時(shí)幫助高校和科研機(jī)構(gòu)在國產(chǎn)平臺(tái)上進(jìn)行前沿研究。
典型例子就是北京大學(xué)的楊智老師,基于Ascend C自主開發(fā)了AI編程語言TileLang,提供Tile-level的類Python編程方式,大幅降低了AI編程門檻。目前昇騰CANN與TileLang已對(duì)接,并完成了FlashAttention算子的開發(fā)實(shí)現(xiàn),性能持平官方版本,核心代碼從500+行減少到了80行。
某種程度上,昇騰已經(jīng)初步形成了“教育—應(yīng)用—生態(tài)”的閉環(huán):學(xué)生們在求學(xué)階段就能接觸到國產(chǎn)計(jì)算生態(tài),在實(shí)驗(yàn)室里嘗試開發(fā)應(yīng)用,畢業(yè)后應(yīng)用到廣闊的產(chǎn)業(yè)場景中,為生態(tài)的繁榮持續(xù)注入 “新鮮血液”。
![]()
再比如在大模型領(lǐng)域,MoE架構(gòu)逐漸成為提升參數(shù)規(guī)模和推理效率的主流路徑,卻也遇到了跨卡通信的高帶寬壓力、專家路由的動(dòng)態(tài)調(diào)度等新挑戰(zhàn)。除了超節(jié)點(diǎn)的架構(gòu)創(chuàng)新,CANN也進(jìn)行了針對(duì)性優(yōu)化。
在算子開發(fā)方面,CANN將在下個(gè)版本中同時(shí)支持SIMD+SIMT的編程方式,滿足不同場景的開發(fā)需求:其中SIMD新增支持的Cube和Vector融合編程,無需寫數(shù)據(jù)搬運(yùn)指令,實(shí)現(xiàn)融合算子開發(fā)效率提升30%。
在通信效率方面,昇騰將開源共享內(nèi)存能力Share Memory,在超節(jié)點(diǎn)范圍內(nèi)的所有片上內(nèi)存可實(shí)現(xiàn)資源池化共享,并通過Load and Store方式通信,較傳統(tǒng)通信時(shí)間大幅降低。
截止到目前,越來越多的第三方企業(yè)和開發(fā)者與華為站在一起,加入到了開源共建的陣營中。
比如無問芯穹基于CATLASS模板庫開發(fā)的Group GEMM算子,相比aclNN算子,性能再提升50%;科大訊飛、華南理工等企業(yè)和高校,在不斷豐富算子開發(fā)的專家知識(shí)庫,幾分鐘內(nèi)便可輸出最優(yōu)Tiling策略......
一邊在人才培養(yǎng)上“補(bǔ)短板”,一邊在工程創(chuàng)新上“立長板”,只要沿著正確的道路走下去,一個(gè)繁榮的計(jì)算生態(tài)只是時(shí)間問題。
05 寫在最后
計(jì)算生態(tài)的范疇不只是AI算力,CPU、操作系統(tǒng)等都需要從0到1構(gòu)建自主生態(tài),每一個(gè)都深刻影響著整個(gè)產(chǎn)業(yè)格局。
樂觀的是,CANN的崛起已經(jīng)論證了自主生態(tài)的可行性,跑出了開源開放的生態(tài)新范式:有人在計(jì)算架構(gòu)上不斷試探極限,有人在工具鏈和框架中默默補(bǔ)齊短板,有人在高校課堂和開源社區(qū)里播下種子……這不是一家企業(yè)的獨(dú)角戲,而是中國計(jì)算產(chǎn)業(yè)的集體答卷。
生態(tài)不是三年五載就能完成的工程,需要千千萬萬的開發(fā)者參與進(jìn)來,考驗(yàn)的不是速度,而是中國計(jì)算產(chǎn)業(yè)的集體耐力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.