從2022年底ChatGPT橫空出世,到2023年百模大戰(zhàn),再到近三個月OpenAI推出GPT4.5、xAI發(fā)布Grok3、Anthropic推出Claude3.7 Sonnet、Meta發(fā)布Llama4,大模型迭代速度一直在加速。而國內(nèi)則迎來一場開源的狂飆突進(jìn),DeepSeek開源了V3和R1,阿里通義千問開源了全新推理模型QwQ-32B。在這樣的發(fā)展之下,中國生成式AI用戶達(dá)到3億,超過人口的20%還多,而在去年年底這一數(shù)字是2.49億,三個多月的時間就增長了5000多萬。
對AI大模型來說,落地才是最緊迫的任務(wù)。所以,AI芯片的混戰(zhàn)下半場,已然逐漸從訓(xùn)練端,卷到推理端。從器件形態(tài)來看,ASIC面對AI推理的效率一定更高。
昨日,谷歌最強AI芯片第七代TPU(張量處理單元)——Ironwood正式亮相,這款TPU芯片性能狂飆3600倍,直接叫板英偉達(dá)Blackwell B200。這或許意味著,ASIC的戰(zhàn)爭更進(jìn)一步了。
ASIC:和GPU相互補
眾所周知,ASIC作為一種定制芯片,其計算能力和效率都嚴(yán)格匹配任務(wù)算法,芯片核心數(shù)量、邏輯計算單元、控制單元比例、緩存以及芯片架構(gòu)都是精確定制,因此ASIC擁有價值的性能、體積、功耗。
但與之相對的,ASIC的開發(fā)需要很長的開發(fā)周期,并且具有很大的開發(fā)風(fēng)險,所以英偉達(dá)GPU憑借其強大通用算力和軟件生態(tài)在AI時代取得勝利。
![]()
廠商對能效比和成本的追求是永無止境的,谷歌、亞馬遜、Meta、OpenAI等大型云計算和大模型廠商均加速布局定制化ASIC,ASIC正逐步發(fā)展成為英偉達(dá)GPU之外的重要新技術(shù)路線。摩根士丹利預(yù)計,AI ASIC市場規(guī)模將從2024年的120億美元增長至2027年的300億美元,復(fù)合增長率達(dá)34%。
對AI訓(xùn)練來說,需要很強大的并行算力,而AI推理則對算力需求有所下降,同時算法也相對固定,加之目前很多企業(yè)的ASIC基本都完成研發(fā)。所以,現(xiàn)在逐漸形成英偉達(dá)GPU主導(dǎo)AI訓(xùn)練,推理階段更多廠商轉(zhuǎn)向ASIC芯片的局面。當(dāng)然,其中也有一些例外情況,比如蘋果選擇使用谷歌TPU訓(xùn)練模型。
DeepSeek的出現(xiàn)更是推動行業(yè)關(guān)注推理上限,提升算力效率并降低成本,使競爭格局更趨多元。需要強調(diào)的是,ASIC最終不會取代GPU,而是與其分工協(xié)作。
![]()
谷歌TPU:性能再次起飛
TPU是一種專為處理張量運算而設(shè)計的ASIC芯片,由谷歌自研在2016年推出首款產(chǎn)品。在深度學(xué)習(xí)的世界里,張量(多維數(shù)組)是無處不在的。TPU就是為了高效處理這些張量運算而誕生的。
昨日,谷歌正式發(fā)布旗下第七代張量處理單元(TPU)Ironwood。谷歌稱,在大規(guī)模部署的情況下,這款 AI 加速器的計算能力能達(dá)到全球最快超級計算機的24倍以上。
單芯片規(guī)格上,Ironwood顯著提升了內(nèi)存和帶寬,每塊芯片配備192GB高帶寬內(nèi)存(HBM),是去年發(fā)布的上一代TPU Trillium的六倍。每塊芯片的內(nèi)存帶寬達(dá)到7.2 terabits/s,是 Trillium的4.5倍。
此外,Ironwood擁有超模的技術(shù)規(guī)格,當(dāng)每個pod擴展至9216塊芯片時,可提供42.5 exaflops的AI算力,遠(yuǎn)超目前全球最快的超級計算機El Capitan的1.7 exaflops。每塊 Ironwood芯片的峰值計算能力可達(dá)4614TFLOPs。
![]()
目前,TPU芯片已經(jīng)成為全球第三大數(shù)據(jù)中心芯片設(shè)計廠商,據(jù)產(chǎn)業(yè)鏈相關(guān)人士透露,谷歌TPU芯片去年的生產(chǎn)量已經(jīng)達(dá)到280萬~300萬片之間。
國產(chǎn)TPU:耗時5年的全自研產(chǎn)品
國內(nèi)也有一家廠商布局TPU,它就是中昊芯英。
中昊芯英由前谷歌TPU芯片核心研發(fā)者楊龔軼凡攜一批來自于谷歌、微軟、三星等海外科技巨頭公司的AI軟硬件設(shè)計專家于2018年創(chuàng)立。致力于以自研的TPU架構(gòu)高性能AI芯片“ 剎那 ”與計算集群“ 泰則?”為核心,構(gòu)建AI大模型計算所需的、國產(chǎn)自主可控的、能夠匹配海外先進(jìn)水平的AI算力基石。當(dāng)前已與各地政府、運營商、企業(yè)合作建設(shè)多個超大規(guī)模智算中心。
創(chuàng)始人楊龔軼凡擁有斯坦福大學(xué)碩士及密歇根大學(xué)學(xué)士學(xué)位,持有54項中國專利及15項美國和歐洲專利,發(fā)表ASSCC/ISSCC/JSSCC頂級論文3篇。深耕硅谷高端芯片研發(fā)十余年,曾主導(dǎo)Google TPU 2/3/4芯片研發(fā)及甲骨文SPARC T8/M8等12款高性能CPU設(shè)計,累計成功流片超10次。
產(chǎn)品方面,中國首枚高性能TPU架構(gòu)AI芯片“ 剎那 ”是中昊芯英歷時近5年全自研的GPTPU架構(gòu)高性能AI芯片,擁有完全自主可控的IP核、全自研指令集與計算平臺。在用于AI大模型計算場景時,“ 剎那 ”的算力性能超越海外著名GPU產(chǎn)品近1.5倍,能耗降低30%,成功打破了國外企業(yè)在高端AI芯片領(lǐng)域的壟斷地位。
“剎那 ”實現(xiàn)可重構(gòu)多級存儲、存算一體設(shè)計、以及流水線式的時空映射,以強大的并行處理能力實現(xiàn)大模型計算速度和精度的雙重提升。同時采用Chiplet技術(shù),2.5D封裝實現(xiàn)同等制程工藝下的性能躍升。支持1024片芯片片間互聯(lián),系統(tǒng)集群性能遠(yuǎn)超傳統(tǒng)GPU數(shù)十倍,集群擴容時性能可線性增長,以構(gòu)建千卡、萬卡規(guī)模超算集群。
![]()
基于“剎那”芯片構(gòu)建的“泰則” AI計算集群系統(tǒng),實現(xiàn)1024片AI芯片的高速片間互聯(lián),集群可實現(xiàn)線性擴容,單集群最大浮點運算能力達(dá)200P以上,系統(tǒng)級性能比傳統(tǒng)GPU集群提升數(shù)十倍 “泰則?”大規(guī)模AI計算集群可支撐包括超千億參數(shù)AIGC大模型運算、高級無人駕駛模型訓(xùn)練、蛋白質(zhì)結(jié)構(gòu)精密預(yù)測、AlphaGo、 AlphaZero 等在內(nèi)的各類高強度Al運算場景。
![]()
LPU:Groq借勢起飛
AI大模型時代,LPU異軍突起,作為一種全新的ASIC種類瘋狂被“吹捧”。
早在今年1月有消息傳出,美國推理芯片公司Groq已經(jīng)在自己的LPU芯片上實機運行 DeepSeek,效率比最新的H100快上一個量級,達(dá)到每秒24000token。
此外,Groq曾于2024年12月在沙特阿拉伯達(dá)曼構(gòu)建了中東地區(qū)最大的推理集群,該集群包括了19000個Groq LPU。
那么LPU到底是什么?
LPU本質(zhì)上是專門為處理自然語言(NLP)任務(wù)而設(shè)計的一種新型硬件處理器(ASIC芯片)。不過,LPU和其他ASIC不一樣的地方在于存儲。其采用同時采用存算一體設(shè)計,把GPU中的HBM,換成了容量更低、但速度更快的SRAM。將高帶寬片上SRAM直接集成到芯片內(nèi)部,有效地降低了內(nèi)存的訪問延遲,還顯著提升了整體計算的吞吐量。說白了,就是ASIC+存算一體,所以比GPU快。
![]()
不過,雖然換成了SRAM,速度確實變快了,但是整體成本可能反而更高了。曾經(jīng)有人粗略計算過,按照三年時間的運營成本來計算, Groq LPU采購成本會是英偉達(dá)H100的38 倍,運營成本達(dá)到了10倍。這么來看,其實LPU并沒有媒體們渲染地那么“神話”或者“王炸”。
![]()
雖然在通用性還有性價比LPU沒有GPU好,但是LPU的確實打?qū)嵉靥嵘擞嬎隳芰Γ瑩碛泻芎玫哪苄П龋彩强尚新肪€之一。
NPU:時代的新寵
與TPU和LPU不同,NPU主要是用在邊緣AI中。大模型為AI注入新的活力之時,邊緣AI的需求也隨之增加,幾大處理器IP廠商,都在擴展基于邊緣的AI NPU,以卸載CPU的負(fù)載從而提升效率降低功耗。一些MCU廠商已在其產(chǎn)品中集成NPU內(nèi)核,其中比如NXP、TI、英飛凌、ST、ADI等都是采用自研的NPU IP內(nèi)核。市場上也會存在一些第三方的NPU IP廠商:
Arm Ethos NPU:在2020年初正式推出Ethos-U55,目前已經(jīng)推出三代產(chǎn)品,目前產(chǎn)品包括Ethos-U55、Ethos-U65。目前已有ALIF、Himax(奇景)、Nuvoton(新唐)、Infineon(英飛凌)推出了基于Cortex-M55+Ethos-U55組合的產(chǎn)品。
安謀科技周易NPU系列:2023年安謀發(fā)布自研“周易”X2 NPU,針對ADAS、智能座艙、平板電腦、臺式機和手機等細(xì)分應(yīng)用場景進(jìn)行了大量性能優(yōu)化,此外,安謀科技還有“周易”Z系列NPU。值得一提的是,安謀科技新一代“周易”NPU實現(xiàn)DeepSeek-R1端側(cè)高效部署。
Ceva:具體產(chǎn)品包括Ceva-NeuPro-Nano、Ceva-NeuPro-M、Ceva-NeuPro Studio等。
Cadence:Cadence的Tensilica Neo NPU是高效能、低功耗的神經(jīng)處理單元(NPU),專為嵌入式AI應(yīng)用設(shè)計。
Synopsys:Synopsys ARC NPX6 NPU IP 系列是業(yè)內(nèi)性能最高的神經(jīng)處理單元(NPU)IP,專為滿足AI應(yīng)用的實時計算需求而設(shè)計,具備超低功耗。該系列包含ARC NPX6和NPX6FS,支持最新的復(fù)雜神經(jīng)網(wǎng)絡(luò)模型,包括生成式AI,并提供高達(dá)3500 TOPS的性能,適用于智能SoC設(shè)計。
芯原:官方表示其NPU IP的AI芯片在全球范圍內(nèi)出貨量超過了1億顆,主要應(yīng)用在物聯(lián)網(wǎng)、可穿戴、智能家居、安防監(jiān)控、服務(wù)器、汽車電子、智能手機、平板電腦等市場。據(jù)悉,其NPU IP已被72家客戶用在了128款A(yù)I芯片當(dāng)中。最新推出的VIP9000系列NPU IP提供了可擴展和高性能的處理能力,適用于Transformer和卷積神經(jīng)網(wǎng)絡(luò)(CNN)。
晶心科技:AndesAIRE AnDLA I350 是一款深度學(xué)習(xí)加速器,專為邊緣和終端推理設(shè)計,提供高性能和高效能的AI解決方案。
其他ASIC芯片:伺機待發(fā)
ASIC領(lǐng)域,博通和Marvell是兩位主要玩家,二者在AI定制芯片中占據(jù)了約70%的市場份額。
博通在AI芯片領(lǐng)域的核心優(yōu)勢在于定制化ASIC芯片和高速數(shù)據(jù)交換芯片,其解決方案廣泛應(yīng)用于數(shù)據(jù)中心、云計算、HPC(高性能計算)和5G基礎(chǔ)設(shè)施等領(lǐng)域。最新財報顯示,博通的AI相關(guān)業(yè)務(wù)收入同比激增220%,主要受AI加速器和網(wǎng)絡(luò)設(shè)備的旺盛需求推動。博通CEO陳福陽(Hock Tan)在財報會議上透露,到2027年,其三大客戶對AI定制芯片的需求規(guī)模預(yù)計將達(dá)到600億~900億美元。
博通有兩個大合作備受關(guān)注:第一是Meta與博通已合作開發(fā)了前兩代AI訓(xùn)練加速處理器,目前雙方正加速推進(jìn)第三代MTIA芯片的研發(fā),預(yù)計2024年下半年至2025年將取得重要進(jìn)展。第二是OpenAI已委托博通開發(fā)兩代ASIC芯片項目,計劃于2026年投產(chǎn),將采用業(yè)界領(lǐng)先的3nm/2nm制程工藝并搭配3D SOIC先進(jìn)封裝技術(shù)。與此同時,雖然蘋果目前仍在使用谷歌TPU,但其自研AI芯片項目已在積極推進(jìn)中。
Marvell的定制ASIC業(yè)務(wù)正成為其增長的關(guān)鍵引擎。2019年,Marvell以7.4億美元收購格芯(GlobalFoundries)旗下Avera半導(dǎo)體,正式進(jìn)軍ASIC市場。如今,該業(yè)務(wù)已成功吸引亞馬遜、谷歌等科技巨頭的訂單。
2024年12月,Marvell與AWS(Amazon Web Services)達(dá)成五年多代合作協(xié)議,涵蓋AI芯片定制設(shè)計,進(jìn)一步深化其在云計算市場的布局。Marvell預(yù)測,隨著AI算力需求爆發(fā),ASIC業(yè)務(wù)占比將提升至25%,并預(yù)計到2028年,數(shù)據(jù)中心ASIC市場規(guī)模將增長至429億美元。
去年年底,AWS發(fā)布了新一代AI訓(xùn)練芯片Trainium3。這是首款采用3nm工藝節(jié)點制造的AWS芯片,能效提高40%、性能翻倍提升。搭載Trainium3的UltraServer性能預(yù)計將比Trn2 UltraServer高出4倍。首批基于Trainium3的實例預(yù)計將于2025年底上市。
2023年,微軟也發(fā)布了專門用于云端訓(xùn)練和推理的AI芯片(ASIC)Microsoft Azure Maia 100。Maia 100是微軟為微軟云中大語言模型訓(xùn)練和推理而設(shè)計的首款A(yù)I芯片,采用臺積電5nm工藝,晶體管數(shù)量達(dá)到1050億個,因此,當(dāng)涉及到晶體管或時鐘速度時,它并不屬于輕量級。同時,針對AI和生成式AI進(jìn)行了優(yōu)化,支持微軟首次實現(xiàn)的低于8位數(shù)據(jù)類型(MX數(shù)據(jù)類型)。
總 結(jié)
ASIC不會完全取代GPU,但將成為推理市場主導(dǎo)力量,也會在訓(xùn)練領(lǐng)域有所發(fā)展。谷歌TPU、國產(chǎn)“剎那”、Groq LPU等創(chuàng)新架構(gòu),正推動AI算力向高效、低成本方向發(fā)展。未來,隨著大模型繼續(xù)發(fā)展,ASIC一定還會有更大的發(fā)展。
參考文獻(xiàn)
[1]中國電子報:https://mp.weixin.qq.com/s/1Drsaz4gfkLQC3TjvaoV6w
[2]鮮棗課堂:https://mp.weixin.qq.com/s/9i5qcCGZj1ynCkTfsA01Yg
[3]機器之心:https://mp.weixin.qq.com/s/MQRWr_i76Vrw8Z5YQaIbeA
[4]騰訊研究院:https://mp.weixin.qq.com/s/-KhpFHznaLlvbkkIUlSW_A
[5]差評:https://mp.weixin.qq.com/s/I4ox6Ir5xk3MvwKbVH3grQ
歡迎將我們設(shè)為“星標(biāo)”,這樣才能第一時間收到推送消息。
關(guān)注EEWorld旗下訂閱號:“機器人開發(fā)圈”
回復(fù)“DS”領(lǐng)取《DeepSeek:從入門到精通》完整版
掃碼添加小助手回復(fù)“機器人”
進(jìn)群和電子工程師們面對面交流經(jīng)驗
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.