DeepSeek時代，ASIC芯片加冕為王

2025-04-11 08:11:30　來源: EEWorld電子工程世界

北京舉報

分享至

從2022年底ChatGPT橫空出世，到2023年百模大戰(zhàn)，再到近三個月OpenAI推出GPT4.5、xAI發(fā)布Grok3、Anthropic推出Claude3.7 Sonnet、Meta發(fā)布Llama4，大模型迭代速度一直在加速。而國內(nèi)則迎來一場開源的狂飆突進(jìn)，DeepSeek開源了V3和R1，阿里通義千問開源了全新推理模型QwQ-32B。在這樣的發(fā)展之下，中國生成式AI用戶達(dá)到3億，超過人口的20%還多，而在去年年底這一數(shù)字是2.49億，三個多月的時間就增長了5000多萬。

對AI大模型來說，落地才是最緊迫的任務(wù)。所以，AI芯片的混戰(zhàn)下半場，已然逐漸從訓(xùn)練端，卷到推理端。從器件形態(tài)來看，ASIC面對AI推理的效率一定更高。

昨日，谷歌最強AI芯片第七代TPU（張量處理單元）——Ironwood正式亮相，這款TPU芯片性能狂飆3600倍，直接叫板英偉達(dá)Blackwell B200。這或許意味著，ASIC的戰(zhàn)爭更進(jìn)一步了。

ASIC：和GPU相互補

眾所周知，ASIC作為一種定制芯片，其計算能力和效率都嚴(yán)格匹配任務(wù)算法，芯片核心數(shù)量、邏輯計算單元、控制單元比例、緩存以及芯片架構(gòu)都是精確定制，因此ASIC擁有價值的性能、體積、功耗。

但與之相對的，ASIC的開發(fā)需要很長的開發(fā)周期，并且具有很大的開發(fā)風(fēng)險，所以英偉達(dá)GPU憑借其強大通用算力和軟件生態(tài)在AI時代取得勝利。

廠商對能效比和成本的追求是永無止境的，谷歌、亞馬遜、Meta、OpenAI等大型云計算和大模型廠商均加速布局定制化ASIC，ASIC正逐步發(fā)展成為英偉達(dá)GPU之外的重要新技術(shù)路線。摩根士丹利預(yù)計，AI ASIC市場規(guī)模將從2024年的120億美元增長至2027年的300億美元，復(fù)合增長率達(dá)34%。

對AI訓(xùn)練來說，需要很強大的并行算力，而AI推理則對算力需求有所下降，同時算法也相對固定，加之目前很多企業(yè)的ASIC基本都完成研發(fā)。所以，現(xiàn)在逐漸形成英偉達(dá)GPU主導(dǎo)AI訓(xùn)練，推理階段更多廠商轉(zhuǎn)向ASIC芯片的局面。當(dāng)然，其中也有一些例外情況，比如蘋果選擇使用谷歌TPU訓(xùn)練模型。

DeepSeek的出現(xiàn)更是推動行業(yè)關(guān)注推理上限，提升算力效率并降低成本，使競爭格局更趨多元。需要強調(diào)的是，ASIC最終不會取代GPU，而是與其分工協(xié)作。

谷歌TPU：性能再次起飛

TPU是一種專為處理張量運算而設(shè)計的ASIC芯片，由谷歌自研在2016年推出首款產(chǎn)品。在深度學(xué)習(xí)的世界里，張量（多維數(shù)組）是無處不在的。TPU就是為了高效處理這些張量運算而誕生的。

昨日，谷歌正式發(fā)布旗下第七代張量處理單元（TPU）Ironwood。谷歌稱，在大規(guī)模部署的情況下，這款 AI 加速器的計算能力能達(dá)到全球最快超級計算機的24倍以上。

單芯片規(guī)格上，Ironwood顯著提升了內(nèi)存和帶寬，每塊芯片配備192GB高帶寬內(nèi)存（HBM），是去年發(fā)布的上一代TPU Trillium的六倍。每塊芯片的內(nèi)存帶寬達(dá)到7.2 terabits/s，是 Trillium的4.5倍。

此外，Ironwood擁有超模的技術(shù)規(guī)格，當(dāng)每個pod擴展至9216塊芯片時，可提供42.5 exaflops的AI算力，遠(yuǎn)超目前全球最快的超級計算機El Capitan的1.7 exaflops。每塊 Ironwood芯片的峰值計算能力可達(dá)4614TFLOPs。

目前，TPU芯片已經(jīng)成為全球第三大數(shù)據(jù)中心芯片設(shè)計廠商，據(jù)產(chǎn)業(yè)鏈相關(guān)人士透露，谷歌TPU芯片去年的生產(chǎn)量已經(jīng)達(dá)到280萬~300萬片之間。

國產(chǎn)TPU：耗時5年的全自研產(chǎn)品

國內(nèi)也有一家廠商布局TPU，它就是中昊芯英。

中昊芯英由前谷歌TPU芯片核心研發(fā)者楊龔軼凡攜一批來自于谷歌、微軟、三星等海外科技巨頭公司的AI軟硬件設(shè)計專家于2018年創(chuàng)立。致力于以自研的TPU架構(gòu)高性能AI芯片“ 剎那 ”與計算集群“ 泰則?”為核心，構(gòu)建AI大模型計算所需的、國產(chǎn)自主可控的、能夠匹配海外先進(jìn)水平的AI算力基石。當(dāng)前已與各地政府、運營商、企業(yè)合作建設(shè)多個超大規(guī)模智算中心。

創(chuàng)始人楊龔軼凡擁有斯坦福大學(xué)碩士及密歇根大學(xué)學(xué)士學(xué)位，持有54項中國專利及15項美國和歐洲專利，發(fā)表ASSCC/ISSCC/JSSCC頂級論文3篇。深耕硅谷高端芯片研發(fā)十余年，曾主導(dǎo)Google TPU 2/3/4芯片研發(fā)及甲骨文SPARC T8/M8等12款高性能CPU設(shè)計，累計成功流片超10次。

產(chǎn)品方面，中國首枚高性能TPU架構(gòu)AI芯片“ 剎那 ”是中昊芯英歷時近5年全自研的GPTPU架構(gòu)高性能AI芯片，擁有完全自主可控的IP核、全自研指令集與計算平臺。在用于AI大模型計算場景時，“ 剎那 ”的算力性能超越海外著名GPU產(chǎn)品近1.5倍，能耗降低30%，成功打破了國外企業(yè)在高端AI芯片領(lǐng)域的壟斷地位。

“剎那 ”實現(xiàn)可重構(gòu)多級存儲、存算一體設(shè)計、以及流水線式的時空映射，以強大的并行處理能力實現(xiàn)大模型計算速度和精度的雙重提升。同時采用Chiplet技術(shù)，2.5D封裝實現(xiàn)同等制程工藝下的性能躍升。支持1024片芯片片間互聯(lián)，系統(tǒng)集群性能遠(yuǎn)超傳統(tǒng)GPU數(shù)十倍，集群擴容時性能可線性增長，以構(gòu)建千卡、萬卡規(guī)模超算集群。

基于“剎那”芯片構(gòu)建的“泰則” AI計算集群系統(tǒng)，實現(xiàn)1024片AI芯片的高速片間互聯(lián)，集群可實現(xiàn)線性擴容，單集群最大浮點運算能力達(dá)200P以上，系統(tǒng)級性能比傳統(tǒng)GPU集群提升數(shù)十倍 “泰則?”大規(guī)模AI計算集群可支撐包括超千億參數(shù)AIGC大模型運算、高級無人駕駛模型訓(xùn)練、蛋白質(zhì)結(jié)構(gòu)精密預(yù)測、AlphaGo、 AlphaZero 等在內(nèi)的各類高強度Al運算場景。

LPU：Groq借勢起飛

AI大模型時代，LPU異軍突起，作為一種全新的ASIC種類瘋狂被“吹捧”。

早在今年1月有消息傳出，美國推理芯片公司Groq已經(jīng)在自己的LPU芯片上實機運行 DeepSeek，效率比最新的H100快上一個量級，達(dá)到每秒24000token。

此外，Groq曾于2024年12月在沙特阿拉伯達(dá)曼構(gòu)建了中東地區(qū)最大的推理集群，該集群包括了19000個Groq LPU。

那么LPU到底是什么？

LPU本質(zhì)上是專門為處理自然語言（NLP）任務(wù)而設(shè)計的一種新型硬件處理器（ASIC芯片）。不過，LPU和其他ASIC不一樣的地方在于存儲。其采用同時采用存算一體設(shè)計，把GPU中的HBM，換成了容量更低、但速度更快的SRAM。將高帶寬片上SRAM直接集成到芯片內(nèi)部，有效地降低了內(nèi)存的訪問延遲，還顯著提升了整體計算的吞吐量。說白了，就是ASIC+存算一體，所以比GPU快。

不過，雖然換成了SRAM，速度確實變快了，但是整體成本可能反而更高了。曾經(jīng)有人粗略計算過，按照三年時間的運營成本來計算， Groq LPU采購成本會是英偉達(dá)H100的38 倍，運營成本達(dá)到了10倍。這么來看，其實LPU并沒有媒體們渲染地那么“神話”或者“王炸”。

雖然在通用性還有性價比LPU沒有GPU好，但是LPU的確實打?qū)嵉靥嵘擞嬎隳芰Γ瑩碛泻芎玫哪苄П龋彩强尚新肪€之一。

NPU：時代的新寵

與TPU和LPU不同，NPU主要是用在邊緣AI中。大模型為AI注入新的活力之時，邊緣AI的需求也隨之增加，幾大處理器IP廠商，都在擴展基于邊緣的AI NPU，以卸載CPU的負(fù)載從而提升效率降低功耗。一些MCU廠商已在其產(chǎn)品中集成NPU內(nèi)核，其中比如NXP、TI、英飛凌、ST、ADI等都是采用自研的NPU IP內(nèi)核。市場上也會存在一些第三方的NPU IP廠商：

Arm Ethos NPU：在2020年初正式推出Ethos-U55，目前已經(jīng)推出三代產(chǎn)品，目前產(chǎn)品包括Ethos-U55、Ethos-U65。目前已有ALIF、Himax（奇景）、Nuvoton（新唐）、Infineon（英飛凌）推出了基于Cortex-M55+Ethos-U55組合的產(chǎn)品。

安謀科技周易NPU系列：2023年安謀發(fā)布自研“周易”X2 NPU，針對ADAS、智能座艙、平板電腦、臺式機和手機等細(xì)分應(yīng)用場景進(jìn)行了大量性能優(yōu)化，此外，安謀科技還有“周易”Z系列NPU。值得一提的是，安謀科技新一代“周易”NPU實現(xiàn)DeepSeek-R1端側(cè)高效部署。

Ceva：具體產(chǎn)品包括Ceva-NeuPro-Nano、Ceva-NeuPro-M、Ceva-NeuPro Studio等。

Cadence：Cadence的Tensilica Neo NPU是高效能、低功耗的神經(jīng)處理單元（NPU），專為嵌入式AI應(yīng)用設(shè)計。

Synopsys：Synopsys ARC NPX6 NPU IP 系列是業(yè)內(nèi)性能最高的神經(jīng)處理單元（NPU）IP，專為滿足AI應(yīng)用的實時計算需求而設(shè)計，具備超低功耗。該系列包含ARC NPX6和NPX6FS，支持最新的復(fù)雜神經(jīng)網(wǎng)絡(luò)模型，包括生成式AI，并提供高達(dá)3500 TOPS的性能，適用于智能SoC設(shè)計。

芯原：官方表示其NPU IP的AI芯片在全球范圍內(nèi)出貨量超過了1億顆，主要應(yīng)用在物聯(lián)網(wǎng)、可穿戴、智能家居、安防監(jiān)控、服務(wù)器、汽車電子、智能手機、平板電腦等市場。據(jù)悉，其NPU IP已被72家客戶用在了128款A(yù)I芯片當(dāng)中。最新推出的VIP9000系列NPU IP提供了可擴展和高性能的處理能力，適用于Transformer和卷積神經(jīng)網(wǎng)絡(luò)（CNN）。

晶心科技：AndesAIRE AnDLA I350 是一款深度學(xué)習(xí)加速器，專為邊緣和終端推理設(shè)計，提供高性能和高效能的AI解決方案。

其他ASIC芯片：伺機待發(fā)

ASIC領(lǐng)域，博通和Marvell是兩位主要玩家，二者在AI定制芯片中占據(jù)了約70%的市場份額。

博通在AI芯片領(lǐng)域的核心優(yōu)勢在于定制化ASIC芯片和高速數(shù)據(jù)交換芯片，其解決方案廣泛應(yīng)用于數(shù)據(jù)中心、云計算、HPC（高性能計算）和5G基礎(chǔ)設(shè)施等領(lǐng)域。最新財報顯示，博通的AI相關(guān)業(yè)務(wù)收入同比激增220%，主要受AI加速器和網(wǎng)絡(luò)設(shè)備的旺盛需求推動。博通CEO陳福陽（Hock Tan）在財報會議上透露，到2027年，其三大客戶對AI定制芯片的需求規(guī)模預(yù)計將達(dá)到600億~900億美元。

博通有兩個大合作備受關(guān)注：第一是Meta與博通已合作開發(fā)了前兩代AI訓(xùn)練加速處理器，目前雙方正加速推進(jìn)第三代MTIA芯片的研發(fā)，預(yù)計2024年下半年至2025年將取得重要進(jìn)展。第二是OpenAI已委托博通開發(fā)兩代ASIC芯片項目，計劃于2026年投產(chǎn)，將采用業(yè)界領(lǐng)先的3nm/2nm制程工藝并搭配3D SOIC先進(jìn)封裝技術(shù)。與此同時，雖然蘋果目前仍在使用谷歌TPU，但其自研AI芯片項目已在積極推進(jìn)中。

Marvell的定制ASIC業(yè)務(wù)正成為其增長的關(guān)鍵引擎。2019年，Marvell以7.4億美元收購格芯（GlobalFoundries）旗下Avera半導(dǎo)體，正式進(jìn)軍ASIC市場。如今，該業(yè)務(wù)已成功吸引亞馬遜、谷歌等科技巨頭的訂單。

2024年12月，Marvell與AWS（Amazon Web Services）達(dá)成五年多代合作協(xié)議，涵蓋AI芯片定制設(shè)計，進(jìn)一步深化其在云計算市場的布局。Marvell預(yù)測，隨著AI算力需求爆發(fā)，ASIC業(yè)務(wù)占比將提升至25%，并預(yù)計到2028年，數(shù)據(jù)中心ASIC市場規(guī)模將增長至429億美元。

去年年底，AWS發(fā)布了新一代AI訓(xùn)練芯片Trainium3。這是首款采用3nm工藝節(jié)點制造的AWS芯片，能效提高40%、性能翻倍提升。搭載Trainium3的UltraServer性能預(yù)計將比Trn2 UltraServer高出4倍。首批基于Trainium3的實例預(yù)計將于2025年底上市。

2023年，微軟也發(fā)布了專門用于云端訓(xùn)練和推理的AI芯片（ASIC）Microsoft Azure Maia 100。Maia 100是微軟為微軟云中大語言模型訓(xùn)練和推理而設(shè)計的首款A(yù)I芯片，采用臺積電5nm工藝，晶體管數(shù)量達(dá)到1050億個，因此，當(dāng)涉及到晶體管或時鐘速度時，它并不屬于輕量級。同時，針對AI和生成式AI進(jìn)行了優(yōu)化，支持微軟首次實現(xiàn)的低于8位數(shù)據(jù)類型（MX數(shù)據(jù)類型）。

總結(jié)

ASIC不會完全取代GPU，但將成為推理市場主導(dǎo)力量，也會在訓(xùn)練領(lǐng)域有所發(fā)展。谷歌TPU、國產(chǎn)“剎那”、Groq LPU等創(chuàng)新架構(gòu)，正推動AI算力向高效、低成本方向發(fā)展。未來，隨著大模型繼續(xù)發(fā)展，ASIC一定還會有更大的發(fā)展。

參考文獻(xiàn)

[1]中國電子報：https://mp.weixin.qq.com/s/1Drsaz4gfkLQC3TjvaoV6w

[2]鮮棗課堂：https://mp.weixin.qq.com/s/9i5qcCGZj1ynCkTfsA01Yg

[3]機器之心：https://mp.weixin.qq.com/s/MQRWr_i76Vrw8Z5YQaIbeA

[4]騰訊研究院：https://mp.weixin.qq.com/s/-KhpFHznaLlvbkkIUlSW_A

[5]差評：https://mp.weixin.qq.com/s/I4ox6Ir5xk3MvwKbVH3grQ

歡迎將我們設(shè)為“星標(biāo)”，這樣才能第一時間收到推送消息。

關(guān)注EEWorld旗下訂閱號：“機器人開發(fā)圈”

回復(fù)“DS”領(lǐng)取《DeepSeek:從入門到精通》完整版

掃碼添加小助手回復(fù)“機器人”

進(jìn)群和電子工程師們面對面交流經(jīng)驗

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.