![]()
全球智能手機(jī)市場(chǎng)經(jīng)歷兩年下滑,在2024年一掃頹勢(shì),根據(jù)Canalys數(shù)據(jù),出貨量增長(zhǎng)7%。今年上半年繼續(xù)增長(zhǎng)4%。
同時(shí),CounterPoint Research發(fā)布報(bào)告稱(chēng),600美元以上的高端機(jī)型上半年同比增速達(dá)到8%,創(chuàng)下歷史新高[1]。
終端設(shè)備的競(jìng)爭(zhēng)也是核心零部件的競(jìng)爭(zhēng),SoC廠商自然身處其中,扮演重要角色。疊加生成式AI帶來(lái)的算力躍進(jìn),聯(lián)發(fā)科憑借天璣系列芯片,穩(wěn)穩(wěn)地站上了出貨量第一的位置。
今年9月,聯(lián)發(fā)科推出AI算力翻倍的旗艦SoC天璣9500。在人工智能向終端設(shè)備滲透的加速周期,軍備競(jìng)賽的第一槍就此打響。
架構(gòu)的勝利
移動(dòng)SoC的設(shè)計(jì)是個(gè)系統(tǒng)性工程。決定樓層高度的是地基,決定芯片能力上限的是底層架構(gòu)。
如果把開(kāi)發(fā)一顆芯片比作建造一座大樓,芯片架構(gòu)設(shè)計(jì)就是建筑方案設(shè)計(jì),根據(jù)“大樓”的定位和需求,確定樓層數(shù)、風(fēng)格、電梯和樓梯布局。
天璣系列連續(xù)幾代性能穩(wěn)步提升的背后,是聯(lián)發(fā)科對(duì)芯片架構(gòu)大刀闊斧的改造過(guò)程。
2023年發(fā)布的天璣9300,用行業(yè)首發(fā)的全大核CPU架構(gòu)完成了多核性能的逆襲。今年的天璣9500沿用“1+3+4”的第三代全大核架構(gòu),同時(shí)拋棄了Cortex-X4系超大核,全面轉(zhuǎn)投性能更強(qiáng)的C1系列架構(gòu)。
所謂“1+3+4”,指1個(gè)C1-Ultra,3個(gè)C1-Premium,均為最新一代C1系超大核,外加4個(gè)C1-Pro。
C1-Ultra作為“黑鷹”Cortex-X925的后一代,結(jié)合臺(tái)積電第三代3nm制程,不僅讓天璣系列首次邁入“4”開(kāi)頭時(shí)代——主頻高達(dá)4.21GHz,同時(shí)還實(shí)現(xiàn)了IPC的兩位數(shù)提升。
相比上代產(chǎn)品,天璣9500的單核性能提升32%,多核性能增加17%。
![]()
業(yè)內(nèi)常用時(shí)鐘頻率和IPC(Instruction Per Clock)的乘積來(lái)衡量CPU的性能。簡(jiǎn)單來(lái)說(shuō),前者相當(dāng)于單位時(shí)間搬磚的次數(shù),后者相當(dāng)于一次搬多少塊磚。
理論上兩者越大越好,但人干活會(huì)出汗,芯片計(jì)算會(huì)發(fā)熱。高頻需要更高的電壓支持,代價(jià)是發(fā)熱量和耗電量急劇增加。
天璣9500通過(guò)C1-Ultra更寬的指令流水線、更聰明的亂序執(zhí)行和升級(jí)的預(yù)取技術(shù),進(jìn)一步實(shí)現(xiàn)了IPC的突破。更高的IPC,意味著更低頻率的等效性能——在有限中盡可能創(chuàng)造無(wú)限,是芯片架構(gòu)的魅力所在。
CPU架構(gòu)以外,天璣9500的更大的亮點(diǎn)在于GPU和NPU性能雙突破。
GPU采用最新一代Mali G1-Ultra MC12,憑借聯(lián)發(fā)科與ARM聯(lián)合研發(fā)的全新“Drage”架構(gòu),光追性能提升超過(guò)一倍,游戲畫(huà)面的流暢性進(jìn)一步提升。同時(shí),能效比提升超過(guò)40%,有效延長(zhǎng)手機(jī)續(xù)航。
而NPU方面,創(chuàng)新采用“超性能+超能效”的雙NPU架構(gòu),算力較上一代直接翻倍,其中超能效NPU引入“存算一體”架構(gòu),通過(guò)減少數(shù)據(jù)搬運(yùn)能耗和延遲,提升AI計(jì)算效率,實(shí)現(xiàn)輕負(fù)載AI模型Always-On運(yùn)算,讓“隨時(shí)響應(yīng)”和“長(zhǎng)續(xù)航”得以兼容,賦能主動(dòng)式 AI應(yīng)用。
緩存的進(jìn)一步擴(kuò)容,是天璣9500的隱藏“大招”。
蘋(píng)果從2013年的A7開(kāi)始效仿桌面處理器加入L3緩存,時(shí)至今日,最新發(fā)布的A19 Pro相比前代產(chǎn)品,最后一級(jí)緩存整整提高了50%。
蘋(píng)果保持大緩存設(shè)計(jì)習(xí)慣的背后,是因?yàn)镃PU和內(nèi)存性能之間存在剪刀差。在處理器內(nèi)部,CGN(CPU、GPU、NPU)通常要從內(nèi)存調(diào)取數(shù)據(jù),做對(duì)應(yīng)的計(jì)算工作,最后再把結(jié)果搬回內(nèi)存。
因此決定計(jì)算快慢的,除了CGN的計(jì)算速度之外,還有數(shù)據(jù)的“搬運(yùn)速度”,當(dāng)數(shù)據(jù)搬運(yùn)速度低于計(jì)算速度,就造成了“內(nèi)存墻”,拖垮計(jì)算效率。
![]()
這種情況下,緩存作為數(shù)據(jù)的臨時(shí)倉(cāng)庫(kù),便成為近年來(lái)堆料的核心陣地,也是天璣系列一以貫之的設(shè)計(jì)思路。
在前代產(chǎn)品的基礎(chǔ)上,天璣9500再接再厲,L3從12MB大幅增加到16MB,SLC維持10MB水平,為需要密集計(jì)算的應(yīng)用打下基礎(chǔ)。
激進(jìn)的IPC升級(jí),“存算一體”架構(gòu)的引入,加上緩存針對(duì)性的擴(kuò)容,組合成了聯(lián)發(fā)科的芯片設(shè)計(jì)水平的代表作,也將移動(dòng)SoC的技術(shù)競(jìng)爭(zhēng)推向了新的高度。
擺正算力和功耗的天平
半導(dǎo)體行業(yè)一個(gè)普遍共識(shí)是,沒(méi)有完美的芯片,只有完美的Trade-off。
在芯片設(shè)計(jì)中,性能(Performance)、功耗(Power)、面積(Area)組成了一個(gè)不可能三角,芯片設(shè)計(jì)能力的體現(xiàn),始終是在不可能的三角中尋找最平衡的區(qū)間。
當(dāng)智能手機(jī)大踏步進(jìn)入AI時(shí)代,對(duì)“平衡”的把控能力就更加迫切。
由于網(wǎng)絡(luò)延遲和隱私保護(hù)等原因,近年來(lái),AI推理從云端向端側(cè)遷移,既是行業(yè)共識(shí),也是不可逆轉(zhuǎn)的趨勢(shì)。與之對(duì)應(yīng),算力瓶頸儼然成為困擾終端廠商的棘手問(wèn)題。
![]()
微軟首席電氣工程師保羅?楚諾克算過(guò)一筆賬[2],按照61%的利用率,每塊H100一年要消耗大約3740度電,相當(dāng)于一個(gè)美國(guó)家庭的平均功耗。云端訓(xùn)練芯片對(duì)功耗可以寬容,但端側(cè)要求明顯嚴(yán)苛。
在寸土寸金的手機(jī)里,芯片設(shè)計(jì)公司追逐的圣杯,是在功耗恒定的情況下擠出更多算力,即“計(jì)算效率”。
這種設(shè)計(jì)思路既推動(dòng)了NPU(神經(jīng)網(wǎng)絡(luò)加速器)的脫穎而出,也貼合了天璣9500的設(shè)計(jì)哲學(xué):既要保證“算力夠用”,又要解決“功耗降不下來(lái)”的難題。
根據(jù)英特爾研究,一個(gè)采用7nm制程的AI芯片,光數(shù)據(jù)搬運(yùn)產(chǎn)生的功耗就高達(dá)35pJ/bit,占總功耗的63.7%。也就是說(shuō),減少數(shù)據(jù)搬運(yùn),是降低功耗的重要途徑。
因此在天璣9500中,聯(lián)發(fā)科采用了創(chuàng)造性的雙NPU架構(gòu),兩顆NPU各司其職,一個(gè)作為性能核心支持端側(cè)運(yùn)行參數(shù)量大的模型,另一個(gè)采用“存算一體”架構(gòu),作為能效核心,運(yùn)行參數(shù)量較小的模型。
所謂“存算一體”架構(gòu),核心是將NPU內(nèi)部的計(jì)算單元與緩存融為一體,從根本減少搬運(yùn)路程。使得天璣9500將AI算力提高到100TOPS的同時(shí),最大程度避免了高功耗問(wèn)題。
端側(cè)大模型搭配小模型是智能手機(jī)AI部署的一大趨勢(shì)。天璣9500的超能效NPU,可以實(shí)現(xiàn)輕負(fù)載AI模型Always-On運(yùn)算,對(duì)實(shí)時(shí)翻譯和對(duì)話式AI這類(lèi)應(yīng)用來(lái)說(shuō),用戶體驗(yàn)可以從“請(qǐng)求-響應(yīng)”變成“隨時(shí)響應(yīng)”。模型始終在線,但更加省電。
![]()
在權(quán)威機(jī)構(gòu)ETHZ的AI Benchmark測(cè)試?yán)铮飙^9500獲AI性能榜單冠軍
和端側(cè)AI類(lèi)似,手機(jī)游戲同樣受困于性能和功耗的兩難抉擇,一直以來(lái)也是檢驗(yàn)芯片實(shí)力的“照妖鏡”。對(duì)算力和功耗的平衡藝術(shù),在劍與魔法的世界公平的考驗(yàn)著每一家芯片設(shè)計(jì)公司。
消費(fèi)電子領(lǐng)域,硬件與軟件大多互為催化劑,游戲公司對(duì)畫(huà)質(zhì)和沉浸式體驗(yàn)的追逐,會(huì)倒逼芯片公司發(fā)力游戲體驗(yàn)。后者性能的提升,又會(huì)推動(dòng)前者的進(jìn)步。
從天璣9200首發(fā)移動(dòng)端硬件光線追蹤開(kāi)始,聯(lián)發(fā)科接連布局全局光照效果、OMM追光引擎,讓移動(dòng)端游戲體驗(yàn)直逼主機(jī)級(jí)效果。天璣9500再接再厲,通過(guò)在移動(dòng)端率先支持主機(jī)級(jí)Ray-tracing Pipeline技術(shù),帶來(lái)了前所未有的沉浸式主機(jī)級(jí)光追效果。
![]()
除此之外,天璣9500首發(fā)GPU Dynamic Cache (動(dòng)態(tài)緩存)架構(gòu),讓GPU可以利用SLC系統(tǒng)級(jí)高速緩存,從而進(jìn)一步降低功耗,同樣意在提高游戲體驗(yàn)。
在性能和能耗這個(gè)困擾手機(jī)游戲多年的命題上,天璣9500通過(guò)幾代產(chǎn)品的技術(shù)積累,提供了一個(gè)盡可能完美的解決方案。
按照測(cè)算,天璣9500支持的光追下游戲幀率從9300的60幀躍升至行業(yè)領(lǐng)先的120幀,功耗逆勢(shì)降低14%,將反差做到了極致。
在一個(gè)又一個(gè)場(chǎng)景中創(chuàng)造驚艷的體驗(yàn),是對(duì)物理學(xué)最浪漫的詮釋。
穩(wěn)穩(wěn)站上第一梯隊(duì)
2007年的第一代iPhone發(fā)布會(huì)上,喬布斯拿出手機(jī)撥通了位于舊金山的一家星巴克電話,玩笑稱(chēng)要預(yù)定4000份拿鐵,店員不明所以,但現(xiàn)場(chǎng)觀眾掌聲雷動(dòng)——這一幕被現(xiàn)場(chǎng)的媒體定格,成為了電子產(chǎn)業(yè)史上繞不開(kāi)的里程碑。
然而,喬布斯玩笑式的電話,卻成為未來(lái)十多年里,產(chǎn)業(yè)界求索的圖騰。
2011年,蘋(píng)果智能語(yǔ)音助手Siri隨iPhone 4S隆重登場(chǎng),掀開(kāi)了消費(fèi)電子產(chǎn)業(yè)對(duì)人工智能的想象。時(shí)至今日,大量AI功能被塞進(jìn)手機(jī)里的同時(shí),兩大趨勢(shì)越發(fā)凸顯:
一是AI不再是相機(jī)美顏和語(yǔ)音助手的附屬功能,反而變成重構(gòu)手機(jī)體驗(yàn)的新引擎;
二是智能手機(jī)的競(jìng)爭(zhēng)焦點(diǎn),逐步從比拼硬件參數(shù)向軟硬強(qiáng)耦合的產(chǎn)品力轉(zhuǎn)移,其根本思路就是圍繞真實(shí)場(chǎng)景,針對(duì)用戶需求做突破。
![]()
2011年,Siri第一次亮相
結(jié)合IDC的定義,30TOPS是AI手機(jī)SoC的入門(mén)檻。這從事實(shí)層面將時(shí)間線拉到了天璣9300上市的2023年。
人工智能時(shí)代賦予聯(lián)發(fā)科的角色,不是純粹的“算力供應(yīng)商”,而是基于對(duì)用戶需求場(chǎng)景的深刻洞察,將代碼和電路變成實(shí)實(shí)在在的用戶體驗(yàn),支撐起無(wú)從察覺(jué)卻無(wú)處不在的智能未來(lái)。
從解決大模型入端帶來(lái)的算力激增與功耗約束之間的矛盾,到滿足游戲用戶對(duì)GPU極致渲染能力與持久續(xù)航之間的雙重期待,用戶需求為先,一直是聯(lián)發(fā)科設(shè)計(jì)研發(fā)的出發(fā)點(diǎn)。
在今年的天璣開(kāi)發(fā)者大會(huì)上,聯(lián)發(fā)科提出了 Agentic AI UX的五大愿景:主動(dòng)及時(shí)、知你懂你、互動(dòng)協(xié)助、學(xué)習(xí)進(jìn)化、專(zhuān)屬隱私信息守護(hù)。在天璣9500上,聯(lián)發(fā)科與終端廠商聯(lián)合打造的量產(chǎn)的端側(cè)AI功能,恰恰是這種愿景的延伸與產(chǎn)物。
在與vivo的合作中,聯(lián)發(fā)科為后者定制的NPU,幫助其實(shí)現(xiàn)了全球首發(fā)的視頻錄制功能,為vivo X300系列提供了強(qiáng)大的追焦系統(tǒng),可支持毫秒級(jí)運(yùn)動(dòng)追蹤與瞬時(shí)快門(mén)響應(yīng),還打造了能夠“學(xué)習(xí)進(jìn)化”的AI定制美顏功能。
在OPPO最新旗艦Find X9上,針對(duì)搜索這一場(chǎng)景,聯(lián)發(fā)科通過(guò)系統(tǒng)級(jí)整合賦能OPPO AI 端側(cè)落地,與OPPO共同打造了“知你懂你”的AI意圖搜索應(yīng)用,幫助用戶實(shí)現(xiàn)一鍵即搜。
![]()
為了改善文生圖與文生文這兩個(gè)普及最廣、工作場(chǎng)景中效率提升最為顯著的AI應(yīng)用,天璣9500憑借內(nèi)置的生成式AI引擎2.0與Transformer專(zhuān)用固化電路,實(shí)現(xiàn)了多項(xiàng)端側(cè)AI能力的突破:
支持4K超高畫(huà)質(zhì)文生圖在手機(jī)端側(cè)直接生成,同時(shí)將文生文大語(yǔ)言模型的端側(cè)響應(yīng)速度提升了一倍。由此最大程度解決了高并發(fā)時(shí)段響應(yīng)延遲、生成效率低下的問(wèn)題。
上網(wǎng)、游戲、辦公……真實(shí)的需求場(chǎng)景始終是放大芯片與大眾需求的連接器,使得芯片這個(gè)技術(shù)與資本高度密集的產(chǎn)業(yè),始終有足夠的市場(chǎng)和動(dòng)力,快速向前滾動(dòng)和發(fā)展。
當(dāng)人工智能的蔓延再次沖擊原本井然有序的市場(chǎng)格局,聯(lián)發(fā)科用務(wù)實(shí)的研發(fā)理念和對(duì)市場(chǎng)需求的理解,一步步站上了全球芯片設(shè)計(jì)產(chǎn)業(yè)的第一梯隊(duì)。
AI時(shí)代的到來(lái),市場(chǎng)紛紛大講未來(lái),聯(lián)發(fā)科對(duì)于未來(lái)有著清晰的技術(shù)規(guī)劃和持續(xù)投資,更加值得關(guān)注的是,這家廠商同樣注重當(dāng)下——從引領(lǐng)端側(cè)視頻生成、4K文生圖等等這些落地應(yīng)用,我們看到,先進(jìn)的AI,更是觸手可及的AI。
當(dāng)“天璣”(Dimensity)這個(gè)芯片品牌在2019年第一次亮相時(shí),恐怕很少有人能預(yù)料,聯(lián)發(fā)科在此后的手機(jī)市場(chǎng)變化中所扮演的角色,更難以想象,一代又一代的天璣芯片所創(chuàng)造的持續(xù)價(jià)值。
![]()
參考資料
[1]2025年上半年全球高端智能手機(jī)銷(xiāo)量創(chuàng)歷史新高,CounterPoint Research
[2]算力巨獸能耗驚人:英偉達(dá)H100 AI芯片總耗電量將超歐洲小國(guó),IT之家
作者:徐珊珊
編輯:何律衡
責(zé)任編輯:徐珊珊
封面圖片來(lái)自ShotDeck
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.