網易首頁 > 網易號 > 正文申請入駐

華為昇騰&鯤鵬產業鏈專題解讀Q&A紀要

2026-03-11 21:34:26　來源: 宇量信息

北京舉報

分享至

核心圍繞昇騰芯片代際/適配/超算點/出貨、鯤鵬規劃、行業展望等核心問題解答 一、昇騰CUDA兼容相關 Q1：升騰生態目前對CUDA的兼容情況如何？

A：升騰910系列完全不兼容CUDA；950系列通過多鏈路推進CUDA適配，目前開放給所有廠商的CUDA公開接口、API及底層協議已全部對接完成，該部分僅為工作量投入，難度較低。CUDA兼容僅為適配一環，后續需結合昇騰及其他生態做深度優化，當前整體CUDA生態鏈路已完全通暢。

Q2：公司當前與CUDA生態兼容后續還面臨哪些困難點？

A：核心面臨四大難點，均為底層及生態層面的本質差異：

底層硬件架構差異：CUDA采用SMT單指令集多線程并行，昇騰為SMBSMT并行，線程塊/線程數調度單位的指令顆粒度、靈活度不同；且達芬奇架構的計算矩陣、任務塊顆粒度與CUDA存在差異。
指令集鴻溝：CUDA基于PTX虛擬指令集開發，昇騰基于自有昇騰CL、ATC架構，二者語義層面存在差別。
API映射與編寫范式問題：并非僅完成API對接即可，需結合實際使用反饋持續調整優化。
算子庫覆蓋適配難度大：CUDA支持大模型自定義結合、稀疏量化算子、MOE算子等高級算子，昇騰算子庫需適配豆包、千問、DCK等基于CUDA優化后的MVE鏈路，與標準CUDA生態不完全一致。

二、昇騰950發布、測試及性能相關 Q3：950相關內容提到的4月中下旬發布時間節點，該發布是具體事件還是系統開始出貨？

A：對外無官方發布節點或表態；2025年Q4僅面向大廠開展8卡2臺的小規模驗證，因規模小、顆粒度不足，很多驗證效果無法體現；2026年3月正推進白卡規模深度測試，預計3月中下旬完成全部測試流程，目前對驗證結果相對有信心。

Q4：950在互聯網側的測試情況及2026年預期出貨量如何？

A：測試情況：2024年底互聯網側測試量級較小（每家100卡以內，多為幾十卡），測試周期短；從結果看，950性能優勢顯著，單卡算力達成率較910系列提升近10%，且原生支持FP8、MP4算力（前代不支持，目前該類算力已成應用標配）；100卡、200卡小規模集群測試結果與內部機型測試報告偏離度低，大廠將其與寒武紀、昆侖芯等國產卡對比后，認為其在可量產、規模化交付產品中綜合表現靠前。

出貨預期：2026年昇騰總出貨量初始規劃95萬顆，950為核心主力（60萬顆）；目前內部目標上修，總量大概率至115-120萬顆，950出貨規模預計提升至80萬顆，具體幅度尚未最終確定。

三、昇騰8192超算點相關 Q5：2026年DDT發布伴隨的8192超算點規劃的當前進展、產品形態及大規模商業化時間點如何？

A：1. 核心進展：8192超算點落地最大難點為系統集成，需整合銅連接、光模塊、CPU及所有相關芯片部件至同一產品體系，難度較大；

產品形態：支持靈活拆分采購，可拆分為8個Pod（每個Pod對應1024卡），客戶可單獨采購單個port或1024卡的獨立Pod；此外，基于920C的384超鏈產品已成熟落地，后續將推出基于950的384超鏈產品；
商業化時間：2026年Q3啟動國內測試，2026年少量出貨，大規模出貨節奏放在2027年。

Q6：訓練側對超級點依賴性明確且效率提升，但推理側互聯網專家未明確超級點的效率幫助，如何看待這一問題？

A：超算點具備算力效率高、綜合帶寬及算力水平突出的核心優勢，但訓推場景適配性差異顯著：

訓練場景：國產卡單卡性能相對偏弱，必須依托大規模超算點集群，才能充分發揮性能優勢；
推理場景：常規大語言模型、輕量化模型對算力要求不高，可拆分任務通過傳統集群執行，能滿足基本使用需求；但超算點的token成本更低，若客戶有降本需求可優先推薦，自主搭建傳統集群無明顯使用問題。

四、昇騰架構轉型（ASIC→GPU）相關 Q7：公司芯片從上一代ASIC架構轉向GPU架構，在與客戶測試過程中，對產品算力及客戶感知有何影響？

A：1. 轉型核心原因：原有ASIC路線存在框架能力、生態約束問題，若繼續沿用會重走寒武紀發展困境（僅部分客戶適配較好、放量，其他客戶上量難度大）；當前市場模型高速迭代、需求不統一，轉向GPU路線可找到適配多數客戶需求的最大公約數。

技術保留：并非完全放棄ASIC架構，待未來模型成熟后，仍計劃推出ATHENA相關定制化產品。
客戶感知：客戶對ASIC/GPU架構普遍無感，核心關注產品是否性價比高、好用、產能穩定、性能穩定，滿足上述要求即為優質產品。

五、鯤鵬芯片規劃及AI場景CPU需求相關 Q8：除升騰外，鯤鵬目前的規劃是什么？

A：鯤鵬迭代進度慢于昇騰，核心規劃圍繞950、960系列打造2026-2027年主力產品，同時匹配AI場景CPU需求：

現有產品：2019年發布的920系列（ARM架構），含7260、5250等型號，市場反饋較好，可滿足通用服務器需求，但因ARM架構存在性能、生態局限，互聯網客戶非第一選擇；
新品升級：950系列綜合性能較920提升近40%，制程升級為N+2，主頻3.2-3.6GHz，支持PCIE5.0、CXL2.0、DDR5，有96核/192核雙線程配置；960系列制程進一步至N+3，主頻最高4.0GHz，128核/256核配置，屬高密核心架構；
應用場景：覆蓋高端通用服務器市場及AI相關場景。

Q9：鯤鵬950和960分別為多少核的產品？

A：鯤鵬950有96核、192核兩種雙線程配置；鯤鵬960有128核、256核兩種配置。

Q10：950和960針對AI場景做了優化，AI智算需求對CPU的主要需求、核心技術亮點及提升方面是什么？

A：1. CPU在AI訓推中的核心職能：承擔模型加載/初始化/調度、數據分詞預處理/后處理、任務編排、業務邏輯控制、并發控制等，核心是為GPU分配、管理算力；

AI場景核心需求：大模型運行需高量級并行，弱單核、強多核的架構更適配；Agent、多模態模型需持續搭建/管理沙箱、虛擬機等虛擬環境，CPU會被長時間占用，高核心配置是保障；
鯤鵬迭代動因：海外英特爾、AMD的CPU已能滿足現有AI需求，制程/良率穩定，但鯤鵬自2019年920系列后無新品，推出950/960主要是為跟上行業AI需求變化。

Q11：AMD和英特爾前段時間提出CPU漲價，鯤鵬是否有漲價行為？是否有折扣收回或其他策略？

A：1. 漲價情況：海外AMD、英特爾CPU均漲價，高端系列漲幅約30%，普通版本7%-10%；國內鯤鵬產品同步小幅漲價，漲幅8%-10%，遠低于海外高端產品；

價格趨勢：近期海外漲價未進一步上升，鯤鵬后續價格預計保持穩定，無折扣收回相關動作。

六、昇騰2026年出貨量及上修原因相關 Q12：2026年910C和950的出貨情況及預期如何？

A：950是2026年絕對出貨主力，初始規劃總出貨量95萬顆（950約60萬顆、920C約35萬顆）；目前內部出貨目標已呈向上趨勢，總量大概率上調至115~120萬顆區間，950出貨規模預計提升至約80萬顆，最終調整幅度尚未確定。

Q13：上修卡類產品出貨量目標的趨勢基于哪些判斷？

A：核心基于三大邏輯，上修是必然趨勢，保底可實現110萬顆以上：

外部大環境：海外H200芯片導入進度慢，預計2026年Q3才能進入國內市場；上半年國內廠商模型迭代算力需求暴漲，海外高端芯片采購困難，歷史儲備基本耗盡，國產芯片市場空間顯著擴容；
下游需求：2026年下游客戶普遍上調全年采購目標，字節、騰訊等互聯網廠商調整采購量級，街月、MINIX等廠商通用成本壓至低位，對國產芯片需求形成明顯刺激；
內部戰略：云業務戰略轉向，不再承接大規模新建基建的新業務，與阿里進行業務置換；原本每年20多萬顆卡的突擊項目需求，轉化為阿里對昇騰芯片的采購傾斜。

七、頭部互聯網廠商昇騰采購規劃相關 Q14：騰訊、阿里、字節2026年在卡采購方面的資本開支規劃情況如何？

A：三家采購規模差異顯著，合計約45萬顆，在昇騰總出貨量中占比高：

字節：第一大采購方，預計全年采購約25萬顆，以950為主，920C占比極低；
阿里：采購量取決于云業務洽談進展，若合作順利，含云業務采購規模預計達15萬顆；
騰訊：采購規模較小，全年預計僅4-5萬顆。

八、昇騰與DeepSeek（DS）適配及950定價相關 Q15：公司與DS在DUC的適配情況如何？

A：1. 適配定位：區別于其他GPU廠商僅追求模型跑通，公司兼具卡供應商與使用方雙重身份，核心發力點為token成本最優化；

核心動作：目前已將DS作為核心模型接入多場景，未來DS模型迭代（V3.1、V4等）將在推理層面深度融合，確保整體token成本為全行業最低；
業務支撐：適配可快速響應HarmonyOS PC、AI、iPhone、車機等業務的龐大調用量；此外，除推理模型外，可基于超算點支撐小參數量級模型的強化學習（業務量級較小）。

Q16：推新產品后，950的價格趨勢及目前定價范圍如何？

A：950系列定價清晰，主打高性價比，無過高溢價，不同版本定價及趨勢如下：

PR版本（主打推理）：當前定價約7.3-7.4萬元；
低配版本（面向搜廣推，無HBM）：當前定價約5萬元，后續將降至5萬元以內；
DT版本：當前報價較高，后續價格預計在8.3-8.5萬元。

九、AI業務需求場景相關 Q17：從華為側看，目前AI業務哪些場景需求增速較快？

A：當前手機、車機端AI需求相對較小，核心限制為端側AI能力未普及、手機與APP廠商競爭、應用安全問題、底層權限未放開；若端側AI能力快速推出，手機端AI需求將最先爆發且量級極大（可獲取底層權限，深度功能開發空間廣）。

十、國內外GPU差距及國產GPU機會相關 Q18：國內外GPU的差距如何？海外限制背景下國內GPU可滿足哪些場景？存在哪些缺點？追趕需要多長時間？

A：1. 硬件層面：差距約3-4代，國產卡性能接近A100水平，差距主要源于流片工藝限制（制程、良率、產能），國內芯片設計能力已部分看齊海外，僅需時間打磨；海外GPU已迭代Hadoop、Blackwell、Ruby三代架構，代差明顯。

軟件生態層面：差距無法用代際衡量，海外開發者、算子庫、加速庫規模是國內的數十倍，成熟度差距超5年，生態追趕難度遠高于硬件。
集群能力層面：海外已成熟應用萬卡、10萬卡集群，支撐各類訓練場景；國內目前仍集中于推理場景，訓練場景落地難度高，整體處于艱難跟隨狀態。
國產GPU機會：推理場景具備顯著成本優勢，國內電力成本低，N+1/N+2制程產能穩定后可重點布局；
追趕時間：硬件代差可通過技術逐步縮小，生態差距為最大難點，需長期投入。

十一、國產大模型出海對國產算力的影響相關 Q19：目前國產大模型出海增速較快，對國產算力有什么幫助？

A：國產算力可為大模型出海提供核心支撐，兩大優勢顯著：

成本優勢：推理成本僅為海外的60%，若后續國內流片、封裝良率進一步提升，成本優勢將持續擴大，可憑借token成本優勢吸引海外廠商；
基礎設施優勢：國內電力、網絡鏈條穩定性強，供電配置有冗余且綠電供應充足，可滿足對延遲要求不高的海外應用需求。

十二、算電協同對算力行業發展的影響相關 Q20：政府工作報告提到算電協同，結合我國電力優勢，算電協同對我國算力發展有哪些影響？

A：算電協同并非新概念，此前已在挖礦、東數西算等場景落地，當前因大模型用電增量遠超傳統場景，對電網穩定性要求提升，需更強協同機制，核心影響及推進方向如下：

核心推進方向：① 時間維度通過錯峰調度保障大模型運行穩定性；② 依托東數西算工程，利用西部充裕綠電實現成本最優、規模可控；③ 支持地方搭建綠電+儲能+本地化微電網的閉環體系，自建算力中心降低輸配電及損耗成本。
行業影響：① 長期策略：算電協同是算力行業發展的長期策略，預計2027-2028年電力需求達峰值時，降本效應將更顯著，有效降低模型廠商運營成本；② 產業落地：將帶動西部算力中心密集擴建落地，充分發揮國內綠電、區域電力資源優勢。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.