核心圍繞昇騰芯片代際/適配/超算點/出貨、鯤鵬規劃、行業展望等核心問題解答 一、昇騰CUDA兼容相關 Q1:升騰生態目前對CUDA的兼容情況如何?
A:升騰910系列完全不兼容CUDA;950系列通過多鏈路推進CUDA適配,目前開放給所有廠商的CUDA公開接口、API及底層協議已全部對接完成,該部分僅為工作量投入,難度較低。CUDA兼容僅為適配一環,后續需結合昇騰及其他生態做深度優化,當前整體CUDA生態鏈路已完全通暢。
Q2:公司當前與CUDA生態兼容后續還面臨哪些困難點?
A:核心面臨四大難點,均為底層及生態層面的本質差異:
底層硬件架構差異:CUDA采用SMT單指令集多線程并行,昇騰為SMBSMT并行,線程塊/線程數調度單位的指令顆粒度、靈活度不同;且達芬奇架構的計算矩陣、任務塊顆粒度與CUDA存在差異。
指令集鴻溝:CUDA基于PTX虛擬指令集開發,昇騰基于自有昇騰CL、ATC架構,二者語義層面存在差別。
API映射與編寫范式問題:并非僅完成API對接即可,需結合實際使用反饋持續調整優化。
算子庫覆蓋適配難度大:CUDA支持大模型自定義結合、稀疏量化算子、MOE算子等高級算子,昇騰算子庫需適配豆包、千問、DCK等基于CUDA優化后的MVE鏈路,與標準CUDA生態不完全一致。
A:對外無官方發布節點或表態;2025年Q4僅面向大廠開展8卡2臺的小規模驗證,因規模小、顆粒度不足,很多驗證效果無法體現;2026年3月正推進白卡規模深度測試,預計3月中下旬完成全部測試流程,目前對驗證結果相對有信心。
Q4:950在互聯網側的測試情況及2026年預期出貨量如何?
A:測試情況:2024年底互聯網側測試量級較小(每家100卡以內,多為幾十卡),測試周期短;從結果看,950性能優勢顯著,單卡算力達成率較910系列提升近10%,且原生支持FP8、MP4算力(前代不支持,目前該類算力已成應用標配);100卡、200卡小規模集群測試結果與內部機型測試報告偏離度低,大廠將其與寒武紀、昆侖芯等國產卡對比后,認為其在可量產、規模化交付產品中綜合表現靠前。
出貨預期:2026年昇騰總出貨量初始規劃95萬顆,950為核心主力(60萬顆);目前內部目標上修,總量大概率至115-120萬顆,950出貨規模預計提升至80萬顆,具體幅度尚未最終確定。
三、昇騰8192超算點相關 Q5:2026年DDT發布伴隨的8192超算點規劃的當前進展、產品形態及大規模商業化時間點如何?
A:1. 核心進展:8192超算點落地最大難點為系統集成,需整合銅連接、光模塊、CPU及所有相關芯片部件至同一產品體系,難度較大;
產品形態:支持靈活拆分采購,可拆分為8個Pod(每個Pod對應1024卡),客戶可單獨采購單個port或1024卡的獨立Pod;此外,基于920C的384超鏈產品已成熟落地,后續將推出基于950的384超鏈產品;
商業化時間:2026年Q3啟動國內測試,2026年少量出貨,大規模出貨節奏放在2027年。
A:超算點具備算力效率高、綜合帶寬及算力水平突出的核心優勢,但訓推場景適配性差異顯著:
訓練場景:國產卡單卡性能相對偏弱,必須依托大規模超算點集群,才能充分發揮性能優勢;
推理場景:常規大語言模型、輕量化模型對算力要求不高,可拆分任務通過傳統集群執行,能滿足基本使用需求;但超算點的token成本更低,若客戶有降本需求可優先推薦,自主搭建傳統集群無明顯使用問題。
A:1. 轉型核心原因:原有ASIC路線存在框架能力、生態約束問題,若繼續沿用會重走寒武紀發展困境(僅部分客戶適配較好、放量,其他客戶上量難度大);當前市場模型高速迭代、需求不統一,轉向GPU路線可找到適配多數客戶需求的最大公約數。
技術保留:并非完全放棄ASIC架構,待未來模型成熟后,仍計劃推出ATHENA相關定制化產品。
客戶感知:客戶對ASIC/GPU架構普遍無感,核心關注產品是否性價比高、好用、產能穩定、性能穩定,滿足上述要求即為優質產品。
A:鯤鵬迭代進度慢于昇騰,核心規劃圍繞950、960系列打造2026-2027年主力產品,同時匹配AI場景CPU需求:
現有產品:2019年發布的920系列(ARM架構),含7260、5250等型號,市場反饋較好,可滿足通用服務器需求,但因ARM架構存在性能、生態局限,互聯網客戶非第一選擇;
新品升級:950系列綜合性能較920提升近40%,制程升級為N+2,主頻3.2-3.6GHz,支持PCIE5.0、CXL2.0、DDR5,有96核/192核雙線程配置;960系列制程進一步至N+3,主頻最高4.0GHz,128核/256核配置,屬高密核心架構;
應用場景:覆蓋高端通用服務器市場及AI相關場景。
A:鯤鵬950有96核、192核兩種雙線程配置;鯤鵬960有128核、256核兩種配置。
Q10:950和960針對AI場景做了優化,AI智算需求對CPU的主要需求、核心技術亮點及提升方面是什么?
A:1. CPU在AI訓推中的核心職能:承擔模型加載/初始化/調度、數據分詞預處理/后處理、任務編排、業務邏輯控制、并發控制等,核心是為GPU分配、管理算力;
AI場景核心需求:大模型運行需高量級并行,弱單核、強多核的架構更適配;Agent、多模態模型需持續搭建/管理沙箱、虛擬機等虛擬環境,CPU會被長時間占用,高核心配置是保障;
鯤鵬迭代動因:海外英特爾、AMD的CPU已能滿足現有AI需求,制程/良率穩定,但鯤鵬自2019年920系列后無新品,推出950/960主要是為跟上行業AI需求變化。
A:1. 漲價情況:海外AMD、英特爾CPU均漲價,高端系列漲幅約30%,普通版本7%-10%;國內鯤鵬產品同步小幅漲價,漲幅8%-10%,遠低于海外高端產品;
價格趨勢:近期海外漲價未進一步上升,鯤鵬后續價格預計保持穩定,無折扣收回相關動作。
A:950是2026年絕對出貨主力,初始規劃總出貨量95萬顆(950約60萬顆、920C約35萬顆);目前內部出貨目標已呈向上趨勢,總量大概率上調至115~120萬顆區間,950出貨規模預計提升至約80萬顆,最終調整幅度尚未確定。
Q13:上修卡類產品出貨量目標的趨勢基于哪些判斷?
A:核心基于三大邏輯,上修是必然趨勢,保底可實現110萬顆以上:
外部大環境:海外H200芯片導入進度慢,預計2026年Q3才能進入國內市場;上半年國內廠商模型迭代算力需求暴漲,海外高端芯片采購困難,歷史儲備基本耗盡,國產芯片市場空間顯著擴容;
下游需求:2026年下游客戶普遍上調全年采購目標,字節、騰訊等互聯網廠商調整采購量級,街月、MINIX等廠商通用成本壓至低位,對國產芯片需求形成明顯刺激;
內部戰略:云業務戰略轉向,不再承接大規模新建基建的新業務,與阿里進行業務置換;原本每年20多萬顆卡的突擊項目需求,轉化為阿里對昇騰芯片的采購傾斜。
A:三家采購規模差異顯著,合計約45萬顆,在昇騰總出貨量中占比高:
字節:第一大采購方,預計全年采購約25萬顆,以950為主,920C占比極低;
阿里:采購量取決于云業務洽談進展,若合作順利,含云業務采購規模預計達15萬顆;
騰訊:采購規模較小,全年預計僅4-5萬顆。
A:1. 適配定位:區別于其他GPU廠商僅追求模型跑通,公司兼具卡供應商與使用方雙重身份,核心發力點為token成本最優化;
核心動作:目前已將DS作為核心模型接入多場景,未來DS模型迭代(V3.1、V4等)將在推理層面深度融合,確保整體token成本為全行業最低;
業務支撐:適配可快速響應HarmonyOS PC、AI、iPhone、車機等業務的龐大調用量;此外,除推理模型外,可基于超算點支撐小參數量級模型的強化學習(業務量級較小)。
A:950系列定價清晰,主打高性價比,無過高溢價,不同版本定價及趨勢如下:
PR版本(主打推理):當前定價約7.3-7.4萬元;
低配版本(面向搜廣推,無HBM):當前定價約5萬元,后續將降至5萬元以內;
DT版本:當前報價較高,后續價格預計在8.3-8.5萬元。
A:當前手機、車機端AI需求相對較小,核心限制為端側AI能力未普及、手機與APP廠商競爭、應用安全問題、底層權限未放開;若端側AI能力快速推出,手機端AI需求將最先爆發且量級極大(可獲取底層權限,深度功能開發空間廣)。
十、國內外GPU差距及國產GPU機會相關 Q18:國內外GPU的差距如何?海外限制背景下國內GPU可滿足哪些場景?存在哪些缺點?追趕需要多長時間?
A:1. 硬件層面:差距約3-4代,國產卡性能接近A100水平,差距主要源于流片工藝限制(制程、良率、產能),國內芯片設計能力已部分看齊海外,僅需時間打磨;海外GPU已迭代Hadoop、Blackwell、Ruby三代架構,代差明顯。
軟件生態層面:差距無法用代際衡量,海外開發者、算子庫、加速庫規模是國內的數十倍,成熟度差距超5年,生態追趕難度遠高于硬件。
集群能力層面:海外已成熟應用萬卡、10萬卡集群,支撐各類訓練場景;國內目前仍集中于推理場景,訓練場景落地難度高,整體處于艱難跟隨狀態。
國產GPU機會:推理場景具備顯著成本優勢,國內電力成本低,N+1/N+2制程產能穩定后可重點布局;
追趕時間:硬件代差可通過技術逐步縮小,生態差距為最大難點,需長期投入。
A:國產算力可為大模型出海提供核心支撐,兩大優勢顯著:
成本優勢:推理成本僅為海外的60%,若后續國內流片、封裝良率進一步提升,成本優勢將持續擴大,可憑借token成本優勢吸引海外廠商;
基礎設施優勢:國內電力、網絡鏈條穩定性強,供電配置有冗余且綠電供應充足,可滿足對延遲要求不高的海外應用需求。
A:算電協同并非新概念,此前已在挖礦、東數西算等場景落地,當前因大模型用電增量遠超傳統場景,對電網穩定性要求提升,需更強協同機制,核心影響及推進方向如下:
核心推進方向:① 時間維度通過錯峰調度保障大模型運行穩定性;② 依托東數西算工程,利用西部充裕綠電實現成本最優、規模可控;③ 支持地方搭建綠電+儲能+本地化微電網的閉環體系,自建算力中心降低輸配電及損耗成本。
行業影響:① 長期策略:算電協同是算力行業發展的長期策略,預計2027-2028年電力需求達峰值時,降本效應將更顯著,有效降低模型廠商運營成本;② 產業落地:將帶動西部算力中心密集擴建落地,充分發揮國內綠電、區域電力資源優勢。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.