337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

單卡推理吞吐2300Tokens/s,昇騰AI云服務正在改寫算力法則

0
分享至



半個月前的HDC 2025上,華為云全面上線了基于CloudMatrix384超節點的昇騰AI云服務,在行業內外掀起了不小的轟動。

讓我們印象最為深刻的是一組數據:與非超節點相比,CloudMatrix384超節點的單卡吞吐量從600Tokens/s提升到了2300Tokens/s;增量Token的輸出時延,也從原來的100ms降低到了50ms以下。

為了探究指標背后的技術密碼,我們找到了華為聯合硅基流動發表的一篇論文,詳細介紹了CloudMatrix的架構創新和CloudMatrix384的生產級實踐,并在測試結果中寫道——運行DeepSeek-R1時的單卡吞吐,已經超過英偉達H100。

在大模型的產業敘事從訓練轉向推理局面下,新一代昇騰AI云服務刷新紀錄的單卡吞吐能力,對整個算力行業意味著什么?

01 怎么做到的?一場“系統工程的勝利”

需要回答的第一個問題是:單卡吞吐量近乎4倍的性能躍升,CloudMatrix384超節點到底是怎么做到的?

答案在于工程創新。

為了提高大模型的推理性能,傳統的做法集中在單點優化:增加更多的節點數量,通過堆疊算力來提升推理能力;對模型進行量化與剪枝,減少不必要的計算量;對KV Cache進行優化,加速增量推理;以及利用自動圖優化工具將多個算子融合為一個高效核函數,減少中間內存拷貝……

可大模型的參數量仍在增長、MoE架構被廣泛采用、上下文長度急劇擴展,單點優化暴露出了越來越多的局限性:比如多卡并行推理的通信瓶頸、芯片與內存之間的耦合差、“整卡”調度的資源浪費等等,無論是吞吐性能,還是推理成本,均已經滿足不了快速增長的應用部署需求。

CloudMatrix384超節點提出了新的設計架構,不同于簡單的“算力疊加”,進一步實現了一切可池化、一切皆對等、一切可組合。

理解了三個“一切”,也就讀懂了工程創新的價值。

一切可池化:通過統一的、超高性能的網絡(MatrixLink),將NPU、CPU、內存、網絡等資源解耦,形成可獨立擴展的資源池。

一切皆對等:有別于傳統GPU為中心的計算范式,資源池里的所有資源不再是“主從式”關系,而是更高效、更靈活的對等架構。

一切可組合:意思是CloudMatrix384超節點池化的所有資源,可以根據不同的任務需求,像搭積木一樣進行靈活調配組合。

用一句話來總結:CloudMatrix384超節點將384顆昇騰NPU和192顆鯤鵬CPU通過全新高速網絡MatrixLink全對等互聯,形成了一臺擁有超大帶寬、超大內存、超高算力的超級“AI服務器”。

之所以采用全對等互聯的架構,目的是為了匹配大模型的訓推任務,特別是MoE混合架構的大模型。

傳統集群模式下進行推理,要在每張單卡上分配所有“專家”,將所有問題都計算一遍,導致每個“專家”只能獲得少量的計算和通信能力。

而一個CloudMatrix384超節點可以支持數百個專家并行推理,實現“一卡一專家”模式,即每張卡只部署一個“專家”,集中處理所有相關問題,增加單次推理的批量大小,減少單位計算的調度開銷,大幅提升推理效率。同時,超節點還可以支持“一卡一算子任務”,靈活分配資源,提升任務并行處理,減少等待,將算力有效使用率(MFU)提升50%以上。

再比如大模型的推理過程分為Prefill和Decode兩個階段,Prefill生成KV Cache,Decode使用和更新KV Cache。CloudMatrix384超節點的解耦式共享內存池,可以保存更多的KV Cache,讓Prefill和Decode任務更快、更均衡地訪問KV Cache,大幅降低系統延遲。



也就是說,2300Tokens/s的單卡推理吞吐量和50ms以下的輸出延遲,可以歸結為一場“系統工程的勝利”。在摩爾定律逐漸放緩,單卡算力提升有限的背景下,通過重構計算互聯架構,實現了整體系統級最優,完成了國產算力從“能用”到“好用”的跨越。

02 改變了什么?大模型落地“越過山丘”

進入2025年后,大模型的角色快速蛻變,走出了實驗室,在政務、金融、醫療、能源等領域加速落地。

但在落地過程中,響應慢、吞吐低、成本高等現實問題,成了不少企業在部署大模型時難以繞開的“瓶頸”,不僅拖慢了業務節奏,還拉高了技術回報的門檻。如果說“訓得好”是一場軍備競賽,“用得起”則是產業拐點。

華為在工程創新上的“彎道超車”,為大模型落地部署的挑戰,提供了一種經過驗證的解題范式。

先從大模型訓練來看。

萬億、十萬億參數的大模型訓練任務,催生了萬卡乃至十萬卡的集群需求,也帶來了算力緊缺的“危機”。

一個樂觀的消息在于,在云數據中心,CloudMatrix384超節點最高可以將432個超節點級聯成16萬卡的超大集群,提供10萬PFlops的算力。其中一個關鍵指標是線性度,即節點數量增加后,性能是否能“按比例提升”。目前CloudMatrix384萬卡集群的線性度已經超過95%,實現了性能提升與資源擴展的比例接近1:1,可同時支持1300個千億參數大模型訓練。



為了幫助客戶最優使用資源,CloudMatrix384超節點昇騰AI云服務還支持訓推算力一體部署,比如“日推夜訓”模式,白天推理,晚上訓練;以及“40天長穩訓練、10分鐘快速恢復”能力,保障長周期訓練的穩定性和中斷后的快速恢復。

更深刻的影響在于推理層面。

正如前面所提到的,CloudMatrix384超節點的單卡吞吐量提升到了2300Tokens/s,一同被改變的還有推理成本。

根據一位知乎網友的方式推算:單卡吞吐量2300Tokens/s,每小時可以產出828萬Token,每小時租金按照15元計算,百萬Token的成本約為1.8元,推理成本比英偉達的GPU方案還要低。

在大模型推理領域,有一個著名的“不可能三角”——推理成本低、響應速度快、輸出準確性高幾乎不可能同時滿足。

CloudMatrix384超節點給出了否定的答案,以DeepSeek-R1為例,有256個固定專家、32個共享專家,CloudMatrix384超節點的“一卡一專家”模式完美契合了DeepSeek-R1的推理需求,保障推理性能的同時,仍可以實現高吞吐、低時延的目標。

在“推理成本決定最終勝利”的大模型競賽中,CloudMatrix384超節點可以說是現階段的“最優解”,在技術上攻克了響應速度、吞吐能力與輸出準確性的三重矛盾,為千行萬業搬開了大模型落地的“大山”。

可以佐證的案例有很多。

新浪基于CloudMatrix384昇騰AI云服務,為“智慧小浪”智能服務體系構建了統一的推理平臺,推理的交付效率提升超過50%。

面壁智能使用CloudMatrix384昇騰AI云服務,讓“小鋼炮”模型的推理業務性能得到了2.7倍的提升。

360正在開啟與昇騰AI云服務的全面合作,納米AI搜索已經實現了上百款大模型的高效協作,為用戶提供超級AI搜索服務。

03 寫在最后

巴克萊銀行曾在2025年初的研報中表示:AI推理計算需求將快速提升,預計將占到通用人工智能總計算需求的70%以上,推理計算的需求甚至將大幅超過訓練,達到后者的4.5倍。

誰解決了推理效率,誰就掌握了大模型落地的主導權。

由此再來審視CloudMatrix384超節點昇騰AI云服務,不僅僅是技術指標的躍升,而是系統級工程創新的深度驗證,重新定義了未來的算力范式:“芯片性能”不再是唯一的衡量尺度,以“整體系統效率”“推理成本”“模型結構適配性”構建新的競爭標準,為整個AI產業打開了一條更加高效、普惠、可持續的技術道路。

截止到目前,基于CloudMatrix384超節點的昇騰AI云服務已經在蕪湖、貴安、烏蘭察布、和林格爾等地的華為云數據中心上線,依托百TB級帶寬的光纖骨干網,10毫秒時延圈覆蓋了全國19個城市群。正在通過工程創新的勝利,承接大模型時代的產業落點。

聲明:個人原創,僅供參考

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
喪心病狂!邯鄲中學校長性侵15歲女生,拿20萬封口,勢力大也沒用

喪心病狂!邯鄲中學校長性侵15歲女生,拿20萬封口,勢力大也沒用

觀察鑒娛
2026-04-02 10:26:05
爺青回!《奔跑吧14》定檔來襲,老成員全回歸,這季不追都不行!

爺青回!《奔跑吧14》定檔來襲,老成員全回歸,這季不追都不行!

小椰的奶奶
2026-04-02 15:12:46
4月執行!退休人員需繳費 每月扣費金額 免繳條件全解讀

4月執行!退休人員需繳費 每月扣費金額 免繳條件全解讀

混沌錄
2026-04-02 16:08:04
傲慢出圈!姆巴佩無視老將尊嚴,指示隊友奪坎特袖標,球迷:敗人品

傲慢出圈!姆巴佩無視老將尊嚴,指示隊友奪坎特袖標,球迷:敗人品

側身凌空斬
2026-04-03 03:33:12
退休后才明白!千萬不要在兄弟姐妹面前,說出以下這5句話

退休后才明白!千萬不要在兄弟姐妹面前,說出以下這5句話

大熊歡樂坊
2026-03-06 20:37:34
1199元買10kg滾筒,小米把洗衣機做成了"裝修后悔藥"

1199元買10kg滾筒,小米把洗衣機做成了"裝修后悔藥"

閃存獵手
2026-04-02 12:16:06
排隊一個半小時仍無法進入景區,游客大喊“退票”!湖州龍之夢景區回應

排隊一個半小時仍無法進入景區,游客大喊“退票”!湖州龍之夢景區回應

齊魯壹點
2026-04-02 19:13:29
王曼昱4-0橫掃伊藤美誠僅2小時,不和諧一幕出現,發球違例遭群嘲

王曼昱4-0橫掃伊藤美誠僅2小時,不和諧一幕出現,發球違例遭群嘲

大秦壁虎白話體育
2026-04-02 16:43:11
中國反潛機更新進步,技術先進,成功鎖定日美潛艇

中國反潛機更新進步,技術先進,成功鎖定日美潛艇

籌海者
2026-04-02 08:20:17
張蘭可謂詐騙界天花板,手段之高明令人瞠目,但終難逃被全球圍剿

張蘭可謂詐騙界天花板,手段之高明令人瞠目,但終難逃被全球圍剿

玖宇維
2026-04-01 20:59:33
幾乎全是假貨!利潤高達2400%,咋消費者還前赴后繼爭相購買?

幾乎全是假貨!利潤高達2400%,咋消費者還前赴后繼爭相購買?

世界圈
2026-02-12 17:04:31
英媒:中國最令人佩服的,就是美歐聯手絞殺中國光伏,還能夠翻身

英媒:中國最令人佩服的,就是美歐聯手絞殺中國光伏,還能夠翻身

丁丁鯉史紀
2026-04-01 14:55:06
地鐵直達!北京28億中醫新院區,2029年建成,看病不用跑遠路

地鐵直達!北京28億中醫新院區,2029年建成,看病不用跑遠路

水泥土的搞笑
2026-04-03 00:39:39
福建艦燒毀30小時,5700人被扣押,全球唯一航母成廢鐵

福建艦燒毀30小時,5700人被扣押,全球唯一航母成廢鐵

完善法
2026-04-03 02:15:52
張雪峰反復提的這7所大學,畢業就是鐵飯碗,關鍵分數還不高!

張雪峰反復提的這7所大學,畢業就是鐵飯碗,關鍵分數還不高!

優墨出品
2026-03-30 19:24:31
金建希后半輩子有著落了,尹錫悅利用看守所漏洞,狂攬12億韓元

金建希后半輩子有著落了,尹錫悅利用看守所漏洞,狂攬12億韓元

王姐懶人家常菜
2026-04-02 19:41:18
優思益暴雷后董宇輝惹上麻煩,網友曬訂單要求假一賠十

優思益暴雷后董宇輝惹上麻煩,網友曬訂單要求假一賠十

映射生活的身影
2026-04-01 23:26:28
“這樣的外形,早戀就別想了!”母親曬兒子照片引爆評論區。

“這樣的外形,早戀就別想了!”母親曬兒子照片引爆評論區。

特約前排觀眾
2026-04-02 00:10:03
勸告邱毅:不要在錯誤的道路越走越遠

勸告邱毅:不要在錯誤的道路越走越遠

論事的老樞
2026-03-31 14:45:09
何穗被嘲“要胸沒胸、要屁股沒屁股”,為啥陳偉霆偏偏獨寵她?

何穗被嘲“要胸沒胸、要屁股沒屁股”,為啥陳偉霆偏偏獨寵她?

動物奇奇怪怪
2026-04-03 00:37:19
2026-04-03 04:59:00
Alter聊科技 incentive-icons
Alter聊科技
探究產業興衰,專注商業解讀。
1496文章數 168121關注度
往期回顧 全部

科技要聞

三年虧20億,最新估值58億,Xreal沖刺港股

頭條要聞

伊朗稱擊中敵軍先進戰機 已墜入波斯灣

頭條要聞

伊朗稱擊中敵軍先進戰機 已墜入波斯灣

體育要聞

邵佳一的改革,從讓每個人踢舒服開始

娛樂要聞

《浪姐》人氣榜出爐!曾沛慈斷層第一

財經要聞

市場被特朗普一句話打醒 滯脹交易回歸

汽車要聞

軸距2米7/后排能蹺腿 試駕后驅小車QQ3 EV

態度原創

本地
健康
教育
時尚
公開課

本地新聞

從學徒到世界冠軍,為什么說張雪的底氣在重慶?

干細胞抗衰4大誤區,90%的人都中招

教育要聞

王炸!這個區超兩成考生“搖號上高中”,北京中招格局悄然變臉?

成熟女性衣服別越買越多,準備好襯衫和西裝,得體大方又高級

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版