網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

“養(yǎng)蝦”太貴勸退？華為云FlexNPU專治算力“吃空餉”

2026-03-27 08:59:29　來源: 碼農(nóng)翻身

河南舉報(bào)

分享至

最近“龍蝦”徹底火了，一個(gè)24*7待命的數(shù)字員工，效率直接起飛，看得人心里直癢癢。

不少老板看到后一拍大腿：上！

真把“龍蝦”請(qǐng)進(jìn)公司，劇情開始反轉(zhuǎn)：表面上是自動(dòng)化流水線，背地里卻像是給Token打工，月底一算賬，好家伙，比雇人還貴。

你以為請(qǐng)來的是個(gè)全能員工，結(jié)果更像一個(gè)“高薪但不太穩(wěn)定的實(shí)習(xí)生”。

為什么會(huì)這樣呢？因?yàn)橄瘛褒埼r”這樣的Agent，其工作方式和過去完全不同。

普通的聊天，一問一答，幾百幾千個(gè)Token就結(jié)束了，現(xiàn)在“龍蝦”自主規(guī)劃，多輪迭代，上下文超級(jí)長，一個(gè)任務(wù)跑下來，動(dòng)不動(dòng)就是幾十萬，甚至上百萬 Token。

現(xiàn)在大家通過FlashAttention、混合精度、融合算子、KV Cache池化緩存等技術(shù)拼命優(yōu)化模型、優(yōu)化推理性能，也只能解決單機(jī)的性能問題。

如果把目光移向整個(gè)AI算力池，重新審視Token性價(jià)比的時(shí)候，就會(huì)發(fā)現(xiàn)這里的平均推理利用率竟然不到30%，相當(dāng)于花費(fèi)重金建設(shè)、動(dòng)輒數(shù)萬、數(shù)十萬卡的AI硬件算力池，竟有超過一半以上的算力在“摸魚，吃空餉”！

面對(duì)這個(gè)核心挑戰(zhàn)，華為云走出了一條創(chuàng)新的道路。

他們沒有再去一味堆模型、卷算力，而是在推理/訓(xùn)練框架和底層算力（比如 CANN、CUDA）之間，插入了一層全新的系統(tǒng)——FlexNPU，你可以把它理解成一個(gè)“AI算力操作系統(tǒng)”。

FlexNPU通過創(chuàng)新的虛擬化和智能調(diào)度系統(tǒng)，把一塊塊固定僵硬的“硅片”，拆開、重組、再分配，變成了一種可以自由流動(dòng)的柔性或“液態(tài)化”資源。

就像孫悟空的金箍棒那樣，需要的時(shí)候，可以撐到整個(gè)集群那么大，不需要的時(shí)候，可以縮到一根針那么細(xì)，“可大可小、變化隨心”，完全根據(jù)業(yè)務(wù)需求，“隨需而動(dòng)”。

FlexNPU具體是怎么做的呢？我們?cè)敿?xì)來看一看。

0 1

讀題目+寫答案：AI算力混合部署

你給大模型發(fā)送了消息后，它就需要讀取你的輸入，建立上下文，相當(dāng)于在考試時(shí)把題目完整讀一遍。這一階段叫做Prefill（預(yù)填充），計(jì)算量很大，NPU需要全力運(yùn)作。

大模型回答你的時(shí)候，就像是“寫答案”，是一個(gè)字(token)一個(gè)字往外生成，這一階段叫Decode，每次計(jì)算量小，但是持續(xù)生成。

由于兩階段任務(wù)的特點(diǎn)不同，所以業(yè)界的主流方案就是PD分離，一個(gè)NPU專門讀題目，另一個(gè)專門寫答案。

但是在“龍蝦”這種Agent場(chǎng)景下，用戶的請(qǐng)求充滿了極端的上下文和不可預(yù)測(cè)性，根本沒法提前規(guī)劃“讀題目”需要多少機(jī)器，“寫答案”需要多少機(jī)器。很容易出現(xiàn)有的機(jī)器閑著，有的忙死。

FlexNPU則采用了一種“PD動(dòng)態(tài)混合部署”的方法，把“讀題目”和“寫答案”部署在同一套NPU上，然后用負(fù)載感知、算子劫持、資源調(diào)度等技術(shù)來調(diào)度兩種任務(wù)。

當(dāng)系統(tǒng)“寫答案”的時(shí)候，如果發(fā)現(xiàn)算力閑著（因?yàn)镈ecode不怎么計(jì)算），立刻塞一個(gè)“讀題目” (Prefill) 任務(wù)進(jìn)去！

當(dāng)然，這種調(diào)度非常之快（微秒級(jí)），讓硬件利用率直接拉滿。最終實(shí)現(xiàn)在同等服務(wù)質(zhì)量下，完美解決了傳統(tǒng)PD分離架構(gòu)下Prefill和Decode集群不均衡的AI Core與顯存利用率問題，將帶來至少40%的Token性價(jià)比提升空間。

0 2

不會(huì)摸魚的打工人：白天接單，晚上加班

中小企業(yè)上AI系統(tǒng)，通常需要兩套集群。

一套是“在線集群”，處理白天的實(shí)時(shí)請(qǐng)求，例如用戶聊天、問答這些需要“秒回”的任務(wù)，資源調(diào)度要高效，避免任何卡頓。

另外一套是“離線集群”，處理晚上的非實(shí)時(shí)任務(wù)，如生成embeddings，數(shù)據(jù)清洗、預(yù)處理等，延遲不敏感，可以慢慢排隊(duì)等。

這種部署的問題就是白天的實(shí)時(shí)請(qǐng)求其實(shí)不穩(wěn)定，很多時(shí)候NPU就用了30%，剩下的70%在發(fā)呆，資源浪費(fèi)。

能不能把在線任務(wù)和離線任務(wù)在同一套機(jī)器上混著跑呢？

白天優(yōu)先跑在線任務(wù)（用戶請(qǐng)求），同時(shí)如果有空閑資源，插入離線任務(wù)。

晚上在線請(qǐng)求變少，系統(tǒng)自動(dòng)把大部分資源給離線任務(wù)。

華為的FlexNPU就是這么干的，在同一套集群中實(shí)現(xiàn)了毫秒級(jí)無縫穿插實(shí)時(shí)請(qǐng)求和非實(shí)時(shí)任務(wù)。

這就像一個(gè)超級(jí)打工人，他既能不斷地回答用戶的各種問題，“沒人”的時(shí)候見縫插針地去做一些數(shù)據(jù)清洗，文檔總結(jié)的離線任務(wù)。

到了深夜的業(yè)務(wù)低谷期，它會(huì)自動(dòng)釋放出大量計(jì)算資源，利用自研的 iTransformer 預(yù)測(cè)算法會(huì)精準(zhǔn)判斷這些資源能閑置多久，然后協(xié)同彈性引擎立刻把這些空閑資源“調(diào)度”給其他嗷嗷待哺的任務(wù)，比如正在排隊(duì)的Agent強(qiáng)化學(xué)習(xí)作業(yè)等。

利用這種削峰填谷的方式，每一分的NPU的算力都不浪費(fèi)。

在華為云內(nèi)部的AI代碼生成和外部MaaS業(yè)務(wù)場(chǎng)景中，這種方式解決了推理業(yè)務(wù)潮汐變化規(guī)律所導(dǎo)致的大量AI算力空轉(zhuǎn)浪費(fèi)難題，同樣為大模型推理貢獻(xiàn)了至少40%的性價(jià)比提升！

0 3

AI合租時(shí)代：多模型共卡不打架

研究表明，現(xiàn)在Agent中的任務(wù)很多都是重復(fù)性和專業(yè)化的子任務(wù)，比如調(diào)用工具、解析文檔、生成報(bào)告。這些工作如果使用千億參數(shù)的“巨無霸”模型，那簡直就是用超級(jí)計(jì)算機(jī)玩掃雷，是巨大的資源浪費(fèi)。

最好是把這些子任務(wù)放到小模型中來運(yùn)行，例如一個(gè)大模型負(fù)責(zé)路由，一個(gè)小模型做記憶壓縮，另外一個(gè)做常識(shí)推理，還需要一個(gè)小模型做摘要提取。

在傳統(tǒng)云上，你得為這四個(gè)模型買四張卡，TCO直接爆炸，中小企業(yè)根本扛不住。

當(dāng)然，為了省錢，可以把模型硬塞在一張卡上，但沒有底層資源隔離和精細(xì)調(diào)度，結(jié)果在極端情況下性能會(huì)崩。

一個(gè)模型突然來一波高并發(fā)，占滿了算力和帶寬，直接影響其他模型，推理變慢，延遲增加，甚至超時(shí)。

這就像多家公司擠在一個(gè)開放辦公區(qū)，雖然分了桌子，但網(wǎng)絡(luò)是共用的，電源是共用的，空調(diào)是共用的。

一家公司開大會(huì)，網(wǎng)絡(luò)卡了，別人全被影響。

FlexNPU參照操作系統(tǒng)的理念，接管了物理的NPU資源，通過對(duì)AI Core的時(shí)分調(diào)度和對(duì)顯存的空分調(diào)度，實(shí)現(xiàn)了多個(gè)AI模型在同一張NPU卡上的精細(xì)化混部。

FlexNPU不但實(shí)現(xiàn)最小粒度達(dá)1% NPU卡及128MB顯存的顆粒度的AI Core時(shí)分復(fù)用，以及顯存空分復(fù)用。還實(shí)現(xiàn)了堅(jiān)實(shí)的QoS與安全隔離。更重要的是可以在運(yùn)行時(shí)可按需調(diào)整NPU算力大小、上層業(yè)務(wù)根本感知不到。

實(shí)戰(zhàn)效果顯示，在保障時(shí)延前提下，單NPU卡部署密度從5個(gè)提升到7個(gè)，F(xiàn)lexNPU為小模型提供了真正完美匹配其算力訴求、量體裁衣的虛擬NPU資源，將小模型的平均算力成本降低2-3倍以上。真正實(shí)現(xiàn)了降本增效。

0 4

斷點(diǎn)續(xù)命：任務(wù)不會(huì)再“白干一場(chǎng)”

現(xiàn)在的Agent有個(gè)致命的缺點(diǎn)：任務(wù)鏈路特別長。

它不是“一次推理就結(jié)束”，而是需要幾十步甚至上百步，持續(xù)幾分鐘甚至幾十分鐘。

就像你寫一篇幾萬字報(bào)告，寫到第95%時(shí)，沒有存盤，電腦突然死機(jī)了！

全部白寫，只好從頭再來。

在AI推理的時(shí)候也是類似，因?yàn)槿蝿?wù)必須一口氣跑完，中間一旦某個(gè)NPU出問題，完了，任務(wù)直接失敗，狀態(tài)丟失，不得不回到第一步從頭兒再來。

你剛剛消耗的Token、算力、時(shí)間全部作廢，讓人欲哭無淚。

FlexNPU做了什么呢？它實(shí)現(xiàn)了一套軟硬件解耦的架構(gòu)：

推理服務(wù)不再直接綁定物理卡，而是通過虛擬映射實(shí)現(xiàn)靈活調(diào)度。

在任務(wù)運(yùn)行的過程中，系統(tǒng)不斷“偷偷”記錄當(dāng)前狀態(tài)，比如：模型推理進(jìn)度，中間計(jì)算結(jié)果（KV Cache、狀態(tài)機(jī)），Agent 的上下文等。

而且關(guān)鍵點(diǎn)是：開銷極低，你幾乎感覺不到。

這樣一旦發(fā)生問題，F(xiàn)lexNPU就會(huì)讀取最近一次快照，恢復(fù)任務(wù)狀態(tài)，從中斷點(diǎn)開始執(zhí)行，這一切，秒級(jí)即可完成，相當(dāng)于原地滿血復(fù)活了。

這一切對(duì)上層完全無感，你不需要寫任何恢復(fù)邏輯，不需要重試機(jī)制，不需要 checkpoint 管理，一切自動(dòng)完成。

一句話：AI 任務(wù)變得“又長又脆”，而 FlexNPU 讓它變成“又長又穩(wěn)”。

0 5

總結(jié)

從上面的介紹可以看出，F(xiàn)lexNPU通過架構(gòu)創(chuàng)新，為智能體帶來了3重突破性價(jià)值。

(1) 動(dòng)態(tài)混合部署，用戶不需要為閑置資源買單；

(2) 小模型共卡復(fù)用，用戶不需要為生態(tài)冗余買單；

(3) 秒級(jí)快速恢復(fù)，用戶不需要為硬件故障買單。

華為云FlexNPU所做的一切，其實(shí)都是為了一個(gè)最終的目標(biāo)：降低Agent的入局門檻。

讓每一分錢的AI算力投入，都迸發(fā)出最大化的價(jià)值；讓智能體時(shí)代海量的Token，人人都能消費(fèi)得起。

值得注意的是，F(xiàn)lexNPU 其實(shí)只是華為云整個(gè) AI 解決方案中的一塊拼圖：

在最底層，是 AI 基礎(chǔ)設(shè)施。

依托 CloudMatrix 超節(jié)點(diǎn)和 FlexNPU 這套“柔性智算”能力，華為云解決的，是最核心的問題——算力不再浪費(fèi)，成本真正可控。為上層各種模型、各種 Agent 形態(tài)，提供了一個(gè)極致性價(jià)比的算力底座。

再往上一層，是模型服務(wù)層。通過 MaaS，華為云把主流開源大模型都“整理好、調(diào)教好”，企業(yè)不需要自己折騰部署和適配，就可以直接使用。

再往上，是開發(fā)者最熟悉的一層：Agent 平臺(tái)。這里更像一個(gè)“AI 操作臺(tái)”，無論是程序員，還是業(yè)務(wù)人員，都可以通過簡單編排，快速搭建屬于自己的智能體。

最上面這一層，其實(shí)是最有意思的：場(chǎng)景工廠。

華為云把過去服務(wù) 2600 多家企業(yè)、500 多個(gè)實(shí)際場(chǎng)景的經(jīng)驗(yàn)，沉淀成了 40+ 個(gè)高頻 AI 模板。不需要從零開始，開箱即用，對(duì)于中小企業(yè)來說，這一層的價(jià)值，甚至是最大的。

華為云給我的感覺就是，它不只在賣各種黑技術(shù)，而是深刻地洞察了企業(yè)在使用AI的過程中遇到的各種問題，然后提供了一站式的、全方位的解決方案，這才是正確的AI之路。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.