最近“龍蝦”徹底火了,一個(gè)24*7待命的數(shù)字員工,效率直接起飛,看得人心里直癢癢。
不少老板看到后一拍大腿:上!
真把“龍蝦”請(qǐng)進(jìn)公司,劇情開始反轉(zhuǎn):表面上是自動(dòng)化流水線,背地里卻像是給Token打工,月底一算賬,好家伙,比雇人還貴。
你以為請(qǐng)來的是個(gè)全能員工,結(jié)果更像一個(gè)“高薪但不太穩(wěn)定的實(shí)習(xí)生”。
為什么會(huì)這樣呢?因?yàn)橄瘛褒埼r”這樣的Agent,其工作方式和過去完全不同。
普通的聊天,一問一答,幾百幾千個(gè)Token就結(jié)束了,現(xiàn)在“龍蝦”自主規(guī)劃,多輪迭代,上下文超級(jí)長,一個(gè)任務(wù)跑下來,動(dòng)不動(dòng)就是幾十萬,甚至上百萬 Token。
現(xiàn)在大家通過FlashAttention、混合精度、融合算子、KV Cache池化緩存等技術(shù)拼命優(yōu)化模型、優(yōu)化推理性能,也只能解決單機(jī)的性能問題。
如果把目光移向整個(gè)AI算力池,重新審視Token性價(jià)比的時(shí)候,就會(huì)發(fā)現(xiàn)這里的平均推理利用率竟然不到30%,相當(dāng)于花費(fèi)重金建設(shè)、動(dòng)輒數(shù)萬、數(shù)十萬卡的AI硬件算力池,竟有超過一半以上的算力在“摸魚,吃空餉”!
面對(duì)這個(gè)核心挑戰(zhàn),華為云走出了一條創(chuàng)新的道路。
他們沒有再去一味堆模型、卷算力,而是在推理/訓(xùn)練框架和底層算力(比如 CANN、CUDA)之間,插入了一層全新的系統(tǒng)——FlexNPU,你可以把它理解成一個(gè)“AI算力操作系統(tǒng)”。
FlexNPU通過創(chuàng)新的虛擬化和智能調(diào)度系統(tǒng),把一塊塊固定僵硬的“硅片”,拆開、重組、再分配,變成了一種可以自由流動(dòng)的柔性或“液態(tài)化”資源。
![]()
就像孫悟空的金箍棒那樣,需要的時(shí)候,可以撐到整個(gè)集群那么大,不需要的時(shí)候,可以縮到一根針那么細(xì),“可大可小、變化隨心”,完全根據(jù)業(yè)務(wù)需求,“隨需而動(dòng)”。
FlexNPU具體是怎么做的呢? 我們?cè)敿?xì)來看一看。
0 1
讀題目+寫答案:AI算力混合部署
你給大模型發(fā)送了消息后,它就需要讀取你的輸入,建立上下文,相當(dāng)于在考試時(shí)把題目完整讀一遍。這一階段叫做Prefill(預(yù)填充),計(jì)算量很大,NPU需要全力運(yùn)作。
大模型回答你的時(shí)候,就像是“寫答案”,是一個(gè)字(token)一個(gè)字往外生成,這一階段叫Decode,每次計(jì)算量小,但是持續(xù)生成。
由于兩階段任務(wù)的特點(diǎn)不同,所以業(yè)界的主流方案就是PD分離,一個(gè)NPU專門讀題目,另一個(gè)專門寫答案。
![]()
但是在“龍蝦”這種Agent場(chǎng)景下,用戶的請(qǐng)求充滿了極端的上下文和不可預(yù)測(cè)性,根本沒法提前規(guī)劃“讀題目”需要多少機(jī)器,“寫答案”需要多少機(jī)器。很容易出現(xiàn)有的機(jī)器閑著,有的忙死。
FlexNPU則采用了一種“PD動(dòng)態(tài)混合部署”的方法,把“讀題目”和“寫答案”部署在同一套NPU上,然后用負(fù)載感知、算子劫持、資源調(diào)度等技術(shù)來調(diào)度兩種任務(wù)。
當(dāng)系統(tǒng)“寫答案”的時(shí)候,如果發(fā)現(xiàn)算力閑著(因?yàn)镈ecode不怎么計(jì)算),立刻塞一個(gè)“讀題目” (Prefill) 任務(wù)進(jìn)去!
![]()
當(dāng)然,這種調(diào)度非常之快(微秒級(jí)),讓硬件利用率直接拉滿。最終實(shí)現(xiàn)在同等服務(wù)質(zhì)量下,完美解決了傳統(tǒng)PD分離架構(gòu)下Prefill和Decode集群不均衡的AI Core與顯存利用率問題,將帶來至少40%的Token性價(jià)比提升空間。
0 2
不會(huì)摸魚的打工人:白天接單,晚上加班
中小企業(yè)上AI系統(tǒng),通常需要兩套集群。
一套是“在線集群”,處理白天的實(shí)時(shí)請(qǐng)求,例如用戶聊天、問答這些需要“秒回”的任務(wù),資源調(diào)度要高效,避免任何卡頓。
另外一套是“離線集群”,處理晚上的非實(shí)時(shí)任務(wù),如生成embeddings,數(shù)據(jù)清洗、預(yù)處理等,延遲不敏感,可以慢慢排隊(duì)等。
這種部署的問題就是白天的實(shí)時(shí)請(qǐng)求其實(shí)不穩(wěn)定,很多時(shí)候NPU就用了30%,剩下的70%在發(fā)呆,資源浪費(fèi)。
能不能把在線任務(wù)和離線任務(wù)在同一套機(jī)器上混著跑呢?
白天優(yōu)先跑在線任務(wù)(用戶請(qǐng)求),同時(shí)如果有空閑資源,插入離線任務(wù)。
晚上在線請(qǐng)求變少,系統(tǒng)自動(dòng)把大部分資源給離線任務(wù)。
華為的FlexNPU就是這么干的,在同一套集群中實(shí)現(xiàn)了毫秒級(jí)無縫穿插實(shí)時(shí)請(qǐng)求和非實(shí)時(shí)任務(wù)。
![]()
這就像一個(gè)超級(jí)打工人,他既能不斷地回答用戶的各種問題,“沒人”的時(shí)候見縫插針地去做一些數(shù)據(jù)清洗,文檔總結(jié)的離線任務(wù)。
到了深夜的業(yè)務(wù)低谷期,它會(huì)自動(dòng)釋放出大量計(jì)算資源,利用自研的 iTransformer 預(yù)測(cè)算法會(huì)精準(zhǔn)判斷這些資源能閑置多久,然后協(xié)同彈性引擎立刻把這些空閑資源“調(diào)度”給其他嗷嗷待哺的任務(wù),比如正在排隊(duì)的Agent強(qiáng)化學(xué)習(xí)作業(yè)等。
利用這種削峰填谷的方式,每一分的NPU的算力都不浪費(fèi)。
在華為云內(nèi)部的AI代碼生成和外部MaaS業(yè)務(wù)場(chǎng)景中,這種方式解決了推理業(yè)務(wù)潮汐變化規(guī)律所導(dǎo)致的大量AI算力空轉(zhuǎn)浪費(fèi)難題,同樣為大模型推理貢獻(xiàn)了至少40%的性價(jià)比提升!
0 3
AI合租時(shí)代:多模型共卡不打架
研究表明,現(xiàn)在Agent中的任務(wù)很多都是重復(fù)性和專業(yè)化的子任務(wù),比如調(diào)用工具、解析文檔、生成報(bào)告。這些工作如果使用千億參數(shù)的“巨無霸”模型,那簡直就是用超級(jí)計(jì)算機(jī)玩掃雷,是巨大的資源浪費(fèi)。
最好是把這些子任務(wù)放到小模型中來運(yùn)行,例如一個(gè)大模型負(fù)責(zé)路由,一個(gè)小模型做記憶壓縮,另外一個(gè)做常識(shí)推理,還需要一個(gè)小模型做摘要提取。
![]()
在傳統(tǒng)云上,你得為這四個(gè)模型買四張卡,TCO直接爆炸,中小企業(yè)根本扛不住。
當(dāng)然,為了省錢,可以把模型硬塞在一張卡上,但沒有底層資源隔離和精細(xì)調(diào)度,結(jié)果在極端情況下性能會(huì)崩。
一個(gè)模型突然來一波高并發(fā),占滿了算力和帶寬,直接影響其他模型,推理變慢,延遲增加,甚至超時(shí)。
這就像多家公司擠在一個(gè)開放辦公區(qū), 雖然分了桌子,但網(wǎng)絡(luò)是共用的,電源是共用的,空調(diào)是共用的。
一家公司開大會(huì),網(wǎng)絡(luò)卡了,別人全被影響。
FlexNPU參照操作系統(tǒng)的理念,接管了物理的NPU資源,通過對(duì)AI Core的時(shí)分調(diào)度和對(duì)顯存的空分調(diào)度,實(shí)現(xiàn)了多個(gè)AI模型在同一張NPU卡上的精細(xì)化混部。
![]()
FlexNPU不但實(shí)現(xiàn)最小粒度達(dá)1% NPU卡及128MB顯存的顆粒度的AI Core時(shí)分復(fù)用,以及顯存空分復(fù)用。還實(shí)現(xiàn)了堅(jiān)實(shí)的QoS與安全隔離。更重要的是可以在運(yùn)行時(shí)可按需調(diào)整NPU算力大小、上層業(yè)務(wù)根本感知不到。
實(shí)戰(zhàn)效果顯示,在保障時(shí)延前提下,單NPU卡部署密度從5個(gè)提升到7個(gè),F(xiàn)lexNPU為小模型提供了真正完美匹配其算力訴求、量體裁衣的虛擬NPU資源,將小模型的平均算力成本降低2-3倍以上。真正實(shí)現(xiàn)了降本增效。
![]()
0 4
斷點(diǎn)續(xù)命:任務(wù)不會(huì)再“白干一場(chǎng)”
現(xiàn)在的Agent有個(gè)致命的缺點(diǎn):任務(wù)鏈路特別長。
它不是“一次推理就結(jié)束”,而是需要幾十步甚至上百步,持續(xù)幾分鐘甚至幾十分鐘。
就像你寫一篇幾萬字報(bào)告,寫到第95%時(shí),沒有存盤,電腦突然死機(jī)了!
全部白寫,只好從頭再來。
在AI推理的時(shí)候也是類似,因?yàn)槿蝿?wù)必須一口氣跑完,中間一旦某個(gè)NPU出問題, 完了,任務(wù)直接失敗,狀態(tài)丟失,不得不回到第一步從頭兒再來。
你剛剛消耗的Token、算力、時(shí)間全部作廢,讓人欲哭無淚。
![]()
FlexNPU做了什么呢? 它實(shí)現(xiàn)了一套軟硬件解耦的架構(gòu):
![]()
推理服務(wù)不再直接綁定物理卡,而是通過虛擬映射實(shí)現(xiàn)靈活調(diào)度。
在任務(wù)運(yùn)行的過程中,系統(tǒng)不斷“偷偷”記錄當(dāng)前狀態(tài),比如:模型推理進(jìn)度,中間計(jì)算結(jié)果(KV Cache、狀態(tài)機(jī)),Agent 的上下文等。
而且關(guān)鍵點(diǎn)是:開銷極低,你幾乎感覺不到。
這樣一旦發(fā)生問題,F(xiàn)lexNPU就會(huì)讀取最近一次快照,恢復(fù)任務(wù)狀態(tài),從中斷點(diǎn)開始執(zhí)行,這一切,秒級(jí)即可完成,相當(dāng)于原地滿血復(fù)活了。
![]()
這一切對(duì)上層完全無感,你不需要寫任何恢復(fù)邏輯,不需要重試機(jī)制,不需要 checkpoint 管理,一切自動(dòng)完成。
一句話:AI 任務(wù)變得“又長又脆”,而 FlexNPU 讓它變成“又長又穩(wěn)”。
0 5
總結(jié)
從上面的介紹可以看出,F(xiàn)lexNPU通過架構(gòu)創(chuàng)新,為智能體帶來了3重突破性價(jià)值。
(1) 動(dòng)態(tài)混合部署,用戶不需要為閑置資源買單;
(2) 小模型共卡復(fù)用,用戶不需要為生態(tài)冗余買單;
(3) 秒級(jí)快速恢復(fù),用戶不需要為硬件故障買單。
華為云FlexNPU所做的一切,其實(shí)都是為了一個(gè)最終的目標(biāo):降低Agent的入局門檻。
讓每一分錢的AI算力投入,都迸發(fā)出最大化的價(jià)值;讓智能體時(shí)代海量的Token,人人都能消費(fèi)得起。
值得注意的是,F(xiàn)lexNPU 其實(shí)只是華為云整個(gè) AI 解決方案中的一塊拼圖:
![]()
在最底層,是 AI 基礎(chǔ)設(shè)施。
依托 CloudMatrix 超節(jié)點(diǎn)和 FlexNPU 這套“柔性智算”能力,華為云解決的,是最核心的問題——算力不再浪費(fèi),成本真正可控。為上層各種模型、各種 Agent 形態(tài),提供了一個(gè)極致性價(jià)比的算力底座。
再往上一層,是模型服務(wù)層。通過 MaaS,華為云把主流開源大模型都“整理好、調(diào)教好”,企業(yè)不需要自己折騰部署和適配,就可以直接使用。
再往上,是開發(fā)者最熟悉的一層:Agent 平臺(tái)。這里更像一個(gè)“AI 操作臺(tái)”, 無論是程序員,還是業(yè)務(wù)人員,都可以通過簡單編排,快速搭建屬于自己的智能體。
最上面這一層,其實(shí)是最有意思的:場(chǎng)景工廠。
華為云把過去服務(wù) 2600 多家企業(yè)、500 多個(gè)實(shí)際場(chǎng)景的經(jīng)驗(yàn),沉淀成了 40+ 個(gè)高頻 AI 模板。 不需要從零開始,開箱即用,對(duì)于中小企業(yè)來說,這一層的價(jià)值,甚至是最大的。
華為云給我的感覺就是,它不只在賣各種黑技術(shù),而是深刻地洞察了企業(yè)在使用AI的過程中遇到的各種問題,然后提供了一站式的、全方位的解決方案,這才是正確的AI之路。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.