337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

家家都有DeepSeek服務(wù),如何謊稱速度快?

0
分享至

原創(chuàng):親愛的數(shù)據(jù)

不是人人都有“鈔能力”,我們的故事,

從用單節(jié)點方案部署DeepSeek-R1開始。

為什么是單節(jié)點呢?

因為H200單卡有140GB顯存,可用單節(jié)點(8卡)方案部署。

而H800和HI00顯存80GB,需要雙節(jié)點方案。

有卡了,就可以來玩DeepSeek。

世界是場游戲,是游戲就有作弊的玩家。

怎么作弊呢?等下說,

先看看芯片廠商AMD的官網(wǎng)技術(shù)博客。



網(wǎng)址在此:https://rocm.blogs.amd.com/artificial-intelligence/DeepSeekR1_Perf/README.html

時間是25年2月21日。

我相信哪怕是這幾天的時間,AMD的性能指標(biāo)也還在增長。

沒辦法,AI就是這么卷。

換個角度,這篇可以說是,

從AMD官網(wǎng)博客中學(xué)習(xí)大模型推理性能知識點。

下圖是兩種芯片,英偉達H200和AMD MI300X,

用一個節(jié)點(8卡)跑出來的性能。







為什么要學(xué)這些知識點呢?

答案很簡單,以防被忽悠。

話說,性能指標(biāo)是一個非常關(guān)鍵的數(shù)值,

背后都是技術(shù)實力,

甚至可以說性能是技術(shù)實力的終極體現(xiàn)。

是騾子是馬,你拉出來溜溜。

不過,現(xiàn)在是技術(shù)向上震蕩期,

很多人對大模型性能指標(biāo)不熟悉,

會有人借機在這個指標(biāo)上面作弊。

別著急知道作弊手法,

在看懂作弊之前我們先了解如何公平,

對,公平比較兩種芯片性能。

我們先看懂圖上的“已知條件”

圖上都有什么信息呢?

我們都知道,

大模型推理分為兩個關(guān)鍵任務(wù),

有各自的生成時間:

一個是輸入(Prefill任務(wù))所用時間,

另一個是輸出(Decode任務(wù))所用時間。

其實所有的性能幾乎都可以分這兩個階段來觀察。

大模型推理中有兩個關(guān)鍵指標(biāo),

兩個關(guān)鍵指標(biāo)是:

吞吐量(Throughput)和延遲(Latency)

吞吐量通常指每秒生成的token數(shù)量,

而延遲是從輸入到輸出的時間。

時間非常關(guān)鍵,

每秒吞吐量越高,意味著計算機系統(tǒng)能在單位時間內(nèi)處理更多的請求。

就是單位時間干的活越多越好。

當(dāng)然,牛馬也一樣。

這張圖告訴我們:

圖中有兩種芯片,

英偉達H200型號和AMD的MI300X型號,

為了公平比較兩種芯片的性能,要統(tǒng)一測試,

為什么要統(tǒng)一測試?

這樣才能看出處理相同工作量時,

哪個芯片速度更快、效果更好。

我們要用相同的“題目量”和“回答量”來進行測試,

也就是,統(tǒng)一處理4000個token(題目和回答加在一起)。

圖中原話是:輸入3200個token和輸出800個token。

這樣,兩個系統(tǒng)都各自處理4000個token的信息量,

而且圖中已知,每個推理請求中,平均向系統(tǒng)問出500個問題。

這樣,測試“系統(tǒng)處理token數(shù)量”統(tǒng)一了。

這張圖還想告訴我們幾個技術(shù)概念,

吞吐量(單位:token/秒)

延遲(單位:毫秒)

下面,我們會把毫秒換算成秒。

而最大并發(fā)數(shù)(Max Concurrency)是什么呢?

就是衡量系統(tǒng)在同一時刻能同時服務(wù)多少個請求,

能讓我們了解AI 系統(tǒng)在真實環(huán)境下對大量請求的抗壓能力,

就像考場里同一時間安排多少考生一起考試的道理一樣。

最大并發(fā)數(shù),用Batch Size表示:

我們要根據(jù)不同的請求數(shù)量,觀察系統(tǒng)性能分別是多少。

因為是測試,所以非常細致,

能讓我們了解 AI 系統(tǒng)在真實環(huán)境下對大量請求的適應(yīng)能力,

就像考場里同一時間安排多少考生一起考試的道理一樣。

當(dāng)推理請求數(shù)量(Batch Size),

分別是是1,2,4……128,

Batch Size1是只有1個請求,

Batch Size2,同時處理2個請求,

Batch Size4,同時處理4個請求,

以此類推,直到Batch Size128,

就是同時處理128個請求。

打個比方,當(dāng)我們說Batch Size1,

代表只有1個人在考試,1個人用考試系統(tǒng);

Batch Size2,代表有2個人一起考試;

以此類推,Batch Size128 ,

就意味著128個人同時在考試。

如果只有1 個人在考試(Batch Size1),

系統(tǒng)專心為一個考生服務(wù),一般來說,速度慢不了;

如果有128 個考生一起考試(Batch Size128),

系統(tǒng)就要同時對128 個人的題目進行閱讀、思考、回答,負擔(dān)變大,

可能會增加等待時間。

我們再來看圖,

在圖上左下方讀到的第一個數(shù)字是170,

單位tokens/s。

意味著:

已知總共4000個token的信息量,

當(dāng)BatchSize1的時候,每秒處理170個token,

以這種速度來處理,

那需要的時間就是4000除以170等于23.5秒。

就是用23.5秒就能把這4000個token算完。

23.5秒在時間軸橫軸上處于2萬毫秒右邊一點的位置。

沒有明確寫出來,但我們讀圖能讀出來。







圖片試圖說明AMD芯片性能很好,

然而,我對AMD的這種廣告沒有什么興趣。

我感興趣的是:AMD這個廠商很良心,

他們的性能數(shù)據(jù)很清楚地告訴我們,

輸入和輸出的字數(shù)是多少(輸入3200個token和輸出800個token),

3200+800就是系統(tǒng)總處理的token數(shù),

4000除以170等于23.5秒,

也就是說,decode任務(wù)時間是23秒,

也是恒定的塞進去的信息量就這么多。

好比,東西放進大模型里面多長時間能“出鍋”,

需要測量一個客觀的時間,

也就是,系統(tǒng)跑出來是幾秒就是幾秒。

生成速度,也就是多少秒生成多少token是一個硬指標(biāo),

是用總吞吐量除以測量出得時間得出來的。

這里要稍微計算一下了:

用圖上的已知信息倒著推理兩個信息。

當(dāng)我們跑8張卡的H200的系統(tǒng)(單節(jié)點),

在Batch Size1的時候,情況如下:

情況一:輸入3200,輸出800,4000=3200+800

4000tokens除以170tokens/s等于23.53秒

估計decode時間大約為23秒,

再看decode的信息處理量是800token,

decode800tokens除以23秒等于35tokens/s。

看好了,這時候我要來“作弊”了,把輸入和輸出的數(shù)據(jù)互換一下。

情況二:輸入800,輸出3200,4000=800+3200

3200tokens除以34.78tokens/s,

就是每秒跑出來34.78個token,

雖然同樣還是處理總共4000個token,

但是,用3200除以35okens/s等于91秒,

decode時間就會變得很長,91秒。

都是處理同樣的信息量,調(diào)整輸入和輸出,

decode的時間從23秒變成了91秒。

這個技術(shù)細節(jié)非常重要。



有時候,廠商提供的測試數(shù)據(jù)是prefill和decode加在一起的,

當(dāng)然,也可以說混在一起。

既然“混了”,“摸魚”的機會就來了,

好比兩個長跑運動員,

一個叫prefill,一個叫decode,

prefill跑得快,decode跑得慢,

至于為什么decode慢,

這個你的去問“注意力機制”這個家伙了,

都是它干的好事,這里不展開。

同樣的一段長跑運動,

prefill和decode的速度應(yīng)該分別記錄,

假如想作弊,就把盡量長的路程給prefill跑,

它速度快,時間肯定就縮短了。

要是不懂,猛一看性能,覺得還挺快嘞。

還是那句話,性能是和采購決策相關(guān)的關(guān)鍵指標(biāo)。

廠商AMD很客觀,告訴你比例了(輸入3200,輸出800),

有人會把prefill的比例調(diào)高點,數(shù)值就更好看了,

因為decode跑得慢,讓decode少跑,也就是少干點活。

請注意,有些性能指標(biāo)旁邊標(biāo)著“僅輸出”(decode only)

這不是不可以,而是,拿“僅輸出”的指標(biāo)和整個推理的吞吐指標(biāo)對比,

不講武德。

總結(jié)一下:寫性能,請把prefill和decode處理的工作量標(biāo)清楚,謝謝。

最后預(yù)告下,過幾天發(fā)的文章,

我會把圖上所有的指標(biāo)都算出來,會有新結(jié)論。

上一篇回顧:

《DeepSeek:為了這口醋,包了這頓餃子,為了數(shù)據(jù),我造了模型》








聲明:個人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
60歲李淵被逼退位后生30個孩子,李世民頭疼不已,武則天一招解決

60歲李淵被逼退位后生30個孩子,李世民頭疼不已,武則天一招解決

銘記歷史呀
2026-04-06 16:10:49
分手29年后,肖戰(zhàn)成國乒副總教練,而她嫁給富商,已是大學(xué)教授

分手29年后,肖戰(zhàn)成國乒副總教練,而她嫁給富商,已是大學(xué)教授

白面書誏
2026-04-06 14:09:48
周薪50萬鎊!曼聯(lián)或迎來震撼轉(zhuǎn)會,皇馬巨星將加盟?

周薪50萬鎊!曼聯(lián)或迎來震撼轉(zhuǎn)會,皇馬巨星將加盟?

瀾歸序
2026-04-06 03:51:56
最新房貸數(shù)據(jù)顯示:房地產(chǎn)的時代已經(jīng)結(jié)束

最新房貸數(shù)據(jù)顯示:房地產(chǎn)的時代已經(jīng)結(jié)束

金融發(fā)布
2026-04-06 12:01:58
云南國企們的“躺賺”模式:雙向潰爛的本土經(jīng)濟病灶

云南國企們的“躺賺”模式:雙向潰爛的本土經(jīng)濟病灶

易觀彩云之南
2026-04-06 17:30:06
不顧老婆反對,全屋打滿柜子!過來人才明白:裝修的盡頭全是收納

不顧老婆反對,全屋打滿柜子!過來人才明白:裝修的盡頭全是收納

家居設(shè)計師宅哥
2026-04-01 23:45:03
祖墳管幾代人?誰的墳對你影響最大?看看百歲老道長怎么說的

祖墳管幾代人?誰的墳對你影響最大?看看百歲老道長怎么說的

千秋文化
2026-03-30 20:30:53
杜月笙面館吃飯,一伙地痞流氓找他要保護費,杜月笙:嫌命長嗎?

杜月笙面館吃飯,一伙地痞流氓找他要保護費,杜月笙:嫌命長嗎?

千秋文化
2026-04-01 20:35:51
誰還記得肯豆和布克這張封神合照!隨性自然才是頂級情侶感

誰還記得肯豆和布克這張封神合照!隨性自然才是頂級情侶感

地理三體說
2026-02-28 23:10:17
曝字母哥被交易幾成定局!今夏聽取各隊報價:四大方案誰更誘人?

曝字母哥被交易幾成定局!今夏聽取各隊報價:四大方案誰更誘人?

羅說NBA
2026-04-05 22:14:37
又轟下45+9+8+2!抱歉詹姆斯:你從歷史第一變成了歷史第二

又轟下45+9+8+2!抱歉詹姆斯:你從歷史第一變成了歷史第二

籃球大視野
2026-04-06 16:57:08
不得不說,盧偉飄了!

不得不說,盧偉飄了!

體育哲人
2026-04-06 11:22:49
初代宅男女神宣布離婚:多謝大家關(guān)心...

初代宅男女神宣布離婚:多謝大家關(guān)心...

小椰的奶奶
2026-04-04 22:16:21
老爸測評退一賠三最多30萬,而董宇輝要賠償1.2億

老爸測評退一賠三最多30萬,而董宇輝要賠償1.2億

映射生活的身影
2026-04-05 16:59:07
日媒:一伊朗籍男子在日本被毆打致死,警方展開調(diào)查

日媒:一伊朗籍男子在日本被毆打致死,警方展開調(diào)查

澎湃新聞
2026-04-05 13:11:12
消息稱蘋果首款折疊屏手機iPhone Fold已在試產(chǎn)

消息稱蘋果首款折疊屏手機iPhone Fold已在試產(chǎn)

IT之家
2026-04-06 15:54:34
國家一級女演員陳麗云被逮捕!

國家一級女演員陳麗云被逮捕!

許三歲
2026-03-28 09:24:30
太可怕了!郭麒麟被聚會朋友偷拍發(fā)上網(wǎng),網(wǎng)友:誰還敢交朋友?

太可怕了!郭麒麟被聚會朋友偷拍發(fā)上網(wǎng),網(wǎng)友:誰還敢交朋友?

子芫伴你成長
2026-04-05 22:43:24
32.98 萬起!大眾 9X預(yù)售殺瘋了

32.98 萬起!大眾 9X預(yù)售殺瘋了

小李子體育
2026-04-06 09:29:41
為黃金叛逃臺灣,陳寶忠駕機遭朝軍攔截,最終下場悲慘

為黃金叛逃臺灣,陳寶忠駕機遭朝軍攔截,最終下場悲慘

磊子講史
2026-03-31 11:28:08
2026-04-06 19:48:49
親愛的數(shù)據(jù) incentive-icons
親愛的數(shù)據(jù)
《我看見了風(fēng)暴:人工智能基建革命》一書作者
693文章數(shù) 219913關(guān)注度
往期回顧 全部

科技要聞

前同事被蒸餾成Token,AI能否偷走職場經(jīng)驗

頭條要聞

媒體:付出不菲代價 "拯救大兵"行動仍有疑點未解開

頭條要聞

媒體:付出不菲代價 "拯救大兵"行動仍有疑點未解開

體育要聞

球員系列賽大滿貫!趙心童10-3世界第一 加冕賽季第4冠

娛樂要聞

唐嫣羅晉新加坡遛娃,6歲女兒身高搶鏡

財經(jīng)要聞

史詩級暴跌"一周年" A股接下來如何走?

汽車要聞

阿維塔06T快上市了 旅行車還能這么玩?

態(tài)度原創(chuàng)

親子
本地
健康
家居
游戲

親子要聞

懷孕后有以下幾種反應(yīng),媽媽們要重視,孕期也要降“甜度”

本地新聞

跟著歌聲游安徽,聽古村回響

干細胞抗衰4大誤區(qū),90%的人都中招

家居要聞

溫馨多元 愛的具象化

連續(xù)兩年!XBOX第一方霸榜PS游戲商店 索尼是喜是憂?

無障礙瀏覽 進入關(guān)懷版