網易首頁 > 網易號 > 正文申請入駐

尺寸差了一個量級，如何較量？DeepSeek R1與阿里QwQ-32B

2025-03-09 21:20:37　來源: 親愛的數據

北京舉報

分享至

原創(chuàng)：親愛的數據

2025年3月6日，

阿里通義千問團隊推出推理模型

QwQ-32B大語言模型。

看似普通的一則新聞，

發(fā)布了一個模型這么件事。

阿里尚未發(fā)布詳細的技術報告來解釋QwQ是如何開發(fā)的，甚至新聞官網只有742個字。

《QwQ-32B：擁抱強化學習的力量》

該怎么理解呢？

我的理解，

QwQ-32B是一款稠密（又稱密集）推理模型。

雖然只有一句話，但是信息量很大。

想讀懂的話，要很多“知識儲備”，

什么是MoE（混合專家模型）？

什么是稠密模型？

什么是推理模型？

模型參數規(guī)模怎么對比？

背后隱藏的不少問題都可展開聊，

不如，聊聊有哪些結論？

第一點，QWQ模型有一個系列，

阿里在上一版的基礎上，

用了R1也同樣用了的強化學習技術。

好消息是出效果了，不出效果不會放出來。

畢竟這個是開源模型，

只有閉源模型才愿意買廣告胡吹，

開源模型則不需要。

反觀很多大模型友商，

還停留在花錢買彩虹屁的石器時代。

在開源打得如此激烈的當下，顯得尤為又自嗨。

拋開“強不強”不聊，

要知道大模型技術人員的知識體系涇渭分明，

你是做視覺的，就是視覺；

你是自然語言處理的就是自然語言處理，

而強化學習是另外一套知識體系。

強化學習這條道路，

大模型團隊里沒有點技術儲備都發(fā)不了力。

阿里畢竟是阿里，

看到強化學習的天花板還能往上推，

就毫不猶豫地往上推。

恭喜阿里出效果，恭喜團隊奮戰(zhàn)有成績。

無獨有偶，一天之前，

2024年的圖靈獎頒給了一對著名的師徒：

Richard Sutton有“強化學習之父”的美名。

Andrew Barto是Sutton的博導。

自1980年代起，

兩位均對強化學習持續(xù)做出奠基性貢獻。

一邊是企業(yè)界的前沿技術突破，

另一邊則是對強化學習理論基礎的權威認可。

這兩者實際上是相輔相成的，

正是幾十年前奠定的堅實理論基礎，

才使得今天我們能夠在工業(yè)界實現如此驚人的技術突破。向強化學習開創(chuàng)者的致敬，向DeepSeek R1團隊，向阿里千問團隊，用強化學習推動模型技術進步的工程師致敬。

第二點，在推理模型大火之后，

大家都只做推理模型這一種類型了嗎？

當然不是。

這里就不得不把Claude 3.7 Sonnet這個模型拉出來對比一下。

這也是一個剛剛（2月25日）放出來的新模型，

是Claude 3.5 Sonnet的升級版。

不得不感慨一句，版本號增長得如此之快，

可見軟件版本迭代得多快，

可見其背后的技術進展有多快。

AI的競爭有多激烈。

我特別強調，Claude 3.7 Sonnet模型的技術路線，

和QwQ-32B模型大不一樣，完全不同。

QwQ-32B模型強調推理性能，

是一個獨立的推理模型，

而Claude 3.7 Sonnet模型有推理能力（慢思考），

但是Claude團隊把快慢思考集成在一個模型里了，

你想用哪個就選哪個。

特別注意的是，

選擇按鈕的背后是一個“二合一”的模型，

而不是一個“選項”一個模型，

技術博客上的表述是，人類使用同一個大腦，

既能靜心思考，又有快速反應。

阿里是否也在做和Claude團隊類似的事情，

不得而知。

但是你用推理模型去快問快答簡單問題，

肯定不合適，

比如，你問推理模型“你好”，

模型推理一番回答你，

或者是啰啰嗦嗦回答一堆。

比如，下面這種肯定不行，

日后定會想辦法解決。

第三點，為什么QWQ-32B可達到DeepSeek R1的“智商”水平？

尤其是在尺寸差了一個量級的情況下。

在MoE模型出道之后，

模型參數規(guī)模不再是名字上掛的那個數字，

比如，DeepSeek R1擁有6710億的巨大的參數量，但由于創(chuàng)新性地使用了MoE架構，以及MLA（多頭潛在注意力機制）的方法，每次推理僅激活370億參數（占比總量6%）。這使得DeepSeek R1雖然整體參數量很大，但干活時只需要動用極小的一部分力量。

MoE模型是稀疏模型，

也就是說，并不是每個計算步驟都會用到全部的模型參數，而是通過選取一些專家來參與計算。就好比，有一個專家?guī)欤敲看胃苫畈皇菍＜規(guī)炖锏膶＜胰w出動。

DeepSeek R1的驚人之處在于，

1個共享專家和256個專家，

實際上，歷史上，哪個MoE模型也從來沒有過達到如此龐大的專家數量。專家多了一時爽，那就問負載均衡怎么辦？

當然DeepSeek處理得很好，

但是這篇文章不聊這個，按下不表。

DeepSeek每次通過路由專家，只選8個模型，

也就是說只有8個專家干活了，其他閑著。

那么問題來了，你統(tǒng)計工作量的時候，

是不是只算這8個（僅激活370億參數）就夠了。

于是，真正用來比較的，

是千問QWQ-32B和DeepSeek R1模型的37B。

“閑置專家”不在考慮范圍內。

比模型整個的參數規(guī)模更難理解的是真正“參與工作”的參數，這個問題確實是伴隨著MoE模型而出現的，從激活量來看，32B（320億參數）比37B（370億參數）少不了多少，這是一種進步。

激活量少了，隨之而來的是，成本降低，性價比提高。另有一個關鍵點，阿里通義千問團隊的這個模型是每個專家每次都在干活，而DeepSeek R1模型是每次干活是不同的專家。因為MoE的大參數量可不是吃白飯的，

MoE的全量大參數對模型能力極有加成，對于每個token激活的是不同的37B（370億參數）這個時候，我想說，QWQ-32B的專家還挺能打的，畢竟DeepSeek R1模型的整體專家數量在這里擺著，長期干活的專家要會更多知識才能和擅長不同的更細分的領域的“當值專家”一較高下。

看到這里，我挺激動的，再次為千問團隊高興。

而我更高興的是，DeepSeek最大的價值不是被膜拜，而是被超越。

（完）

One More thing

玩MoE模型，如何榨干芯片性能？

這個問題的答案得問DeepSeek，

他們將MoE技術拉到一個新高度，

又在分布式計算，通信庫等底層基礎設施方面大大下了一番功夫，

恭喜DeepSeek，喜提成本利潤率545%，

每秒輸出吞吐量約1.5萬tokens。

（官宣數據14.8k tokens/s）。

我最近聊天的口頭禪就是：

“人家DeepSeek每秒輸出吞吐一萬五，

友商吞吐原地杵。”

一萬五是一次綜合實力的大檢閱。

數字這么好看，這真是一件好事，

整個系統(tǒng)的吞吐量越大越好，

問題在于怎么把吞吐做上去。

人人都知道要榨干芯片性能，

問題在于怎么榨干。

一個模型在某種型號的芯片上跑起來，

這個系統(tǒng)的總吞吐量的理論峰值，

是由芯片性能決定的。

芯片性能是上限，

也是工程團隊竭盡全力接近的目標。

做出極高的總吞吐量，夢寐以求。

也就是說，有N個廠商，

每個都跑同樣的DeepSeek R1模型，

每個廠商都用同樣數量的芯片，

誰做到的總吞吐量最高，誰就最賺錢。

這門生意本質就是這點了。

對比一些友商和DeepSeek的吞吐，

DeepSeek高了10倍。

至于為何是10倍，得拿另外一篇文章來講。

有興趣的讀者，請在文末留言扣數字1。

阿里千問團隊也有MoE模型的經驗。

或者這么說，DeepSeek的基礎設施是為MOE設計的，效率非常之高，給誰一時都很難超越，不如在自己擅長的技術路線上發(fā)展。那天，我和武漢人工智能研究院王金橋院長一起吃拉面，他還給我科普：“MoE（稀疏）模型適合大型To C業(yè)務量，Dense（稠密）適合To B業(yè)務量。”

阿里選擇稠密模型的理由非常充分，

云計算廠商就是服務To B業(yè)務的。

一周之后，DeepSeek就搞了開源周，

不得不說，慷慨開源很多MoE底層技術，

商業(yè)機密肯定還有很多。

我所知道的是，

稀疏和稠密是兩種完全不同的技術路線，

榨干芯片性能的方法完全不一樣，

把稠密技術路線調為MoE稀疏技術路線談何容易。

當DeepSeek橫空出世，不只是模型，

而是模型帶著它的榨干芯片性能的全套方案一起橫空出世，這可是MoE專屬方案。

這時，有一個選擇題擺在大模型廠商面前，

在致敬和學習之后，也要做MoE模型嗎？

這個問題我特別想問千問團隊的人，

無奈周靖人把團隊看得太嚴了。

此時，我想，他們已經給我答案了。

我們回憶一下，在DeepSeek爆火之前，

通義千問72B橫掃企業(yè)級市場，

無論中國，還是美國，頭部科技大廠內部都在悄悄用通義千問72B。阿里千問團隊和美國Meta公司（Llama）選擇同一種開源市場策略。

面對令人尊敬的挑戰(zhàn)者，

阿里交出了自己的答卷。

競爭還在繼續(xù)。

（完）

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

親愛的數據

《我看見了風暴：人工智能基建革命》一書作者

693文章數 219913關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

藝術

健康

時尚

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

尺寸差了一個量級，如何較量？DeepSeek R1與阿里QwQ-32B

折疊屏iPhone要來了，富士康已在試產！

特朗普咆哮式發(fā)帖威脅伊朗 美政界人士：他像精神錯亂

特朗普咆哮式發(fā)帖威脅伊朗 美政界人士：他像精神錯亂

球員系列賽大滿貫！趙心童10-3世界第一 加冕賽季第4冠

唐嫣羅晉新加坡遛娃，6歲女兒身高搶鏡

史詩級暴跌"一周年" A股接下來如何走？

阿維塔06T快上市了 旅行車還能這么玩？

態(tài)度原創(chuàng)

微星泰坦18 Ultra 2026游戲本上市，頂配售價47999元

725米，16億美元！迪拜“世界第二高樓”，戰(zhàn)火中推進

干細胞抗衰4大誤區(qū),90%的人都中招

女人不管多大年紀都要準備件西裝！不過時、不花哨，得體百搭

特朗普咆哮式發(fā)帖威脅伊朗美政界人士：他像精神錯亂

特朗普咆哮式發(fā)帖威脅伊朗美政界人士：他像精神錯亂

球員系列賽大滿貫！趙心童10-3世界第一加冕賽季第4冠

阿維塔06T快上市了旅行車還能這么玩？