337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

尺寸差了一個量級,如何較量?DeepSeek R1與阿里QwQ-32B

0
分享至



原創(chuàng):親愛的數據

2025年3月6日,

阿里通義千問團隊推出推理模型

QwQ-32B大語言模型。

看似普通的一則新聞,

發(fā)布了一個模型這么件事。

阿里尚未發(fā)布詳細的技術報告來解釋QwQ是如何開發(fā)的,甚至新聞官網只有742個字。

《QwQ-32B:擁抱強化學習的力量》





該怎么理解呢?

我的理解,

QwQ-32B是一款稠密(又稱密集)推理模型。

雖然只有一句話,但是信息量很大。

想讀懂的話,要很多“知識儲備”,

什么是MoE(混合專家模型)?

什么是稠密模型?

什么是推理模型?

模型參數規(guī)模怎么對比?

背后隱藏的不少問題都可展開聊,

不如,聊聊有哪些結論?





第一點,QWQ模型有一個系列,

阿里在上一版的基礎上,

用了R1也同樣用了的強化學習技術。

好消息是出效果了,不出效果不會放出來。

畢竟這個是開源模型,

只有閉源模型才愿意買廣告胡吹,

開源模型則不需要。

反觀很多大模型友商,

還停留在花錢買彩虹屁的石器時代。

在開源打得如此激烈的當下,顯得尤為又自嗨。

拋開“強不強”不聊,

要知道大模型技術人員的知識體系涇渭分明,

你是做視覺的,就是視覺;

你是自然語言處理的就是自然語言處理,

而強化學習是另外一套知識體系。

強化學習這條道路,

大模型團隊里沒有點技術儲備都發(fā)不了力。

阿里畢竟是阿里,

看到強化學習的天花板還能往上推,

就毫不猶豫地往上推。

恭喜阿里出效果,恭喜團隊奮戰(zhàn)有成績。

無獨有偶,一天之前,

2024年的圖靈獎頒給了一對著名的師徒:

Richard Sutton有“強化學習之父”的美名。

Andrew Barto是Sutton的博導。

自1980年代起,

兩位均對強化學習持續(xù)做出奠基性貢獻。

一邊是企業(yè)界的前沿技術突破,

另一邊則是對強化學習理論基礎的權威認可。

這兩者實際上是相輔相成的,

正是幾十年前奠定的堅實理論基礎,

才使得今天我們能夠在工業(yè)界實現如此驚人的技術突破。向強化學習開創(chuàng)者的致敬,向DeepSeek R1團隊,向阿里千問團隊,用強化學習推動模型技術進步的工程師致敬。





第二點,在推理模型大火之后,

大家都只做推理模型這一種類型了嗎?

當然不是。

這里就不得不把Claude 3.7 Sonnet這個模型拉出來對比一下。

這也是一個剛剛(2月25日)放出來的新模型,

是Claude 3.5 Sonnet的升級版。

不得不感慨一句,版本號增長得如此之快,

可見軟件版本迭代得多快,

可見其背后的技術進展有多快。

AI的競爭有多激烈。





我特別強調,Claude 3.7 Sonnet模型的技術路線,

和QwQ-32B模型大不一樣,完全不同。

QwQ-32B模型強調推理性能,

是一個獨立的推理模型,

而Claude 3.7 Sonnet模型有推理能力(慢思考),

但是Claude團隊把快慢思考集成在一個模型里了,

你想用哪個就選哪個。



特別注意的是,

選擇按鈕的背后是一個“二合一”的模型,

而不是一個“選項”一個模型,

技術博客上的表述是,人類使用同一個大腦,

既能靜心思考,又有快速反應。

阿里是否也在做和Claude團隊類似的事情,

不得而知。

但是你用推理模型去快問快答簡單問題,

肯定不合適,

比如,你問推理模型“你好”,

模型推理一番回答你,

或者是啰啰嗦嗦回答一堆。

比如,下面這種肯定不行,

日后定會想辦法解決。





第三點,為什么QWQ-32B可達到DeepSeek R1的“智商”水平?

尤其是在尺寸差了一個量級的情況下。

在MoE模型出道之后,

模型參數規(guī)模不再是名字上掛的那個數字,

比如,DeepSeek R1擁有6710億的巨大的參數量,但由于創(chuàng)新性地使用了MoE架構,以及MLA(多頭潛在注意力機制)的方法,每次推理僅激活370億參數(占比總量6%)。這使得DeepSeek R1雖然整體參數量很大,但干活時只需要動用極小的一部分力量。

MoE模型是稀疏模型,

也就是說,并不是每個計算步驟都會用到全部的模型參數,而是通過選取一些專家來參與計算。就好比,有一個專家?guī)欤敲看胃苫畈皇菍<規(guī)炖锏膶<胰w出動。

DeepSeek R1的驚人之處在于,

1個共享專家和256個專家,

實際上,歷史上,哪個MoE模型也從來沒有過達到如此龐大的專家數量。專家多了一時爽,那就問負載均衡怎么辦?



當然DeepSeek處理得很好,

但是這篇文章不聊這個,按下不表。

DeepSeek每次通過路由專家,只選8個模型,

也就是說只有8個專家干活了,其他閑著。

那么問題來了,你統(tǒng)計工作量的時候,

是不是只算這8個(僅激活370億參數)就夠了。

于是,真正用來比較的,

是千問QWQ-32B和DeepSeek R1模型的37B。

“閑置專家”不在考慮范圍內。

比模型整個的參數規(guī)模更難理解的是真正“參與工作”的參數,這個問題確實是伴隨著MoE模型而出現的,從激活量來看,32B(320億參數)比37B(370億參數)少不了多少,這是一種進步。

激活量少了,隨之而來的是,成本降低,性價比提高。另有一個關鍵點,阿里通義千問團隊的這個模型是每個專家每次都在干活,而DeepSeek R1模型是每次干活是不同的專家。因為MoE的大參數量可不是吃白飯的,

MoE的全量大參數對模型能力極有加成,對于每個token激活的是不同的37B(370億參數)這個時候,我想說,QWQ-32B的專家還挺能打的,畢竟DeepSeek R1模型的整體專家數量在這里擺著,長期干活的專家要會更多知識才能和擅長不同的更細分的領域的“當值專家”一較高下。

看到這里,我挺激動的,再次為千問團隊高興。

而我更高興的是,DeepSeek最大的價值不是被膜拜,而是被超越。

(完)

One More thing

玩MoE模型,如何榨干芯片性能?

這個問題的答案得問DeepSeek,

他們將MoE技術拉到一個新高度,

又在分布式計算,通信庫等底層基礎設施方面大大下了一番功夫,

恭喜DeepSeek,喜提成本利潤率545%,

每秒輸出吞吐量約1.5萬tokens。

(官宣數據14.8k tokens/s)。

我最近聊天的口頭禪就是:

“人家DeepSeek每秒輸出吞吐一萬五,

友商吞吐原地杵。”

一萬五是一次綜合實力的大檢閱。

數字這么好看,這真是一件好事,

整個系統(tǒng)的吞吐量越大越好,

問題在于怎么把吞吐做上去。

人人都知道要榨干芯片性能,

問題在于怎么榨干。

一個模型在某種型號的芯片上跑起來,

這個系統(tǒng)的總吞吐量的理論峰值,

是由芯片性能決定的。

芯片性能是上限,

也是工程團隊竭盡全力接近的目標。

做出極高的總吞吐量,夢寐以求。

也就是說,有N個廠商,

每個都跑同樣的DeepSeek R1模型,

每個廠商都用同樣數量的芯片,

誰做到的總吞吐量最高,誰就最賺錢。

這門生意本質就是這點了。

對比一些友商和DeepSeek的吞吐,

DeepSeek高了10倍。

至于為何是10倍,得拿另外一篇文章來講。

有興趣的讀者,請在文末留言扣數字1。

阿里千問團隊也有MoE模型的經驗。

或者這么說,DeepSeek的基礎設施是為MOE設計的,效率非常之高,給誰一時都很難超越,不如在自己擅長的技術路線上發(fā)展。那天,我和武漢人工智能研究院王金橋院長一起吃拉面,他還給我科普:“MoE(稀疏)模型適合大型To C業(yè)務量,Dense(稠密)適合To B業(yè)務量。”

阿里選擇稠密模型的理由非常充分,

云計算廠商就是服務To B業(yè)務的。

一周之后,DeepSeek就搞了開源周,

不得不說,慷慨開源很多MoE底層技術,

商業(yè)機密肯定還有很多。

我所知道的是,

稀疏和稠密是兩種完全不同的技術路線,

榨干芯片性能的方法完全不一樣,

把稠密技術路線調為MoE稀疏技術路線談何容易。

當DeepSeek橫空出世,不只是模型,

而是模型帶著它的榨干芯片性能的全套方案一起橫空出世,這可是MoE專屬方案。

這時,有一個選擇題擺在大模型廠商面前,

在致敬和學習之后,也要做MoE模型嗎?

這個問題我特別想問千問團隊的人,

無奈周靖人把團隊看得太嚴了。

此時,我想,他們已經給我答案了。

我們回憶一下,在DeepSeek爆火之前,

通義千問72B橫掃企業(yè)級市場,

無論中國,還是美國,頭部科技大廠內部都在悄悄用通義千問72B。阿里千問團隊和美國Meta公司(Llama)選擇同一種開源市場策略。

面對令人尊敬的挑戰(zhàn)者,

阿里交出了自己的答卷。

競爭還在繼續(xù)。



(完)

聲明:個人原創(chuàng),僅供參考

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
35歲傅彪兒子,住豪宅生活奢華,單身滿頭白發(fā),走上了“不歸路”

35歲傅彪兒子,住豪宅生活奢華,單身滿頭白發(fā),走上了“不歸路”

林輕吟
2026-04-02 19:51:37
足總杯半決賽抽簽引爭議:切爾西避開曼城被指“有劇本”?

足總杯半決賽抽簽引爭議:切爾西避開曼城被指“有劇本”?

星耀國際足壇
2026-04-06 21:43:37
NASA 分享阿爾忒彌斯 2 號使用 iPhone 17 Pro Max 拍攝的照片

NASA 分享阿爾忒彌斯 2 號使用 iPhone 17 Pro Max 拍攝的照片

威鋒網
2026-04-06 19:10:09
三月必吃這4種“強肝菜”!助眠、清火、增免疫,正當季別錯過

三月必吃這4種“強肝菜”!助眠、清火、增免疫,正當季別錯過

距離距離
2026-03-30 05:32:30
1938年老蔣制造黃河決堤,日軍淹死數量驚人,真實情況你可能不信

1938年老蔣制造黃河決堤,日軍淹死數量驚人,真實情況你可能不信

浩舞默畫
2026-04-06 09:22:04
救援完成,美以大概率明晚開始全面轟炸伊朗、最快8日上午登島

救援完成,美以大概率明晚開始全面轟炸伊朗、最快8日上午登島

邵旭峰域
2026-04-06 12:45:36
從球場球友到詐騙嫌犯,“濤哥”欺騙郭艾倫,千萬騙局終被曝光

從球場球友到詐騙嫌犯,“濤哥”欺騙郭艾倫,千萬騙局終被曝光

科學發(fā)掘
2026-04-06 19:18:46
帕金斯炮轟湖人隊醫(yī):讓東契奇出戰(zhàn)是"史上最蠢的事",應接受調查

帕金斯炮轟湖人隊醫(yī):讓東契奇出戰(zhàn)是"史上最蠢的事",應接受調查

愛體育
2026-04-06 22:05:32
寧可用第三中鋒也不給他機會,湖人對于艾頓的使用明顯存在問題?

寧可用第三中鋒也不給他機會,湖人對于艾頓的使用明顯存在問題?

稻谷與小麥
2026-04-06 22:02:31
兵敗如山倒!國產新能源,撕下了二線豪華品牌最后的“遮羞布”

兵敗如山倒!國產新能源,撕下了二線豪華品牌最后的“遮羞布”

羽逸地之光
2026-04-06 05:44:43
我國首位女航天員劉洋,結婚8年未生子,臨行前給丈夫留下2條遺言

我國首位女航天員劉洋,結婚8年未生子,臨行前給丈夫留下2條遺言

霽寒飄雪
2026-04-01 07:40:42
第95波打擊!美國命門被炸,特朗普:快停火!中方已回應伊朗求援

第95波打擊!美國命門被炸,特朗普:快停火!中方已回應伊朗求援

夢史
2026-04-06 04:34:22
不是病死的,而是治死的?這5病不去醫(yī)院活得更久?醫(yī)生說出答案

不是病死的,而是治死的?這5病不去醫(yī)院活得更久?醫(yī)生說出答案

健康之光
2026-04-03 22:20:03
絕地求生48小時:美軍F-15E飛行員伊朗腹地大營救全紀實

絕地求生48小時:美軍F-15E飛行員伊朗腹地大營救全紀實

戰(zhàn)刃
2026-04-05 20:06:10
反彈!集體上漲!“停火協議”刷屏!

反彈!集體上漲!“停火協議”刷屏!

新浪財經
2026-04-06 17:37:28
馬來西亞的“保護費”,比亞迪憑什么交?

馬來西亞的“保護費”,比亞迪憑什么交?

民間胡扯老哥
2026-04-05 21:52:01
民進黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨大政黨

民進黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨大政黨

李橑在北漂
2026-04-02 10:22:26
布洛芬堆滿曹操墓!這個清明節(jié),曹操火了,現代人最懂他的需求

布洛芬堆滿曹操墓!這個清明節(jié),曹操火了,現代人最懂他的需求

魔都姐姐雜談
2026-04-06 06:04:25
Super Junior演唱會欄桿斷裂,多名粉絲從高處墜落,公司凌晨發(fā)文致歉:安全圍欄倒塌致3名觀眾跌落受傷,將為受傷觀眾提供治療支持

Super Junior演唱會欄桿斷裂,多名粉絲從高處墜落,公司凌晨發(fā)文致歉:安全圍欄倒塌致3名觀眾跌落受傷,將為受傷觀眾提供治療支持

極目新聞
2026-04-06 09:45:30
蒙古大變天,就在所有人以為新總理必反華時,他卻對華正式交底了

蒙古大變天,就在所有人以為新總理必反華時,他卻對華正式交底了

共工之錨
2026-04-04 19:42:32
2026-04-06 22:35:00
親愛的數據 incentive-icons
親愛的數據
《我看見了風暴:人工智能基建革命》一書作者
693文章數 219913關注度
往期回顧 全部

科技要聞

折疊屏iPhone要來了,富士康已在試產!

頭條要聞

特朗普咆哮式發(fā)帖威脅伊朗 美政界人士:他像精神錯亂

頭條要聞

特朗普咆哮式發(fā)帖威脅伊朗 美政界人士:他像精神錯亂

體育要聞

球員系列賽大滿貫!趙心童10-3世界第一 加冕賽季第4冠

娛樂要聞

唐嫣羅晉新加坡遛娃,6歲女兒身高搶鏡

財經要聞

史詩級暴跌"一周年" A股接下來如何走?

汽車要聞

阿維塔06T快上市了 旅行車還能這么玩?

態(tài)度原創(chuàng)

數碼
藝術
健康
時尚
公開課

數碼要聞

微星泰坦18 Ultra 2026游戲本上市,頂配售價47999元

藝術要聞

725米,16億美元!迪拜“世界第二高樓”,戰(zhàn)火中推進

干細胞抗衰4大誤區(qū),90%的人都中招

女人不管多大年紀都要準備件西裝!不過時、不花哨,得體百搭

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版