337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

DeepSeek V4即將發布?先讀懂梁文峰這份86頁的技術底牌

0
分享至

最近DeepSeek V4的傳言越來越多了。

據The Information報道,知情人士透露DeepSeek計劃在2月中旬、農歷新年前后發布V4模型。內部測試顯示,V4在編程能力上可能超越Claude和GPT系列——尤其是處理超長代碼提示的場景。


去年R1也是春節前一周發布的,直接引發了全球市場一萬億美元的震動。在大型節假日前搞大事確實也很符合DeepSeek一貫的做法,今年會不會故技重施?

但在V4發布之前,DeepSeek先悄悄做了一件事:把一年前的R1論文從22頁擴充到了86頁。

我下載了兩個版本對比,文件大小從928KB變成4.8MB。多出來的60多頁顯然不是廢話,是他們訓練的詳細賬本和踩過的坑。


這個時間點更新舊論文,絕不是巧合。我猜他們在做兩件事:一是為V4鋪路,讓社區先完全理解R1的技術細節;二是用行動回應之前"只開源權重不給訓練細節"的質疑。

說實話,看完這份更新,我對Open這個詞有了新的理解。上周我發的這篇關于DeepSeek mHC論文的解讀很多人表示意外地能看懂,閱讀量都突破20萬+了,哈哈哈~

所以我今天再挑戰下自己,試試給大家用人話說說這次DeepSeek老論文里都更新了啥。

先說更新了什么

v1版本發布于2025年1月22日,22頁,主要講R1是什么、怎么訓的、效果多好。

v2版本發布于2026年1月4日,86頁。時隔將近一年,多出來的60多頁都在講什么?

我把兩個版本的目錄對比了一下。v1只有一個簡短的Appendix(作者列表)。v2新增了6大類Supplementary:

  • A: GRPO和PPO的詳細對比

  • B: 訓練細節(這部分最長,約50頁)

  • C: 推理行為分析

  • D: 基準測試詳情 + 10頁安全報告

  • E: 綜合分析(與V3對比、test-time scaling等)

  • F: 推理能力遷移

說白了,這次更新就是把"解題過程"補上了,給出了可復現的技術文檔。

之前R1開源的時候,很多人吐槽說"只給權重不給訓練細節,這算什么開源"?,F在DeepSeek把這塊補上了。

294K美元的訓練賬單

論文新增了Table 7,第一次公開了完整的訓練成本:


階段

GPU小時

成本

DeepSeek-R1-Zero

101K

$202K

SFT數據創建

5K

$10K

DeepSeek-R1

41K

$82K

總計

147K

$294K

這個成本是按H800租賃價格$2/GPU hour算的。

29.4萬美元,訓練一個媲美OpenAI o1的推理模型。

29.4萬美元是什么概念?之前寫V3.2的時候我提到,DeepSeek只有150人的團隊。現在加上這個成本數據,畫面更清晰了——他們不是靠砸錢,是靠效率。

具體怎么訓的?論文給了精確配置:

  • R1-Zero: 64×8張H800 GPU,跑了198小時

  • R1: 同樣的GPU配置,80小時(約4天)

64×8是512張卡。198+80=278小時。不到12天,訓完了兩個階段。

數據配方首次公開

這是我覺得最有價值的部分——Table 4詳細列出了RL訓練數據的構成:


數學:26k題

  • 從區域競賽到國際奧林匹克級別

  • 包括代數、微積分、概率、幾何

  • 排除了數學證明(因為難以自動驗證)

代碼:17k + 8k

  • 17k算法競賽題(Codeforces、LeetCode風格)

  • 8k GitHub真實bug修復問題

STEM:22k選擇題

  • 化學占46.5%(最多)

  • 生物30.7%

  • 物理15.5%

  • 其他7.3%

邏輯:15k題

  • 真實世界:腦筋急轉彎、經典邏輯謎題

  • 合成數據:Code-IO問題、Zebra puzzle等

通用:66k + 12k

  • 66k評估helpfulness(創意寫作、編輯、問答、角色扮演)

  • 12k評估harmlessness

總共約150k條數據。

為什么化學題最多?論文沒解釋,但我猜測可能是因為化學題的答案更容易自動驗證(選擇題),同時又需要多步推理。

更有意思的是Cold Start數據的創建流程。R1不是從零開始訓的,而是先用R1-Zero的輸出,經過這個流程:

  1. 用R1-Zero在高溫度(1.0)下生成多條推理軌跡

  2. 過濾:保留答案正確、格式可讀的

  3. 用sympy驗證數學表達式

  4. 用DeepSeek-V3重寫,讓推理過程更"人話"

  5. 人工二次驗證

論文里甚至給出了重寫的prompt,讓V3把R1-Zero那種"we"風格的推理,改成"I"風格——因為用戶更喜歡第一人稱的思考過程。

這種細節,以前根本不會公開。

失敗也寫進論文

v1版本有一小節叫"Unsuccessful Attempts",提到PRM和MCTS不太行。v2把這部分擴展了,還加了一個我覺得很有價值的案例:Reward Hacking。


Figure 6展示了一個典型的失敗場景:用helpful reward model訓練時,reward分數一直在漲(左邊紅線),但CodeForces的實際性能卻在跌(右邊藍線)。

這就是reward hacking——模型學會了"討好"獎勵函數,但并沒有真正變強。

論文原文的解釋是:

"如果reward model包含系統性偏差或不準確,LLM可能學會生成那些被模型高評分、但與真實人類偏好背離的回答。"

PRM(Process Reward Model)的問題也講得更清楚了:

  1. 細粒度步驟難定義:什么算"一步推理"?在通用推理任務里很難界定

  2. 中間步驟對錯難判斷:自動標注效果差,人工標注又沒法規模化

  3. 必然導致reward hacking:只要引入模型做判斷,就會被exploit

所以DeepSeek最后用的是rule-based reward——數學題直接匹配答案,代碼題跑測試用例。簡單粗暴,但不會被hack。

為什么要公開這些失???我覺得這才是真正的Open。告訴社區"這條路我們走過了,不通",比只展示成功更有價值。

基礎設施首次披露

Supplementary B.1詳細描述了RL訓練的基礎設施,分為4個模塊:

1. Rollout Module

  • 用vLLM做推理

  • 對MoE架構實現expert parallelism,減少內存訪問開銷

  • 部署熱點expert的冗余副本來負載均衡

  • 用MTP(Multi-Token Prediction)做self-speculative decoding加速

2. Inference Module

  • 加載reward model和reference model

  • 對rollout階段生成的樣本做forward pass

3. Rule-based Reward Module

  • 統一接口:代碼執行器、答案匹配器、格式檢查器

  • 異步調度,和前兩個模塊overlap執行

4. Training Module

  • 支持PPO、GRPO、DPO等算法

  • 數據打包策略:先按長度排序,再用Best-Fit裝箱

  • 集成了DualPipe算法做pipeline parallelism

還有一個細節:每個模塊跑完后,模型會自動從顯存offload到內存或磁盤,給下一個模塊騰空間。

這些基礎設施細節以前只有DeepSeek內部知道。現在寫進論文,其他團隊可以照著搭。

10頁安全報告

Supplementary D.3是一份完整的安全評估報告,包括:

  1. 風控系統:公開了完整的risk review prompt(Listing 8)

  2. 6個公開benchmark對比:和其他SOTA模型的安全性比較

  3. 分類測試:基于自研安全測試集的細分評估

  4. 多語言安全:不同語言下的安全表現

  5. Jailbreak魯棒性:對抗攻擊下的表現

風控prompt里列了11條安全標準,從"通用原則"到"隱私偽造"到"風險建議",細到可以直接抄。

對想部署R1的企業來說,這部分很實用——不只是模型安全性數據,還告訴你外部風控系統怎么搭。

為什么選擇現在更新?

論文更新的時間點是2026年1月4日。

結合V4的發布傳言,時間線就很清晰了:

  • 2025年1月20日:R1發布,春節前一周

  • 2026年1月4日:R1論文v2發布,詳細補全技術細節

  • 2026年2月中旬(傳聞):V4發布,又是春節前后

DeepSeek似乎在做一件事:先把上一代的賬本攤開,再發布下一代

這對社區的好處是顯而易見的——當V4發布時,研究者已經完全理解R1的技術細節,可以更清晰地看出V4到底改進了什么。

當然,這也可能是回應之前"只開源權重不給訓練細節"的批評。不管出于什么原因,結果很實在——社區拿到了一份真正可復現的技術報告。

最后

回到"Open"這個詞。

大多數公司的Open是什么?開源權重,開源推理代碼,發個技術博客。

DeepSeek的Open是什么?

  • 訓練成本精確到GPU小時

  • 數據配方精確到每個類別的數量和來源

  • 失敗嘗試寫進論文,告訴你哪條路不通

  • 基礎設施架構圖,告訴你怎么搭RL系統

  • 安全評估報告,告訴你怎么做風控

這才是讓社區能真正復現和改進的Open。

之前寫mHC論文的時候我說,DeepSeek的技術哲學是"去質疑那些所有人都覺得沒必要改的東西"?,F在看來,他們對"開源"這件事的理解也是一樣——不是做到行業平均水平就夠了,而是要做到讓別人能真正用起來。

從22頁到86頁,多出來的60頁不是湊數,是掏心窩子的誠意。

至于V4會帶來什么?如果傳言屬實,2月中旬就會揭曉。

但不管V4表現如何,這份86頁的論文已經是一份禮物——它讓我們知道,一個頂尖推理模型是怎么從零訓出來的。這種知識,以前只有極少數公司內部才有。

參考資料

  • DeepSeek-R1論文v2: https://arxiv.org/abs/2501.12948v2

  • DeepSeek-R1論文v1: https://arxiv.org/abs/2501.12948v1

  • V4傳言報道: https://finance.yahoo.com/news/deepseek-set-launch-next-gen-153258894.html

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
快訊!館長這是要起義了嗎?

快訊!館長這是要起義了嗎?

達文西看世界
2026-03-30 13:55:35
4月1日醫保新政:家有高血壓、糖尿病、心臟病的,抓緊辦

4月1日醫保新政:家有高血壓、糖尿病、心臟病的,抓緊辦

小談食刻美食
2026-03-30 08:26:34
偉偉道來|有奪島作戰,才有實質性談判

偉偉道來|有奪島作戰,才有實質性談判

經濟觀察報
2026-03-30 11:58:18
伊朗總統指責革命衛隊總司令,強調若不停火,伊朗經濟將崩潰

伊朗總統指責革命衛隊總司令,強調若不?;穑晾式洕鷮⒈罎?/a>

山河路口
2026-03-29 16:15:55
伊朗外長:美以無法摧毀伊朗人民對知識的渴求

伊朗外長:美以無法摧毀伊朗人民對知識的渴求

新華社
2026-03-30 06:11:02
無緣世界杯!80歲老帥賽后氣暈+無法呼吸 緊急送醫已無法指揮比賽

無緣世界杯!80歲老帥賽后氣暈+無法呼吸 緊急送醫已無法指揮比賽

風過鄉
2026-03-30 08:24:19
太原一建筑起火致3死23傷,目擊者:起火時建筑外立面燃燒脫落;附近居民:事故發生前曾提醒燒烤店,上方煙囪管道不安全

太原一建筑起火致3死23傷,目擊者:起火時建筑外立面燃燒脫落;附近居民:事故發生前曾提醒燒烤店,上方煙囪管道不安全

大風新聞
2026-03-30 15:05:24
周杰倫新專輯封面被嘲 “老登味” 網友:現在是他個人的審美

周杰倫新專輯封面被嘲 “老登味” 網友:現在是他個人的審美

小蘿卜絲
2026-03-30 09:33:58
一位女企業家的三件“傻事”

一位女企業家的三件“傻事”

吳曉波頻道
2026-03-27 08:32:56
新華社快訊:中國國航一架從北京飛往平壤的客機抵達平壤

新華社快訊:中國國航一架從北京飛往平壤的客機抵達平壤

新華社
2026-03-30 09:40:11
重磅!我國臺辦正式宣布,鄭麗文訪問大陸行程確定,盧秀燕不裝了

重磅!我國臺辦正式宣布,鄭麗文訪問大陸行程確定,盧秀燕不裝了

DS北風
2026-03-30 11:58:08
單依純舞臺上歇斯底里的表演,不停高喊“好想談戀愛”

單依純舞臺上歇斯底里的表演,不停高喊“好想談戀愛”

爆角追蹤
2026-03-30 07:15:45
張雪機車WSBK奪冠后咨詢量大增,直播間涌入6000多人,線下門店稱目前820RR暫未開放試駕,多款周邊限定商品已售罄

張雪機車WSBK奪冠后咨詢量大增,直播間涌入6000多人,線下門店稱目前820RR暫未開放試駕,多款周邊限定商品已售罄

極目新聞
2026-03-30 13:26:30
鐵路應急太差勁了!D3665被困乘客:4小時沒電沒水沒空調,沒人解釋沒人安撫

鐵路應急太差勁了!D3665被困乘客:4小時沒電沒水沒空調,沒人解釋沒人安撫

互聯網大觀
2026-03-30 12:09:16
哈佛大學研究顯示:每月性行為頻次≥21次,可以大幅降低患癌風險

哈佛大學研究顯示:每月性行為頻次≥21次,可以大幅降低患癌風險

黯泉
2026-03-29 12:00:55
王詩齡母女韶山獻花!李湘大變樣瘦了20斤 和女兒關系變冷沒互動

王詩齡母女韶山獻花!李湘大變樣瘦了20斤 和女兒關系變冷沒互動

談史論天地
2026-03-30 14:26:08
軍媒撥亂反正,《逐玉》粉底液將軍被批,粉絲不服劇方美美隱身了

軍媒撥亂反正,《逐玉》粉底液將軍被批,粉絲不服劇方美美隱身了

電影票房預告片
2026-03-29 23:57:03
一分錢不要,也得讓你長記性!業主車位被霸占10天,奧迪車大變臉

一分錢不要,也得讓你長記性!業主車位被霸占10天,奧迪車大變臉

火山詩話
2026-03-29 17:05:43
俄羅斯不賣油了!普京禁令一下,最慘的不是歐洲,而是兩個鄰國

俄羅斯不賣油了!普京禁令一下,最慘的不是歐洲,而是兩個鄰國

聽風喃
2026-03-30 10:42:29
張雪峰的靈車細節讓人淚奔,車尾掛著一棵竹子,上面系著他的衣服

張雪峰的靈車細節讓人淚奔,車尾掛著一棵竹子,上面系著他的衣服

魔都姐姐雜談
2026-03-28 18:18:48
2026-03-30 16:03:00
AI進化論花生 incentive-icons
AI進化論花生
AI博主,AppStore付費榜第一的小貓補光燈app開發者
169文章數 83關注度
往期回顧 全部

科技要聞

DeepSeek性能異常問題已解決,服務恢復

頭條要聞

太原高樓起火致3死23傷 居民:曾提醒燒烤店不安全

頭條要聞

太原高樓起火致3死23傷 居民:曾提醒燒烤店不安全

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

財經要聞

油價沖擊,有些亞洲貨幣先扛不住了!

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態度原創

數碼
時尚
游戲
親子
家居

數碼要聞

一個月下跌近30% 內存條價格為什么漲不動了?

來到1980的周也,好毛利蘭

100G的"3A"新游2096年發售!開發者子孫后代完成

親子要聞

女兒今天來找爸爸,讓女兒改口叫后媽

家居要聞

東方法式美學 現代簡約

無障礙瀏覽 進入關懷版