網易首頁 > 網易號 > 正文申請入駐

DeepSeek V4即將發布？先讀懂梁文峰這份86頁的技術底牌

2026-01-10 08:18:54　來源: AI進化論花生

北京舉報

分享至

最近DeepSeek V4的傳言越來越多了。

據The Information報道，知情人士透露DeepSeek計劃在2月中旬、農歷新年前后發布V4模型。內部測試顯示，V4在編程能力上可能超越Claude和GPT系列——尤其是處理超長代碼提示的場景。

去年R1也是春節前一周發布的，直接引發了全球市場一萬億美元的震動。在大型節假日前搞大事確實也很符合DeepSeek一貫的做法，今年會不會故技重施？

但在V4發布之前，DeepSeek先悄悄做了一件事：把一年前的R1論文從22頁擴充到了86頁。

我下載了兩個版本對比，文件大小從928KB變成4.8MB。多出來的60多頁顯然不是廢話，是他們訓練的詳細賬本和踩過的坑。

這個時間點更新舊論文，絕不是巧合。我猜他們在做兩件事：一是為V4鋪路，讓社區先完全理解R1的技術細節；二是用行動回應之前"只開源權重不給訓練細節"的質疑。

說實話，看完這份更新，我對Open這個詞有了新的理解。上周我發的這篇關于DeepSeek mHC論文的解讀很多人表示意外地能看懂，閱讀量都突破20萬+了，哈哈哈～

所以我今天再挑戰下自己，試試給大家用人話說說這次DeepSeek老論文里都更新了啥。

先說更新了什么

v1版本發布于2025年1月22日，22頁，主要講R1是什么、怎么訓的、效果多好。

v2版本發布于2026年1月4日，86頁。時隔將近一年，多出來的60多頁都在講什么？

我把兩個版本的目錄對比了一下。v1只有一個簡短的Appendix（作者列表）。v2新增了6大類Supplementary：

A: GRPO和PPO的詳細對比
B: 訓練細節（這部分最長，約50頁）
C: 推理行為分析
D: 基準測試詳情 + 10頁安全報告
E: 綜合分析（與V3對比、test-time scaling等）
F: 推理能力遷移

說白了，這次更新就是把"解題過程"補上了，給出了可復現的技術文檔。

之前R1開源的時候，很多人吐槽說"只給權重不給訓練細節，這算什么開源"?，F在DeepSeek把這塊補上了。

294K美元的訓練賬單

論文新增了Table 7，第一次公開了完整的訓練成本：

階段

GPU小時

成本

DeepSeek-R1-Zero

101K

$202K

SFT數據創建

$10K

DeepSeek-R1

41K

$82K

總計

147K

$294K

這個成本是按H800租賃價格$2/GPU hour算的。

29.4萬美元，訓練一個媲美OpenAI o1的推理模型。

29.4萬美元是什么概念？之前寫V3.2的時候我提到，DeepSeek只有150人的團隊。現在加上這個成本數據，畫面更清晰了——他們不是靠砸錢，是靠效率。

具體怎么訓的？論文給了精確配置：

R1-Zero: 64×8張H800 GPU，跑了198小時
R1: 同樣的GPU配置，80小時（約4天）

64×8是512張卡。198+80=278小時。不到12天，訓完了兩個階段。

數據配方首次公開

這是我覺得最有價值的部分——Table 4詳細列出了RL訓練數據的構成：

數學：26k題

從區域競賽到國際奧林匹克級別
包括代數、微積分、概率、幾何
排除了數學證明（因為難以自動驗證）

代碼：17k + 8k

17k算法競賽題（Codeforces、LeetCode風格）
8k GitHub真實bug修復問題

STEM：22k選擇題

化學占46.5%（最多）
生物30.7%
物理15.5%
其他7.3%

邏輯：15k題

真實世界：腦筋急轉彎、經典邏輯謎題
合成數據：Code-IO問題、Zebra puzzle等

通用：66k + 12k

66k評估helpfulness（創意寫作、編輯、問答、角色扮演）
12k評估harmlessness

總共約150k條數據。

為什么化學題最多？論文沒解釋，但我猜測可能是因為化學題的答案更容易自動驗證（選擇題），同時又需要多步推理。

更有意思的是Cold Start數據的創建流程。R1不是從零開始訓的，而是先用R1-Zero的輸出，經過這個流程：

用R1-Zero在高溫度（1.0）下生成多條推理軌跡
過濾：保留答案正確、格式可讀的
用sympy驗證數學表達式
用DeepSeek-V3重寫，讓推理過程更"人話"
人工二次驗證

論文里甚至給出了重寫的prompt，讓V3把R1-Zero那種"we"風格的推理，改成"I"風格——因為用戶更喜歡第一人稱的思考過程。

這種細節，以前根本不會公開。

失敗也寫進論文

v1版本有一小節叫"Unsuccessful Attempts"，提到PRM和MCTS不太行。v2把這部分擴展了，還加了一個我覺得很有價值的案例：Reward Hacking。

Figure 6展示了一個典型的失敗場景：用helpful reward model訓練時，reward分數一直在漲（左邊紅線），但CodeForces的實際性能卻在跌（右邊藍線）。

這就是reward hacking——模型學會了"討好"獎勵函數，但并沒有真正變強。

論文原文的解釋是：

"如果reward model包含系統性偏差或不準確，LLM可能學會生成那些被模型高評分、但與真實人類偏好背離的回答。"

PRM（Process Reward Model）的問題也講得更清楚了：

細粒度步驟難定義：什么算"一步推理"？在通用推理任務里很難界定
中間步驟對錯難判斷：自動標注效果差，人工標注又沒法規模化
必然導致reward hacking：只要引入模型做判斷，就會被exploit

所以DeepSeek最后用的是rule-based reward——數學題直接匹配答案，代碼題跑測試用例。簡單粗暴，但不會被hack。

為什么要公開這些失??？我覺得這才是真正的Open。告訴社區"這條路我們走過了，不通"，比只展示成功更有價值。

基礎設施首次披露

Supplementary B.1詳細描述了RL訓練的基礎設施，分為4個模塊：

1. Rollout Module

用vLLM做推理
對MoE架構實現expert parallelism，減少內存訪問開銷
部署熱點expert的冗余副本來負載均衡
用MTP（Multi-Token Prediction）做self-speculative decoding加速

2. Inference Module

加載reward model和reference model
對rollout階段生成的樣本做forward pass

3. Rule-based Reward Module

統一接口：代碼執行器、答案匹配器、格式檢查器
異步調度，和前兩個模塊overlap執行

4. Training Module

支持PPO、GRPO、DPO等算法
數據打包策略：先按長度排序，再用Best-Fit裝箱
集成了DualPipe算法做pipeline parallelism

還有一個細節：每個模塊跑完后，模型會自動從顯存offload到內存或磁盤，給下一個模塊騰空間。

這些基礎設施細節以前只有DeepSeek內部知道。現在寫進論文，其他團隊可以照著搭。

10頁安全報告

Supplementary D.3是一份完整的安全評估報告，包括：

風控系統：公開了完整的risk review prompt（Listing 8）
6個公開benchmark對比：和其他SOTA模型的安全性比較
分類測試：基于自研安全測試集的細分評估
多語言安全：不同語言下的安全表現
Jailbreak魯棒性：對抗攻擊下的表現

風控prompt里列了11條安全標準，從"通用原則"到"隱私偽造"到"風險建議"，細到可以直接抄。

對想部署R1的企業來說，這部分很實用——不只是模型安全性數據，還告訴你外部風控系統怎么搭。

為什么選擇現在更新？

論文更新的時間點是2026年1月4日。

結合V4的發布傳言，時間線就很清晰了：

2025年1月20日：R1發布，春節前一周
2026年1月4日：R1論文v2發布，詳細補全技術細節
2026年2月中旬（傳聞）：V4發布，又是春節前后

DeepSeek似乎在做一件事：先把上一代的賬本攤開，再發布下一代。

這對社區的好處是顯而易見的——當V4發布時，研究者已經完全理解R1的技術細節，可以更清晰地看出V4到底改進了什么。

當然，這也可能是回應之前"只開源權重不給訓練細節"的批評。不管出于什么原因，結果很實在——社區拿到了一份真正可復現的技術報告。

最后

回到"Open"這個詞。

大多數公司的Open是什么？開源權重，開源推理代碼，發個技術博客。

DeepSeek的Open是什么？

訓練成本精確到GPU小時
數據配方精確到每個類別的數量和來源
失敗嘗試寫進論文，告訴你哪條路不通
基礎設施架構圖，告訴你怎么搭RL系統
安全評估報告，告訴你怎么做風控

這才是讓社區能真正復現和改進的Open。

之前寫mHC論文的時候我說，DeepSeek的技術哲學是"去質疑那些所有人都覺得沒必要改的東西"?，F在看來，他們對"開源"這件事的理解也是一樣——不是做到行業平均水平就夠了，而是要做到讓別人能真正用起來。

從22頁到86頁，多出來的60頁不是湊數，是掏心窩子的誠意。

至于V4會帶來什么？如果傳言屬實，2月中旬就會揭曉。

但不管V4表現如何，這份86頁的論文已經是一份禮物——它讓我們知道，一個頂尖推理模型是怎么從零訓出來的。這種知識，以前只有極少數公司內部才有。

參考資料：

DeepSeek-R1論文v2: https://arxiv.org/abs/2501.12948v2
DeepSeek-R1論文v1: https://arxiv.org/abs/2501.12948v1
V4傳言報道: https://finance.yahoo.com/news/deepseek-set-launch-next-gen-153258894.html

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.