337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

DeepSeek:為了這口醋,包了這頓餃子,為了數據,我造了模型

0
分享至

原創:譚婧

指導教授:王金橋,張家俊

白天有太多干擾,

某日臨睡前,和一位百度的朋友聊幾句,

我說了一句:“不把DeepSeek寫爽,我不想開別的選題。”

還配上了態度的表情包,

朋友回復說,他要笑死了。



DeepSeek那幾篇論文和技術報告,

于我而言,常看常新。

吃不吃的透是其次,態度要有,

學習是最好的致敬。

思考中,我反復陷入舊思路,

需要在王金橋,張家俊教授(武漢人工智能研究院)的多次提醒下,重新理解,推理大模型的出現,迫使之前玩法都變成“傳統模型”,推理大模型的大門已經打開,你進不進,它都在那里。

跪謝DeepSeek,“開源推理大模型”套路開創者,

一把節約幾年的時間,

一起跨入“推理大模型”的大門。

一番新景致,好不淋漓暢快。

01

先講,什么是思維鏈吧,

這是推理大模型的一種能力。

好家伙,一句話包括兩個新名詞:

“思維鏈”“推理大模型”,

熱門話題,很多人都講了,

我不贅述,直接看例子。

對比,普通模型和有思維鏈能力的模型。

題目:

車起點是A點,經過5公里后到達B點,

再經過3公里后到達C點,

請問車從A到C總距離是多少?

普通模型,直接回答:“8公里”。

答案雖然正確,但沒有一步一步講算的過程。

而有思維鏈(CoT)能力的模型,

回答時,有解題步驟和過程,

給出推理鏈條的各個環節。

回答:

從A到B距離5公里。

從B到C距離3公里。

所以,從A到C總距離是5公里加上3公里,

總共8公里。



推理大模型“給出解題過程”這件事,

在復雜的問題中顯得尤為重要。

先說什么是“復雜”?

意味著,當我們需要多步推理,

多步解題、長篇邏輯推導的時候。

有人認為,給正確答案就行了,何必有步驟?

只給答案當然不夠,

比如偵探破案,不僅要知道誰是罪犯,

還要知道是怎么推理出來的。

除了說服法官,你還要說服陪審團,

甚至贏得公眾的理解和支持。

展示推理過程,能幫助別人理解這個過程,

學到關鍵,尤其在復雜問題中,

步驟和過程比單純答案還能增強我們對結果的信任。日后反思,也知道錯在哪里。

要我說,既然要順藤摸瓜,

這個藤和這個瓜同樣重要。

“藤”在這里是指的兩件事情,

一個是“推理中的步驟”,也是“訓練過程”。

好的,既然推理大模型這么重要,

那么問題來了,怎么得到它?

或者說,怎么得到世間最好的推理大模型?



02

能問出這個問題,真是志存高遠,

因為相信,所以看見,

OpenAI O1做出來了,

DeepSeek也做出來了,

是首個復現OpenAI O1模型的開源模型。

國貨之光,當之無愧。

有人吐槽,DeepSeek只有模型參數開源,

訓練數據和訓練過程并未開源。

先反駁一句,

這種開源方式在大模型領域本就主流。

這已經很Open了,

比OpenAI不知道Open到哪里去了。

“開源”模型并不意味著啥都告訴你。

那要不要手把手教會你?

在這個點上吐槽DeepSeek,完全忍不了。

而且,我在后文中亦會分析,

這樣“有極高技術含量,

且依然成謎”的點,還有哪些。

前面提到的未開源的“訓練過程”,

這是件很學術,很實驗,很工程的事情,

“人話版”就是:“如何得到推理大模型?

DeepSeek得到了,且創新點密度之高,嘆為觀止。

而且會在整個訓練過程中從頭到尾不斷出現,

這樣“創新”含量極高的一個過程,

其本身也是一種創新。

所以,我想先寫R1模型的訓練過程。

而且,訓練過程這件事,比蒸餾重要多了。

就技術含量來講,

“蒸餾”和“訓練過程”完全不在一個級別上。

在“訓練過程”面前,

”蒸餾“充其量是低處好摘的果子。

因為R1在V3之后發布,且R1比V3更好理解,

想吃透,我的方法是:

學習順序是倒序。

我寫稿AI深度稿8年,

都沒有信心把這幾個模型吃透,

過去軟弱的我已經死了,現在是更軟弱的我。



話說回來,R1模型的訓練過程,論文里雖有描述,

但業界仍然有不同觀點。

咱們花開兩朵,各表一枝。

先談,我不同意的,

再談,我同意的。

我觀察到,整個訓練過程中的一些中間模型,

它們并沒有被接著訓練下去,

其中一些甚至被“舍棄”了,

或者說好聽點,“退休”了。

這時候,應該深度思考,

如果他們被構建出來之后,

并不參與下一個訓練流程,

那他們被造出來的目的和意義是什么?

想通這點,才能算理解了這篇文章的核心。

回到我的結論,我不認為是R1的訓練過程是下面這樣。



03

再看第二種,我同意的訓練過程,

整個訓練過程,可轉化為這樣一套樸素的想法:



以上,是我理解了王金橋和張家俊兩位教授核心觀點后總結的,

細心的讀者可能已經發現了,

這個過程正巧是一個人類思維鏈。

確實是用思維鏈解釋思維鏈大模型的思維鏈

(禁止俄羅斯套娃梗)

04



高質量推理數據的含金量還在增加

到底怎么理解?

開個玩笑,拿來300集《名偵探柯南》,

全套《福爾摩斯》,這些也是推理數據?

當然不是,它們只含有推理的信息。

這么說推理數據吧:

是高難度數據,極難獲得的高質量數據。

數據里面得有完整解題步驟,

得有各種推理方式,

得邏輯有連貫性;

這么好的數據哪里找?



回答這個問題,

先得知道一個著名的模型叫“R1-Zero”,簡稱Zero;

這種模型通過純強化學習過程開發,

“激發”?型語?模型推理能?的潛?。

R1論文報告標題里也用的“激發”一詞。

我管這種訓練方法叫純血強化學習,很特別。

不僅Zero的這個訓練方法太特別了,

而且還有一個大用,就是造數據。

換句話說,整個過程中,不僅拿Zero來造數據,

造完數據Zero模型雖然已經宣布退休了,

但是造Zero模型的方法還在繼續使用。

所以Zero一定要留下名字。

在易被忽略之處,還有一個沒有名字的模型,

誠如開發者所愿,它連名字都不配擁有,

就叫“中間模型”吧,也可以叫“無名模型”。

中間模型存在的意義和價值,

就是構造第二個微調階段所需要的高質量的數據。

而“無名模型”正是構建高質量(CoT)數據的幕后推手。這個模型可能并不直接負責輸出最終的推理鏈,但它為后續的微調和優化提供了極為關鍵的支持:高質量數據。

也就是說為了造數據,

模型都專門訓練了兩種:有名的和無名的。

我不禁喟嘆,DeepSeek:為了造數據,我造了模型

電影《邪不壓正》里姜文的聲音,飄入腦海:

就是為了這點醋,我才包的這頓餃子。

冷啟動(SFT)是什么意思?

一方面是說它用的數據特別少,才幾千條。

無論多少,沒有數據,這件事還是干不了。

這幾千條數據誰幫忙造的?

答案是Zero模型。

沒有Zero模型給你造數據,神仙也干不成。

第一階段先冷啟動(SFT),

然后用強化學習增強模型的推理能力,

尤其是在數學,代碼上。

這時候,事情結束了嗎?

當然沒有,第一階段后面是第二階段,

這句話顯然不是廢話,

因為第二階段對高質量數據的要求更大,

你也不能再冷啟動一次了,

于是,又進行了一次第二階段的SFT和強化學習。

細數一下,微調(SFT)和強化學習分別做了兩次,前面講了,第二階段的數據,

比第一階段的數據要求更多,

大約60萬高質量推理數據,20萬非推理數據,

V3還在中間當了裁判,

質量不行,看不懂的數據直接不要了。

這60萬數據是精挑細選后的,

那沒有挑選之前的數據哪里來的呢?

那個無名模型,也就是中間模型,

默默地支撐了。



這里可以插一句:

有極高技術含量,且依然成謎”的點這里也有,

請問這20萬數據的類型配比是啥?

這是一道思考題,也是一道實踐題。

我們言歸正傳,下面怎么辦呢?

又把V3拿來用了。

這時候,我們甚至可以再細數一下,

V3用一次,V3用兩次,V3用三次,

才得到了R1這個模型。



所以,R1它就像啥?

就像一個俄羅斯套娃,不對,是三個。

要我說,DeepSeek在訓練方式上的獨具創新之處在于,

每個人都想增強模型的推理能力。

而DeepSeek為它的增強推理能力,

造了一個模型,又造了“造數據的模型”,

還造了造模型造數據的方法。

張家俊教授的觀點是:

“DeepSeek他們可能有一個信念,數學和代碼等專用領域的推理能力可以泛化到通用。之前我們見到更多的,是先做通用,然后再訓練專用能力成為一個專用模型,例如通用模型到行業模型再到場景模型。而這次通用領域推理能力的習得則采用了相反的思路,先搞定專用領域模型推理能力的學習范式,再由專用模型的推理能力牽引泛化至通用領域。”

“然后,雖然DeepSeek R1中如何構造高質量推理和通用數據至關重要,本質上R1 Zero是最大的創新。構建R1的整個過程可能也是不斷嘗試和折中的結果,最理想情況應該是希望R1 Zero就能實現通用領域推理能力的直接泛化,后來發現Zero只有專用推理能力,而且推理過程語言混雜可讀性差,不過可喜的是能生產比較完整的推理數據了,那就退回經典的SFT+RL的范式,為了造更高質量的推理數據,就有了第一階段的冷啟動+Zero推理方法。”

如此獨具匠心的設計,

有“因為相信所以看到”這樣的信仰,

而我還停留在“因為看到,所以相信”。

這次就到這里,

很多時新酷炫的專業術語都被我刪減了,

因為在此時此刻,它們都不重要。

這篇科普漫畫看完已經發給我媽了,

又不是多難,別人媽媽會的,我媽也要會。

畢竟,她從小也是這么教育我的。

春節期間,我已經在飯桌上被狂轟亂炸了個遍,

從我媽到七大姑八大姨,

誰不想懂DeepSeek呢。

(完)

One More Thing

我知道有的數據團隊在爬我公眾號上的內容,

感謝視其為高質量數據,

說實話,我不愿意,

而又無力阻止。

我能做的就是,精品和核心內容會更多的向漫畫上遷移,

一方面文章更好看,

另一方面,想把數據拿走,

你們就得必須再接一套Caption方案;

效果好不好,不知道了,

反正成本是更高了,

這可以視為,

我對AI版權問題有聲的抵抗。

《作者直到最近才費勁弄清楚的……》

1.是時候發力AI推理了,吳恩達都說需求遠超想象

2.AI推理紅海戰:百萬Token一元錢,低價背后藏何種貓膩?

3.質疑美國芯片Etched:AI領域最大賭注的盡頭是散熱?

4.機會在哪?原理是啥?哈佛輟學融資1.2億造AI芯片

5.對抗NVLink簡史?10萬卡爭端,英偉達NVL72超節點挑起

6. 硅谷訪客丨誰在“掏空”深度學習框架PyTorch?

長文系列

1.年終盤點:圖文大模型編年簡史

2.跳槽去搞國產大模型,收入能漲多少?

3.大模型下一場戰事,為什么是AI Agent?

4.假如你家大模型還是個二傻子,就不用像llya那樣操心AI安全

5.指令數據:訓練大模型的“隱形助力”

6.對話百度孫珂:想玩好AI Agent,大模型的“外掛”生意怎么做?

7.再造一個英偉達?黃仁勛如何看待生物學與AI大模型的未來?

8. 對話科大訊飛劉聰:假如對大模型算法沒把握,錯一個東西,三個月就過去了

9.美國AI芯片公司“贏了”大模型公司?

10.美國玩大模型那幫人:好幾萬卡集群+超級節點

11.如何辨別真假“AI劉強東”?10億參數,數字人實時生成視頻

12.智譜清影做“Stable Diffusion”,生數科技做“Midjourney”?

聲明:個人原創,僅供參考

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
演員郭晉安透露離開TVB并非完全由自己決定,稱拍短劇不用動腦:人家讓做什么就做,不需要想太多事

演員郭晉安透露離開TVB并非完全由自己決定,稱拍短劇不用動腦:人家讓做什么就做,不需要想太多事

花樣TV
2026-04-06 16:23:52
59歲鄭衛莉:挺孕肚拿獎,丈夫出軌繼子冷淡,如今生活怎么樣了

59歲鄭衛莉:挺孕肚拿獎,丈夫出軌繼子冷淡,如今生活怎么樣了

楓塵余往逝
2026-04-05 23:12:33
國軒高科:2GWh全固態電池量產線建設受技術、研發、市場等多項因素影響

國軒高科:2GWh全固態電池量產線建設受技術、研發、市場等多項因素影響

澎湃新聞
2026-04-06 19:33:04
夏侯惇夏侯淵的人品和武功,若加入劉備集團,會成為五虎大將嗎?

夏侯惇夏侯淵的人品和武功,若加入劉備集團,會成為五虎大將嗎?

大千世界觀
2026-04-05 21:05:03
北京15分大逆轉!3-11名大變!深圳殺進前3,廣東一夜成最大輸家

北京15分大逆轉!3-11名大變!深圳殺進前3,廣東一夜成最大輸家

后仰大風車
2026-04-06 23:11:29
今年幼兒園的招生真的是壓力巨大啊 前兩天開全園大會

今年幼兒園的招生真的是壓力巨大啊 前兩天開全園大會

歲月有情1314
2026-04-06 12:21:43
它是“樹上人參”,春天遇見使勁吃,錯過要等1年,比薺菜營養

它是“樹上人參”,春天遇見使勁吃,錯過要等1年,比薺菜營養

阿龍美食記
2026-04-06 13:56:32
毛新宇回韶山祭掃當地官兵全程陪同:畫面流出,高顏值妻女照曝光

毛新宇回韶山祭掃當地官兵全程陪同:畫面流出,高顏值妻女照曝光

溫柔看世界
2026-04-06 14:55:35
訪華徹底沒戲了?魯比奧再次找中國麻煩,外交部直接甩出八個大字

訪華徹底沒戲了?魯比奧再次找中國麻煩,外交部直接甩出八個大字

通鑒史智
2026-04-06 10:10:39
過氣演員有多可憐?從拒拍裸戲,到近乎全裸拍戲,太心酸

過氣演員有多可憐?從拒拍裸戲,到近乎全裸拍戲,太心酸

小椰的奶奶
2026-04-06 19:41:09
金昊被執行死刑,最后悔的就是他的母親張杰了,過度溺愛等于害

金昊被執行死刑,最后悔的就是他的母親張杰了,過度溺愛等于害

魔都姐姐雜談
2026-04-05 12:59:20
退休后,永遠不要在熟人面前,說以下6句話,切記切記

退休后,永遠不要在熟人面前,說以下6句話,切記切記

東林夕亭
2026-04-02 16:44:39
破紀錄的機會來了!單賽季101球神跡就在面前,但凱恩想要歐冠

破紀錄的機會來了!單賽季101球神跡就在面前,但凱恩想要歐冠

里芃芃體育
2026-04-07 03:00:03
16歲就是人間尤物,4年換19個男人,找老實人接盤后,變買菜媽媽

16歲就是人間尤物,4年換19個男人,找老實人接盤后,變買菜媽媽

一盅情懷
2026-03-28 15:38:13
朝鮮宣布停用中國衛星,改用俄羅斯衛星,無形中幫了中國一個忙

朝鮮宣布停用中國衛星,改用俄羅斯衛星,無形中幫了中國一個忙

共工之錨
2026-04-05 00:18:42
魯比奧太狂了!徹底惹怒了中國,中方強勢出手,反擊正式打響了

魯比奧太狂了!徹底惹怒了中國,中方強勢出手,反擊正式打響了

陌冷紫a
2026-04-07 00:31:35
小米新機官宣:4月21日,正式首發!

小米新機官宣:4月21日,正式首發!

科技堡壘
2026-04-06 12:34:45
臺灣普通家庭到底啥水平?我去了才知道,答案很現實也讓人意外

臺灣普通家庭到底啥水平?我去了才知道,答案很現實也讓人意外

復轉這些年
2026-04-06 23:34:04
CBA積分榜最新排名出爐!廣東輸球跌至第6:深圳第3遼寧第10

CBA積分榜最新排名出爐!廣東輸球跌至第6:深圳第3遼寧第10

籃球快餐車
2026-04-07 02:57:02
開戰第38天!伊朗發起斬首行動,美國被迫開始撤軍,特朗普破防

開戰第38天!伊朗發起斬首行動,美國被迫開始撤軍,特朗普破防

小曙說娛
2026-04-07 02:15:10
2026-04-07 04:55:00
親愛的數據 incentive-icons
親愛的數據
《我看見了風暴:人工智能基建革命》一書作者
693文章數 219913關注度
往期回顧 全部

科技要聞

折疊屏iPhone要來了,富士康已在試產!

頭條要聞

特朗普:一夜就能拿下伊朗 可能就是周二晚上

頭條要聞

特朗普:一夜就能拿下伊朗 可能就是周二晚上

體育要聞

官方:中國女足球員邵子欽加盟本菲卡

娛樂要聞

唐嫣羅晉新加坡遛娃,6歲女兒身高搶鏡

財經要聞

史詩級暴跌"一周年" A股接下來如何走?

汽車要聞

阿維塔06T快上市了 旅行車還能這么玩?

態度原創

藝術
親子
旅游
數碼
公開課

藝術要聞

張雪機車logo陷抄襲爭議?商標還被人搶先注冊了!

親子要聞

一定要告訴孩子什么是教養,

旅游要聞

春日泛舟北小河 水岸花溪美如畫

數碼要聞

玄派玄機16 2026筆記本上架:銳龍AI Max+ 395,128GB + 2TB

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版