337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek的陽謀:在《自然》雜志公布論文,到底贏得了什么?

0
分享至

DeepSeek 叕贏了,這回它登上了《自然》雜志的封面!



畫面中的立方體代表著電子神經(jīng)元,也就是我們常說的“大模型參數(shù)”,每個神經(jīng)元都在向著深層次方向探索。紅色的線代表關(guān)鍵的核心信號,而白色的線則意味著發(fā)散的探索。最終,所有的探索都會變成電子神經(jīng)元之間的鏈接,最終完成對問題答案的探索。
下面的文字突出了一個關(guān)鍵詞:“SELF-HELP”,也就是“自學(xué)”,“Reinforcement learning teaches AI model to improve itself”的意思則是:強化學(xué)習(xí)教會人工智能模型自我提升。
不理解這句話沒關(guān)系,后文中有大白話的解讀。

DeepSeek經(jīng)歷了幾次爆火之后,已經(jīng)成了連老媽都熟悉的大眾詞匯。這回登上《自然》雜志的封面,大家的第一反應(yīng)就是:“遙遙領(lǐng)先”以及“厲害了我的國!”

不過別著急慶祝,如果你想知道DeepSeek為啥遙遙領(lǐng)先,以及領(lǐng)先在什么地方,那就把本文看完。全文大白話,包你一看看就懂。

DeepSeek填補行業(yè)空白

在《自然》雜志的官方評論里,有一個詞被反復(fù)強調(diào)了很多遍。這個詞不是“性能強大”,也不是“技術(shù)突破”,而是聽起來平平無奇的“同行評審”。

《自然》雜志說:目前所有主流的大模型都沒有經(jīng)過獨立的同行評審,而 DeepSeek 填補了這項行業(yè)空白。


Nature 發(fā)表 Editorial 文章《為何同行評審對 AI 模型有益》,來


這就怪了。AI 領(lǐng)域日新月異,GPT 都更新到第 5 代了,同行評審就是讓你把成果拿給行業(yè)專家看看,怎么還能輪到后起之秀的 DeepSeek 來打破空白呢?難道,過去這些年,全世界的 AI 巨頭們,都是在王婆賣瓜的嗎?

嘿嘿,還真讓你說對了。

這個同行評審機制,就像是科學(xué)圈兒里的“質(zhì)監(jiān)局”。任何一項新的科學(xué)發(fā)現(xiàn),想要獲得公認(rèn),就必須把所有的實驗方法、數(shù)據(jù)、推導(dǎo)過程,毫無保留地交給同行去匿名審查。


來源:Nature


要知道,同行是冤家這話可不是白說的,這些同行專家可不想你輕松獲得榮譽,他們恨不得你翻車。所以,同行評審?fù)且粋€拿著顯微鏡挑刺的過程。實驗設(shè)計不嚴(yán)謹(jǐn)啊,實驗創(chuàng)新性不夠啊,實驗數(shù)據(jù)不完整啊……反正各種問題全能給你挑出來。

當(dāng)然,挑刺歸挑刺,但是科學(xué)家還是講究科學(xué)精神的,真正過硬的研究,也會因為嚴(yán)格的同行評審而獲得信任。

但是,人工智能大模型這個行業(yè)從一開始就被 ChatGPT-3 帶了個壞頭,ChatGPT-3 只開放了很少的一部分代碼,公開了一些類似于產(chǎn)品說明書的所謂技術(shù)細(xì)節(jié)。從此以后,黑箱發(fā)布就成了大模型產(chǎn)品發(fā)布的“江湖規(guī)矩”。新的大模型產(chǎn)品看起來根本不像是一項科學(xué)研究,更像是一個產(chǎn)品發(fā)布會。大家通常只能看到一個驚艷的結(jié)果,至于核心的訓(xùn)練方法和數(shù)據(jù)細(xì)節(jié),往往以商業(yè)機密為由秘不示人。

DeepSeek 這次做的,就是選擇堂堂正正地接受科學(xué)界最嚴(yán)苛的質(zhì)檢。這就是《自然》雜志說 DeepSeek 填補了行業(yè)空白的原因。

“自學(xué)成才的DeepSeek

當(dāng)然,填補行業(yè)空白只能證明 DeepSeek 的擔(dān)當(dāng)和勇氣,這與技術(shù)和創(chuàng)新沒有關(guān)系。這篇論文讓科學(xué)界真正興奮的,是他們用另辟蹊徑的方法和扎實的實驗數(shù)據(jù),狠狠打了其他大模型的臉。

之前科學(xué)家們一直以為,要想讓一個 AI 模型變得更聰明,唯一的辦法,就是把海量人類專家寫好的解題步驟“喂”給 AI,讓它去模仿學(xué)習(xí)。學(xué)得越多,能力也就越強。這與我們學(xué)校里推行的教育方式基本一致,我告訴你經(jīng)典例題和標(biāo)準(zhǔn)答案,你給我背下來。這種方法叫做監(jiān)督式微調(diào)(SFT)。

但 DeepSeek 的科學(xué)家們提出了一個大膽的假設(shè):總是模仿人類的解題思路,會不會反而限制了 AI 的發(fā)展?就好像學(xué)生如果必須嚴(yán)格按照老師的思路學(xué)習(xí),是不是就無法超越老師?有沒有可能,讓 AI 自己去發(fā)現(xiàn)規(guī)律,然后自學(xué)成才?

這個想法其實并不算石破天驚,但是絕對叛逆。因為如果允許學(xué)生自學(xué),還允許他們發(fā)明老師都沒用過的解題思路,那么,一旦學(xué)生成功解出老師也無法解答的問題,那么老師就必須承認(rèn),教學(xué)并不是學(xué)生成才的必經(jīng)之路。

DeepSeek 的科學(xué)家決定豪賭一把。他們繞過了用人類范例教學(xué)的傳統(tǒng)步驟,直接把一個名叫 DeepSeek-R1-Zero 的模型扔進(jìn)了試煉場里。


DeepSeek-R1-Zero 在訓(xùn)練過程中的 AIME 準(zhǔn)確率,基線是人類參與者


試煉場的規(guī)則簡單且殘酷:

  1. 只給難題:給模型海量的、極難的推理問題,比如數(shù)學(xué)競賽(AIME)、編程競賽和 STEM 領(lǐng)域的難題。
  2. 只看結(jié)果:不提供任何人類的解題過程作為參考。AI 的每一次嘗試,只會得到一個最簡單的反饋信號:如果最終答案正確,就給獎勵;回答錯誤,啥也沒有。

這就像把一個沒上學(xué)的孩子,直接扔進(jìn)奧數(shù)賽場,沒有基礎(chǔ)知識,沒有公式和技巧,只告訴他:“答對了有糖吃,答錯了沒有。你自己想辦法吧。”

這種方法,就是論文里說到的“強化學(xué)習(xí)”,它的本質(zhì)就是純粹的激勵。DeepSeek 的科學(xué)家們想看看,在巨大的難題壓力和最純粹的獎懲激勵下,AI 的推理能力能否自發(fā)地涌現(xiàn)出來。

每個人都想知道,這個被扔進(jìn)奧數(shù)賽場的孩子,到底能不能一朝悟道。

真實的訓(xùn)練數(shù)據(jù)讓人極為驚喜。首先,它學(xué)會了如何深思熟慮。

科學(xué)家發(fā)現(xiàn),隨著訓(xùn)練的進(jìn)行,模型生成的回答文本長度在持續(xù)、穩(wěn)定地暴漲。這說明,在沒有任何外部指令的情況下,AI 自己領(lǐng)悟了一件事:那就是簡單粗暴解決不了復(fù)雜問題,花更多的時間去推演和探索有助于獲得正確答案。于是,它不再追求一口吃個胖子,而是自發(fā)地選擇了深度思考這條路線。

其次,也是最令人震撼的,是它學(xué)會了反思和自我糾錯。


強化學(xué)習(xí)過程中 DeepSeek-R1-Zero 在訓(xùn)練集上的平均響應(yīng)長度。來


在訓(xùn)練過程中,模型開始自發(fā)地使用一些代表反思的詞匯,比如“等等”、“不對”、“我要檢查一下”、“驗證”、“好像有錯”或者類似的話。

論文里給出了一個堪稱神來之筆的案例。在解決一個數(shù)學(xué)問題時,模型先是按照一個思路進(jìn)行推導(dǎo),但寫著寫著,它突然停了下來,然后自己打出了一行字:

“Wait, wait. Wait. That's an aha moment I can flag here.” (等等,等等。等等。我在這里標(biāo)記一下,這是一個頓悟時刻。)



然后,它就真的像一個突然想通了什么的學(xué)生一樣,推翻了之前的思路,開始一步一步地重新對問題進(jìn)行評估,整個過程與那些突然發(fā)現(xiàn)了問題,然后從頭開始檢查的學(xué)生一模一樣。

這個頓悟時刻,讓見多識廣的科學(xué)家們都感到興奮。科學(xué)家在論文中寫道:“DeepSeek 的頓悟時刻,也是我們的頓悟時刻,讓我們見證了強化學(xué)習(xí)的強大力量”。

而且,這不是一個簡單的個案。數(shù)據(jù)顯示,在訓(xùn)練達(dá)到大約 8000 步之后,“wait”這個詞的使用頻率突然飆升,說明三思而后行已經(jīng)成了它刻入骨髓的思維習(xí)慣。因為必須拿出正確答案才有糖吃。“對”比“快”重要得多。

最終,這個沒有人類老師手把手教的大模型,靠著自己在試煉場里的摸爬滾打,自發(fā)地進(jìn)化出了包括自我反思、過程驗證、動態(tài)調(diào)整策略等一系列高級的推理模式。

最終的結(jié)果是,在數(shù)學(xué)、編程等可驗證的嚴(yán)肅推理任務(wù)上,它的表現(xiàn)全面超越了那些接受傳統(tǒng)填鴨式教學(xué)的模型。在 AIME 數(shù)學(xué)競賽基準(zhǔn)測試上,它的最終成績甚至遠(yuǎn)超人類參賽者的平均水平。這個沒有老師全靠自學(xué)的孩子,向人類證明了自己的能力。

憑啥要開源?憑啥要透明?

讀到這里,你可能會產(chǎn)生一個非常自然的疑問:我們費了這么大勁,探索出了這么厲害的獨門秘籍,為什么要把它公之于眾?又是寫論文,又是開源模型,這不是讓競爭對手抄作業(yè),自己吃虧嗎?

這個問題問得非常好,因為它已經(jīng)觸及了科學(xué)思維和商業(yè)直覺的沖突點。

從短期的、零和博弈的商業(yè)直覺來看,保密確實是最佳選擇。而且,除了 DeepSeek 以外,就算是其他開源的大模型,也沒有如此認(rèn)真地接受同行評審。但是,從長期的、更宏大的發(fā)展視角看,開放和透明,恰恰是所有競爭對手都無法破解的陽謀。

第一,開放是建立信任的唯一途徑。AI 正在成為社會的基礎(chǔ)設(shè)施,一個不透明的黑箱,是無法得到國際社會的真正信任的。

DeepSeek 通過《自然》雜志的同行評審,等于是在向全世界宣告:我的能力是經(jīng)得起最嚴(yán)格檢驗的,是可靠的。在一個人人都在談?wù)?AI 安全和 AI 倫理的時代,一個“可信”的標(biāo)簽,是花多少錢都買不來的無形資產(chǎn)。

第二,開放是加速自我進(jìn)化的最佳策略。科學(xué)的發(fā)展史一再證明,閉門造車永遠(yuǎn)比不上開放社區(qū)的集體智慧。當(dāng) DeepSeek 把自己的方法和模型公開后,全世界成千上萬的頂尖頭腦都會成為它的免費測試員和外部智囊。

他們會發(fā)現(xiàn)你沒注意到的漏洞,會提出你沒想到的優(yōu)化方向,甚至?xí)谀愕墓ぷ鳎_發(fā)出讓你也備受啟發(fā)的新應(yīng)用。這種來自全球社區(qū)的反饋和激蕩,是任何一個封閉的公司靠內(nèi)部力量都無法企及的,它會極大地加速自身的迭代速度。

第三,開放是吸引頂尖人才的終極引力場。頂尖的科學(xué)家和工程師,最看重的是什么?是解決世界級難題的機會和獲得全球同行認(rèn)可的聲譽。一篇《自然》封面論文,就是向全球人才發(fā)出的最強招募令,它證明了這里是能夠做出世界級工作的頂級平臺。這種對人才的吸引力,遠(yuǎn)比保住一兩個技術(shù)秘密的價值要大得多。

所以你看,開放和透明,看似吃虧,實則是在下一盤更大的棋。它賭的不是用戶數(shù)或者會員費這些眼前得失,它通過建立信任、融入全球智慧網(wǎng)絡(luò)、吸引頂尖人才,來贏得整個 AI 時代的長期競爭。

DeepSeek贏了啥?

現(xiàn)在,我們可以回答標(biāo)題中的問題了:DeepSeek 到底贏得了什么?

如果說,選擇在《自然》上公開發(fā)表,是贏得了一種“安全可信”的科學(xué)信譽。那么,他們在論文中揭示的“AI 可以自學(xué)”的新規(guī)律,則贏得了對人工智能本質(zhì)的認(rèn)知優(yōu)勢。

DeepSeek 的科學(xué)家們用一場無可辯駁的漂亮實驗,證明了 AI 的推理能力,不一定需要學(xué)習(xí)人類的固有知識,它們完全可以像人類一樣,通過觀察世界而獨立發(fā)現(xiàn)規(guī)律。舊的規(guī)律如此,新的規(guī)律當(dāng)然也沒問題。

這個發(fā)現(xiàn),極大地拓展了我們對人工智能潛力的想象。它把 AI 從一個只能模仿人類知識的學(xué)生,升級成了能獨立發(fā)現(xiàn)新規(guī)律的科學(xué)家。

這事兒甚至可以直接擴展到教育界:一個孩子考上清北,學(xué)校、老師、家長都覺得是自己牛逼,其實你們都太自戀了,牛逼的是孩子自己。

信源:

[1] 論文鏈接:https://www.nature.com/articles/s41586-025-09422-z

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
張雪峰搶救細(xì)節(jié)曝光:副院長參與搶救,心血管狹窄90%,太可惜

張雪峰搶救細(xì)節(jié)曝光:副院長參與搶救,心血管狹窄90%,太可惜

談史論天地
2026-03-30 13:43:18
全美900萬人抗議,ICE代局長焦慮到兩度入院,伊朗戰(zhàn)事成萬斯與魯比奧“試金石”?

全美900萬人抗議,ICE代局長焦慮到兩度入院,伊朗戰(zhàn)事成萬斯與魯比奧“試金石”?

紅星新聞
2026-03-30 17:15:13
淚目!全紅嬋哽咽揭秘體重增加:每天只吃1頓,接受不了這么胖

淚目!全紅嬋哽咽揭秘體重增加:每天只吃1頓,接受不了這么胖

李喜林籃球絕殺
2026-03-30 11:48:54
55歲外籍勞工被伊朗導(dǎo)彈擊中身亡:異國打工25年,老家的房剛打好地基

55歲外籍勞工被伊朗導(dǎo)彈擊中身亡:異國打工25年,老家的房剛打好地基

網(wǎng)易新聞出品
2026-03-30 16:35:31
俄羅斯4人團(tuán)隊做的VPN,成了中國用戶的救命稻草

俄羅斯4人團(tuán)隊做的VPN,成了中國用戶的救命稻草

薛定諤的BUG
2026-03-28 11:13:03
章澤天帶卡塔爾公主參觀京東總部,身穿紫色套裝,端莊大氣

章澤天帶卡塔爾公主參觀京東總部,身穿紫色套裝,端莊大氣

日落于西
2026-03-30 16:40:28
被驅(qū)逐的伊朗大使拒離境后被強行從館內(nèi)拖出,頭部疑被打

被驅(qū)逐的伊朗大使拒離境后被強行從館內(nèi)拖出,頭部疑被打

桂系007
2026-03-30 04:00:12
東契奇被踢出MVP爭奪 名記:他是防守最差球員之一

東契奇被踢出MVP爭奪 名記:他是防守最差球員之一

體壇周報
2026-03-30 16:22:29
伊朗:美軍撤離伊邊境鄰近地區(qū),美多架預(yù)警機和加油機被擊落,多處倉庫被摧毀,未來更多高價值目標(biāo)將被列入打擊名單

伊朗:美軍撤離伊邊境鄰近地區(qū),美多架預(yù)警機和加油機被擊落,多處倉庫被摧毀,未來更多高價值目標(biāo)將被列入打擊名單

魯中晨報
2026-03-30 07:09:20
特朗普:伊朗政權(quán)已更迭,將放行20艘油輪!伊朗副總統(tǒng):將重塑霍爾木茲海峽管理制度

特朗普:伊朗政權(quán)已更迭,將放行20艘油輪!伊朗副總統(tǒng):將重塑霍爾木茲海峽管理制度

紅星新聞
2026-03-30 13:21:16
小米汽車代言人翻車?舒淇竟無駕照!雷軍:我預(yù)判了你的預(yù)判!

小米汽車代言人翻車?舒淇竟無駕照!雷軍:我預(yù)判了你的預(yù)判!

品牌新
2026-03-30 12:08:31
剛送別張雪峰,11歲女兒收到第一張江湖令!

剛送別張雪峰,11歲女兒收到第一張江湖令!

職場火鍋
2026-03-30 15:42:03
坦格西里身亡

坦格西里身亡

南方都市報
2026-03-30 16:02:16
單依純的尷尬不在于翻唱,而是無歌可唱

單依純的尷尬不在于翻唱,而是無歌可唱

牛角說
2026-03-30 12:41:23
央視緊急曝光:全是假貨!別再往家里拎了,很多人天天在用!

央視緊急曝光:全是假貨!別再往家里拎了,很多人天天在用!

興史興談
2026-03-30 15:15:11
鐵路應(yīng)急太差勁了!D3665被困乘客:4小時沒電沒水沒空調(diào),沒人解釋沒人安撫

鐵路應(yīng)急太差勁了!D3665被困乘客:4小時沒電沒水沒空調(diào),沒人解釋沒人安撫

互聯(lián)網(wǎng)大觀
2026-03-30 12:09:16
單依純舞臺上歇斯底里的表演,不停高喊“好想談戀愛”

單依純舞臺上歇斯底里的表演,不停高喊“好想談戀愛”

爆角追蹤
2026-03-30 07:15:45
張雪機車奪冠刷屏,演員尹正發(fā)文恭喜,創(chuàng)始人張雪回應(yīng):沒錢邀請您做代言人,我們把這臺820贈送給您

張雪機車奪冠刷屏,演員尹正發(fā)文恭喜,創(chuàng)始人張雪回應(yīng):沒錢邀請您做代言人,我們把這臺820贈送給您

極目新聞
2026-03-30 16:57:31
賈躍亭曬喜訊:兒子圓夢斯坦福大學(xué)研究生 為他驕傲

賈躍亭曬喜訊:兒子圓夢斯坦福大學(xué)研究生 為他驕傲

快科技
2026-03-30 09:40:20
25歲“天后”單依純終于走到今天這步,李健6年前的預(yù)言應(yīng)驗了!

25歲“天后”單依純終于走到今天這步,李健6年前的預(yù)言應(yīng)驗了!

八卦南風(fēng)
2026-03-30 10:40:29
2026-03-30 19:24:49
科學(xué)聲音 incentive-icons
科學(xué)聲音
普及科學(xué)知識,傳播科學(xué)精神
367文章數(shù) 35313關(guān)注度
往期回顧 全部

科技要聞

一句謊言引發(fā)的硅谷血案

頭條要聞

張雪機車奪冠公司估值超10億 創(chuàng)始人20年前紀(jì)錄片刷屏

頭條要聞

張雪機車奪冠公司估值超10億 創(chuàng)始人20年前紀(jì)錄片刷屏

體育要聞

想進(jìn)世界杯,意大利還要過他這一關(guān)

娛樂要聞

單依純凌晨發(fā)長文道歉!李榮浩再回應(yīng)

財經(jīng)要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態(tài)度原創(chuàng)

本地
藝術(shù)
教育
手機
軍事航空

本地新聞

用Color Walk的方式解鎖城市春日

藝術(shù)要聞

600 年前的「產(chǎn)亡孤魂」,藏著中國女性最痛的記憶

教育要聞

一模二模三模,哪次最接近高考?90%的家長都搞錯了。#教育##高三##新學(xué)期超給力#

手機要聞

榮耀600系列來了:橫向大矩陣鏡頭+橙色機身 果味拉滿

軍事要聞

第三艘航母出動數(shù)千名士兵抵達(dá) 美軍大舉增兵中東戰(zhàn)場

無障礙瀏覽 進(jìn)入關(guān)懷版