337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓AI學(xué)習(xí)效率飆升50倍的秘密:在線策略蒸餾

0
分享至


想象一下,你在教一個(gè)學(xué)生寫作文。

傳統(tǒng)做法是:你給他十篇范文,讓他照著學(xué)。

這叫“模仿學(xué)習(xí)”。

但很快你發(fā)現(xiàn)——當(dāng)他真正面對一個(gè)沒見過的題目時(shí),立刻就懵了。

于是你換了種方法。讓他自己寫,然后你在旁邊指出每一個(gè)句子的優(yōu)劣、邏輯是否通順、語氣是否合適。

這種“邊寫邊教”的方式,更像真正的學(xué)習(xí)。

這,正是Thinking Machines Lab最新研究《On-Policy Distillation》的核心靈感所在。(原文鏈接:https://thinkingmachines.ai/blog/on-policy-distillation/)
它提出了一種全新的 AI 訓(xùn)練方式——讓模型在“自己行動(dòng)”的軌跡上,被實(shí)時(shí)指導(dǎo)、被動(dòng)態(tài)優(yōu)化。
這聽起來簡單,卻可能改寫整個(gè)大模型的訓(xùn)練范式。

一、為什么是他們:從 OpenAI 走出的“思考機(jī)器”

Thinking Machines Lab 是 Mira Murati(前 OpenAI CTO)離職后創(chuàng)辦的新實(shí)驗(yàn)室。
她和團(tuán)隊(duì)成員 John Schulman、Barret Zoph 都是推動(dòng) ChatGPT 與強(qiáng)化學(xué)習(xí)革命的關(guān)鍵人物。
他們的研究方向有一個(gè)共同點(diǎn):讓模型更懂得“如何學(xué)習(xí)”。

這篇論文的作者 Kevin Lu、John Schulman、Horace He 等人,延續(xù)了他們在 RLHF(人類反饋強(qiáng)化學(xué)習(xí))和蒸餾訓(xùn)練上的積累。

他們在問一個(gè)根本問題——

“AI的學(xué)習(xí)方式是不是錯(cuò)了?”

二、舊方法的瓶頸:AI其實(shí)是在“死記硬背”

當(dāng)我們說“訓(xùn)練一個(gè)大模型”,其實(shí)是兩步:

讓模型看大量人類寫的文本(稱為SFT:監(jiān)督微調(diào))。

再通過RLHF(強(qiáng)化學(xué)習(xí))讓它學(xué)會(huì)“人類喜歡的回答方式”。

問題在于——這兩步并不協(xié)調(diào)。

SFT 教的是“模仿舊答案”;RLHF 強(qiáng)調(diào)“探索新答案”。

前者像“死記硬背”,后者像“自我實(shí)踐”。

模型經(jīng)常在兩者之間搖擺:要么過度順從人類樣本,要么冒進(jìn)地亂試。

三、新方法:讓模型“邊干邊學(xué)”

Thinking Machines Lab 提出的On-Policy Distillation(政策內(nèi)蒸餾),
是想把這兩種學(xué)習(xí)方式“融合”成一種更自然的狀態(tài)。

傳統(tǒng)蒸餾(Distillation)是:

老師(大模型)寫出一份完美答案,學(xué)生照著學(xué)。

而他們的新方法是:

學(xué)生自己先寫一遍,老師實(shí)時(shí)給出每一步的分?jǐn)?shù)、建議、改進(jìn)方向。

這個(gè)過程在強(qiáng)化學(xué)習(xí)里叫On-Policy——模型在“自己生成的軌跡”上學(xué)習(xí),而不是在別人給的現(xiàn)成答案上學(xué)習(xí)。
于是,模型學(xué)到的不再是“理想的句子”,而是“如何自己到達(dá)理想的句子”。

可以把它理解為:

不再教模型“結(jié)論”,而是教它“思考的路徑”。

四、核心創(chuàng)新:從“獎(jiǎng)勵(lì)”到“打分”

RLHF 的本質(zhì)是“獎(jiǎng)勵(lì)”(Reward):模型生成一整段答案,評審模型給它一個(gè)分。

但這有個(gè)問題——只有整段結(jié)束后才能反饋,太慢了。

On-Policy Distillation把反饋粒度縮小到“每個(gè)token”(每一個(gè)生成的字詞)。
就像作文老師不再只給你打總分,而是逐句標(biāo)注“這里句式優(yōu)美”“這里邏輯混亂”。
這種“密集監(jiān)督”(dense supervision)方式讓學(xué)習(xí)效率成倍提升。

論文作者形象地稱之為“用微鏡頭監(jiān)督AI的思考過程”。

五、結(jié)果:更快、更穩(wěn)、更便宜

他們用這個(gè)方法訓(xùn)練模型后,

在 AIME’24 數(shù)學(xué)基準(zhǔn)測試上,性能超過了傳統(tǒng) RLHF 模型。

同時(shí)算力需求更低、訓(xùn)練更穩(wěn)定、結(jié)果更可復(fù)現(xiàn)。

一句話總結(jié)就是:

以前我們靠“懲罰與獎(jiǎng)勵(lì)”教AI做人,
現(xiàn)在我們靠“示范與糾錯(cuò)”教AI成長。

六、為什么重要:AI 訓(xùn)練的“學(xué)習(xí)論轉(zhuǎn)向”

在更宏觀的層面,這篇論文揭示的是AI學(xué)習(xí)方式的哲學(xué)轉(zhuǎn)折
過去幾年我們用海量數(shù)據(jù)喂模型,希望它靠統(tǒng)計(jì)規(guī)律“模仿人類”。
但 Thinking Machines 團(tuán)隊(duì)認(rèn)為,真正的智能不在模仿,而在于反思自己的行為。

“On-Policy Distillation” 讓 AI 有機(jī)會(huì)在自己的軌跡上打磨自己——

這讓“自我改進(jìn)型智能體”(self-improving agent)成為現(xiàn)實(shí)的一步。

未來,當(dāng)你的AI助手能在每天的任務(wù)中積累經(jīng)驗(yàn)、吸收教訓(xùn)、變得越來越懂你,

也許正是這種“on-policy”學(xué)習(xí)在默默起作用。

七、所以呢?

在AI訓(xùn)練的世界里,思維方式的改變往往比算力更值錢。
Thinking Machines Lab 的這篇論文不是在造一個(gè)更大的模型,
而是在重新定義“學(xué)習(xí)”這件事的意義。

當(dāng)AI開始自己教自己,

我們也許正見證著“智能的第二次覺醒”——

第一次是機(jī)器學(xué)會(huì)說話,

第二次,是它學(xué)會(huì)思考“我為什么這么說”。

整理:周華香

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
法國明確站隊(duì)?馬克龍當(dāng)著高市的面承諾:G7邀請函不會(huì)給中國發(fā)

法國明確站隊(duì)?馬克龍當(dāng)著高市的面承諾:G7邀請函不會(huì)給中國發(fā)

深藍(lán)獨(dú)奏
2026-04-08 01:48:52
“余生好好走”,知名央視主持人王小丫,病床上的留言字字催淚

“余生好好走”,知名央視主持人王小丫,病床上的留言字字催淚

近史談
2026-03-31 18:57:49
4月開始,中國可能出現(xiàn)四大漲潮:除了油價(jià)外,這3類也會(huì)上調(diào)了

4月開始,中國可能出現(xiàn)四大漲潮:除了油價(jià)外,這3類也會(huì)上調(diào)了

小怪吃美食
2026-04-07 16:19:48
85歲女首富陳麗華離世:千億身家,抵不過一場病

85歲女首富陳麗華離世:千億身家,抵不過一場病

寒律
2026-04-08 00:21:21
江青作品驚艷!字寫得靈動(dòng),秘訣竟在用筆!

江青作品驚艷!字寫得靈動(dòng),秘訣竟在用筆!

書畫相約
2026-03-19 09:15:49
看來美帝是真的準(zhǔn)備打地面戰(zhàn)爭了

看來美帝是真的準(zhǔn)備打地面戰(zhàn)爭了

仰望星空的一粒沙子
2026-04-04 19:18:21
它是“樹上人參”,春天遇見使勁吃,錯(cuò)過要等1年,比薺菜營養(yǎng)

它是“樹上人參”,春天遇見使勁吃,錯(cuò)過要等1年,比薺菜營養(yǎng)

阿龍美食記
2026-04-06 13:56:32
37歲杜蘭特28場30+比肩27歲!庫里贊他狀態(tài)出色 休媒力挺最佳陣容

37歲杜蘭特28場30+比肩27歲!庫里贊他狀態(tài)出色 休媒力挺最佳陣容

顏小白的籃球夢
2026-04-07 08:19:44
婆婆表弟賴家不走,全家敢怒不敢言,兒媳三句話直接逼他滾蛋

婆婆表弟賴家不走,全家敢怒不敢言,兒媳三句話直接逼他滾蛋

流螢敘情
2026-04-07 18:53:22
繼德國之后,英國也開始貼出“中文標(biāo)語”?中國游客:不能夠接受

繼德國之后,英國也開始貼出“中文標(biāo)語”?中國游客:不能夠接受

潮鹿逐夢
2026-04-02 12:31:48
美軍最怕的事發(fā)生了

美軍最怕的事發(fā)生了

燕梳樓頻道
2026-04-07 14:59:03
特朗普,最新發(fā)聲!霍爾木茲海峽,突傳大消息!加密貨幣跳水,超8萬人爆倉!

特朗普,最新發(fā)聲!霍爾木茲海峽,突傳大消息!加密貨幣跳水,超8萬人爆倉!

證券時(shí)報(bào)e公司
2026-04-05 21:41:10
毛主席83歲時(shí)寫下的13個(gè)鉛筆字,網(wǎng)友爭議其美丑!

毛主席83歲時(shí)寫下的13個(gè)鉛筆字,網(wǎng)友爭議其美丑!

書畫相約
2026-04-05 07:55:25
豬肝再次成為關(guān)注對象!醫(yī)生發(fā)現(xiàn):常吃豬肝,可能會(huì)收獲4大好處

豬肝再次成為關(guān)注對象!醫(yī)生發(fā)現(xiàn):常吃豬肝,可能會(huì)收獲4大好處

搖感軍事
2025-11-30 18:57:30
以色列,已失控了

以色列,已失控了

大國觀察眼
2026-04-08 00:52:49
瞞不?。∥錆h清明數(shù)據(jù)炸裂,游客堵到手機(jī)沒電,核心原因終于曝光

瞞不??!武漢清明數(shù)據(jù)炸裂,游客堵到手機(jī)沒電,核心原因終于曝光

我不叫阿哏
2026-04-07 20:39:33
沈騰與林允回應(yīng)戀情:不是知三當(dāng)三,沒有劈腿...

沈騰與林允回應(yīng)戀情:不是知三當(dāng)三,沒有劈腿...

背包旅行
2026-03-09 15:02:55
全球搶油氣,中國斥資1700億砸新疆,三大王牌震驚世界!

全球搶油氣,中國斥資1700億砸新疆,三大王牌震驚世界!

宏哥談商道
2026-04-07 19:00:06
他26歲拼命追一34歲有病、不能生、還窮的女人,所有人都說他瘋了

他26歲拼命追一34歲有病、不能生、還窮的女人,所有人都說他瘋了

南權(quán)先生
2026-02-09 15:56:02
新型出軌,真的越來越流行了

新型出軌,真的越來越流行了

洞讀君
2026-03-29 21:10:03
2026-04-08 03:19:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進(jìn)入GenAl。
265文章數(shù) 17關(guān)注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

特朗普:伊朗人愿為自由承受轟炸

頭條要聞

特朗普:伊朗人愿為自由承受轟炸

體育要聞

阿森納客戰(zhàn)葡體:哲凱賴什戰(zhàn)舊主,馬杜埃凱、厄德高首發(fā)

娛樂要聞

女首富陳麗華離世 被曝生前已分好遺產(chǎn)

財(cái)經(jīng)要聞

10萬億財(cái)政轉(zhuǎn)移支付,被誰拿走了?

汽車要聞

不止是大 極狐首款MPV問道V9靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

本地
旅游
家居
教育
房產(chǎn)

本地新聞

跟著歌聲游安徽,聽古村回響

旅游要聞

廢棄“老北京景觀”能否隨意搬回家

家居要聞

雅致愜意 感知生活之美

教育要聞

這位學(xué)生自制的學(xué)具你見過嗎?

房產(chǎn)要聞

重磅!三亞擬出安居房新政!

無障礙瀏覽 進(jìn)入關(guān)懷版