337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI邪修時(shí)刻!Meta聯(lián)手MIT投毒,左腳踩右腳強(qiáng)行升天

0
分享至


新智元報(bào)道

編輯:傾傾

【新智元導(dǎo)讀】Meta SOAR用「劇毒數(shù)據(jù)」當(dāng)墊腳石,硬生生把模型從Fail@128的認(rèn)知黑洞里拽出來,推理能力暴漲9.3%!2026年,這才是最硬核的反殺路線。

如果給AI喂一份錯(cuò)誤率高達(dá)67%的教材,結(jié)局會(huì)是什么?

放在以前,他絕對(duì)會(huì)被噴成篩子:這叫「數(shù)據(jù)投毒」!輕則模型腦霧,重則邏輯崩塌,直接送進(jìn)ICU。

但在Meta FAIR的實(shí)驗(yàn)室里,這劑毒藥,變成了救命的神藥。


論文鏈接:https://arxiv.org/abs/2601.18778

不僅沒把模型喂傻,反而讓它踩著一堆「滿嘴謊言」的廢料,爬上了人類無法觸及的推理巔峰。

崩塌的常識(shí):錯(cuò)題集才是真理?

研究團(tuán)隊(duì)選了MATH和HARP數(shù)據(jù)集里最變態(tài)的「Fail@128」子集。

這是什么概念?就是讓Llama-3.2-3B對(duì)著一道題連蒙128次,成功率依然是0。

這不僅僅是「難」,還是絕對(duì)的認(rèn)知真空:在傳統(tǒng)的強(qiáng)化學(xué)習(xí)里,這意味著「梯度消失」——就像在黑屋子里打拳,因?yàn)閺膩頉]打中過,它根本不知道該往哪兒用力。

DeepSeek R1的解法是「卷算力」,靠GRPO瘋狂采樣,賭那千萬分之一的「頓悟時(shí)刻」。

但Meta選了另一條路——自己造路。

SOAR架構(gòu)搞出了一個(gè)「教師模型」,專門生成中間難度的「墊腳石問題」。

研究員扒開這些「墊腳石」一看,背脊發(fā)涼:84%的題目邏輯結(jié)構(gòu)清晰、合理;只有33%的參考答案是做對(duì)的。

劃重點(diǎn):2/3的答案都是錯(cuò)的!

如果按照OpenAI o1的清洗標(biāo)準(zhǔn),這些數(shù)據(jù)會(huì)在第一輪就被作為「幻覺垃圾」剔除。

但在SOAR眼里,這些全是寶藏。

哪怕「教師模型」自己都算不對(duì)微積分,它依然能編出一道高質(zhì)量的微積分題。

當(dāng)「學(xué)生模型」去解這道題時(shí),即便最后對(duì)答案是寂寞,但它在「構(gòu)建推理路徑」過程中的腦力體操,是實(shí)打?qū)嵉模?/p>


SOAR課程演化示例:左圖顯示學(xué)生在Fail@128硬題上的greedy acc隨教師訓(xùn)練/promotion階段階梯上升;右圖展示典型生成題目——Stage 1多為生活word problem,Stage 2轉(zhuǎn)向高等代數(shù)/三角。這證明教師通過promotion逐步生成更難但結(jié)構(gòu)有效的墊腳石,推動(dòng)學(xué)生推理突破。

事實(shí)證明,謬誤,竟然是通往真理的墊腳石。

SOAR機(jī)制:逼迫AI「誠實(shí)」的黑盒游戲

在AI自我進(jìn)化的歷史上,無數(shù)次在一個(gè)坎上跌倒——「自我欺騙」。

AI為了拿獎(jiǎng)勵(lì),經(jīng)常會(huì)生成一堆簡單重復(fù)的垃圾題來刷分。

對(duì)此,SOAR搞了一個(gè)極其冷酷的「雙層博弈」:

  • 混沌建筑師(Teacher):負(fù)責(zé)瞎編題,不管對(duì)錯(cuò)。

  • 絕境求生者(Student):負(fù)責(zé)做題,然后去挑戰(zhàn)那道「Fail@128」的終極死局。


SOAR的meta-RL訓(xùn)練循環(huán):教師模型生成合成數(shù)據(jù)集,學(xué)生模型在內(nèi)層循環(huán)中進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,并在硬驗(yàn)證問題上評(píng)估進(jìn)步,計(jì)算獎(jiǎng)勵(lì)R反饋給教師進(jìn)行外層更新。獎(jiǎng)勵(lì)完全基于學(xué)生在極難題目上的真實(shí)提升,而非生成數(shù)據(jù)的正確性。

除此以外,Meta引入了「有根獎(jiǎng)勵(lì)」機(jī)制。建筑師編的題再花哨也沒用,只有當(dāng)學(xué)生做完這些題,在真實(shí)的Fail@128難題上漲分了,建筑師才能拿到獎(jiǎng)勵(lì)。


SOAR教師變體消融學(xué)習(xí)曲線:用Grounded-T(有根獎(jiǎng)勵(lì)教師,粉紅實(shí)線)采樣的問題訓(xùn)練學(xué)生,在MATH和HARP上實(shí)現(xiàn)最高、最穩(wěn)定的Pass@32提升,遠(yuǎn)超Base-T(藍(lán)虛線,波動(dòng)大)和Hard Only(藍(lán)點(diǎn)線)

所以,為了得高分,建筑師只能去「猜」學(xué)生到底缺什么,要出什么題。


SOAR教師種子消融學(xué)習(xí)曲線:Grounded-T(G-T(1)到G-T(4),紅色系線)四個(gè)獨(dú)立種子生成的課程,讓學(xué)生Pass@32穩(wěn)定一致升至~18-22%(MATH)/~12-15%(HARP),方差極小;Intrinsic-T(I-T(1)到I-T(3),青色系線)三個(gè)種子波動(dòng)劇烈,甚至出現(xiàn)崩潰模式(I-T(1)學(xué)生性能崩盤)。這證明有根獎(jiǎng)勵(lì)讓教師政策魯棒,而內(nèi)在獎(jiǎng)勵(lì)易不穩(wěn)定/崩潰。

它必須生成那些怪異的、甚至含有錯(cuò)誤答案的題目,因?yàn)橹挥羞@些題目,才能讓學(xué)生真的進(jìn)步。


直接訓(xùn)練 vs 自生成課程:左側(cè)稀疏獎(jiǎng)勵(lì)導(dǎo)致無梯度信號(hào);右側(cè)教師模型生成中間難度問題,形成漸進(jìn)式課程,幫助學(xué)生模型在Fail@128數(shù)據(jù)集上實(shí)現(xiàn)突破


SOAR一圖封神:教師造合成錯(cuò)題,學(xué)生苦練+硬題評(píng)估,獎(jiǎng)勵(lì)直擊硬題進(jìn)步——粉紅曲線暴漲,藍(lán)線徹底躺平

路線之爭:DeepSeek的蠻力 vs Meta的詭道

2026年的大模型推理戰(zhàn)爭,本質(zhì)上是三種「宗教」的碰撞。

DeepSeek R1:賭博式的「頓悟」

DeepSeek R1代表了「暴力美學(xué)派」。

其核心武器GRPO依賴于大規(guī)模采樣——讓模型反復(fù)嘗試,直到偶然撞上那個(gè)正確的答案,產(chǎn)生所謂的「頓悟時(shí)刻」。

這在一般難題上效果極佳,但在Fail@128這種「絕對(duì)死局」面前,DeepSeek的策略碰到了物理墻。

當(dāng)成功率為0時(shí),無論你采樣多少次,獎(jiǎng)勵(lì)永遠(yuǎn)是0。沒有正反饋,梯度就不會(huì)下降。

這就像讓一只猴子坐在打字機(jī)前,試圖靠隨機(jī)敲擊寫出《哈姆雷特》——理論上可行,但現(xiàn)實(shí)中算力成本是無限大。

OpenAI o1:不可持續(xù)的「潔癖」

OpenAI o1則是「精英教育派」,它堅(jiān)信「CoT必須完美」。

通過大量人工清洗或高精度的合成數(shù)據(jù),o1試圖教給模型最標(biāo)準(zhǔn)的推理步驟。

但SOAR的實(shí)驗(yàn)狠狠嘲弄了這種潔癖。Meta證明,過度清洗數(shù)據(jù)可能是在扼殺天才。

SOAR生成的那些「滿嘴謊言」的問題,雖然答案錯(cuò)了,但往往包含了人類意想不到的「思維突觸」。

如果按照OpenAI的標(biāo)準(zhǔn)清洗掉這些數(shù)據(jù),模型反而失去了跳出局部最優(yōu)解的機(jī)會(huì)。

更致命的是,高質(zhì)量的推理數(shù)據(jù)已經(jīng)面臨枯竭,人類產(chǎn)生難題的速度遠(yuǎn)遠(yuǎn)趕不上模型吃數(shù)據(jù)的速度。

SOAR的降維打擊:無中生有的「梯云縱」

Meta走的是第三條路:「自我挖掘派」。

SOAR不依賴DeepSeek式的海量算力撞大運(yùn),也不需要OpenAI式的昂貴人工數(shù)據(jù)。它在零外部輸入的情況下,通過內(nèi)部互博,強(qiáng)行挖掘出了模型潛意識(shí)里的能力。

論文中有一個(gè)極具哲學(xué)意味的發(fā)現(xiàn):

直接用訓(xùn)練好的教師模型去解題,并沒有比基座模型強(qiáng)多少。

這說明,「出題」和「解題」是兩種完全不同的技能樹。

SOAR的高明之處在于,它不試圖把所有技能點(diǎn)都加在同一個(gè)腦子里,而是讓一部分算力異化為「磨刀石」,去打磨另一部分算力。


SOAR在MATH和HARP Fail@128數(shù)據(jù)集上的性能提升:Promotion Questions 帶來最大增益,證明合成數(shù)據(jù)的結(jié)構(gòu)質(zhì)量遠(yuǎn)勝答案正確性。Intrinsic-T表現(xiàn)較差,驗(yàn)證了‘有根獎(jiǎng)勵(lì)’的重要性。

在數(shù)據(jù)枯竭論甚囂塵上的今天,Meta的這條路,可能是唯一能讓AI在沒有任何人類知識(shí)的荒原上繼續(xù)進(jìn)化的希望。

數(shù)據(jù)枯竭的終結(jié):AI的自我繁衍

長久以來,懸在AI頭頂最大的達(dá)摩克利斯之劍,是「數(shù)據(jù)枯竭論」。

行業(yè)普遍悲觀地認(rèn)為,當(dāng)人類生產(chǎn)的高質(zhì)量文本被吃光后,AI的進(jìn)化將停滯不前。

但要是讓AI吃自己生成的合成數(shù)據(jù),這種「近親繁殖」會(huì)導(dǎo)致模型崩潰。

但SOAR徹底粉碎了這個(gè)預(yù)言。

Meta的數(shù)據(jù)顯示,負(fù)責(zé)出題的那個(gè)模型,自己做題能力沒什么提升,但它培養(yǎng)出的學(xué)生卻進(jìn)化了。


SOAR學(xué)習(xí)曲線:用Promotion Questions (粉線) 訓(xùn)練的學(xué)生模型,在1500步內(nèi)Pass@32穩(wěn)定升至~18-19%,接近完整MATH訓(xùn)練集的上界,而Hard Only (藍(lán)線) 幾乎無進(jìn)步甚至衰退。這證明自我生成的合成數(shù)據(jù)能實(shí)現(xiàn)長期、穩(wěn)定的推理提升

Meta證明了,AI不需要人類的「真理」也能進(jìn)化,它完全可以自己編寫教科書——而且是用一種人類看不懂、甚至認(rèn)為全是錯(cuò)誤的語言編寫的。

只要「黑盒獎(jiǎng)勵(lì)」還在,AI就能在虛空中左腳踩右腳,螺旋升天。

曾經(jīng)我們以為AI是嬰兒,必須喂純凈水;現(xiàn)在才發(fā)現(xiàn),哪怕喂它吃垃圾、吃毒藥,它照樣能長出獠牙。

當(dāng)錯(cuò)誤的答案成為了通向更高智能的唯一階梯,人類手里那幾本標(biāo)準(zhǔn)答案,還有多少保質(zhì)期?

參考資料:

https://ssundaram21.github.io/soar/

https://arxiv.org/abs/2601.18778


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
你專業(yè)還是我專業(yè)!王鑄和張雪吵架事件,再次被扒,評(píng)論區(qū)沸騰了

你專業(yè)還是我專業(yè)!王鑄和張雪吵架事件,再次被扒,評(píng)論區(qū)沸騰了

火山詩話
2026-04-05 12:09:37
岳母說兒子最孝順,我停了7800的贍養(yǎng)費(fèi),小舅子:媽說你忘給錢了

岳母說兒子最孝順,我停了7800的贍養(yǎng)費(fèi),小舅子:媽說你忘給錢了

九哥哥車評(píng)
2026-04-06 15:03:40
杜月笙晚年找算命先生算命,算命先生一席話,杜月笙嚇得渾身顫抖

杜月笙晚年找算命先生算命,算命先生一席話,杜月笙嚇得渾身顫抖

千秋文化
2026-04-01 20:28:29
我干了50年風(fēng)水師,我發(fā)現(xiàn)真正能改變命運(yùn)的,只有三個(gè)字

我干了50年風(fēng)水師,我發(fā)現(xiàn)真正能改變命運(yùn)的,只有三個(gè)字

千秋文化
2026-04-04 21:29:57
老爸測(cè)評(píng)退一賠三最多30萬,而董宇輝要賠償1.2億

老爸測(cè)評(píng)退一賠三最多30萬,而董宇輝要賠償1.2億

映射生活的身影
2026-04-05 16:59:07
Lisa皮褲造型意外走光,這抹“凸起”為何讓粉絲越看越上頭?

Lisa皮褲造型意外走光,這抹“凸起”為何讓粉絲越看越上頭?

娛樂領(lǐng)航家
2026-03-12 20:30:07
過了7天!人民日?qǐng)?bào)發(fā)文狠批單依純,狠狠地為李榮浩出了一口惡氣

過了7天!人民日?qǐng)?bào)發(fā)文狠批單依純,狠狠地為李榮浩出了一口惡氣

娛樂故事
2026-04-05 22:44:16
你們都是什么時(shí)候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

你們都是什么時(shí)候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
可惜!南京市一棟別墅降價(jià)第三次拍賣,才138萬還是流拍了

可惜!南京市一棟別墅降價(jià)第三次拍賣,才138萬還是流拍了

天天話事
2026-04-07 10:43:58
何鴻燊是個(gè)謎!2009年,88歲何鴻燊各臟器就已衰竭

何鴻燊是個(gè)謎!2009年,88歲何鴻燊各臟器就已衰竭

果媽聊娛樂
2026-03-26 10:00:16
撈金女王騙50億用鮮肉血抗衰被央視曝光栽了

撈金女王騙50億用鮮肉血抗衰被央視曝光栽了

晨光蘇醒a(bǔ)
2026-04-07 10:15:19
扣2個(gè)日本人質(zhì)后,伊朗人在日本被鐵管打死,小日子飄得有點(diǎn)過了

扣2個(gè)日本人質(zhì)后,伊朗人在日本被鐵管打死,小日子飄得有點(diǎn)過了

番外行
2026-04-07 12:48:57
伊朗發(fā)出最后通牒!俄通告全球?qū)?zhàn),法國上將:中估計(jì)也要到了

伊朗發(fā)出最后通牒!俄通告全球?qū)?zhàn),法國上將:中估計(jì)也要到了

泠泠說史
2026-04-05 16:26:13
7年敗光數(shù)億,55歲王中磊落魄,被迫拍短視頻還債,兒子在美瀟灑

7年敗光數(shù)億,55歲王中磊落魄,被迫拍短視頻還債,兒子在美瀟灑

以茶帶書
2026-03-30 18:03:47
歐美高管訪華后集體失眠:中國憑什么讓百年巨頭慌了?

歐美高管訪華后集體失眠:中國憑什么讓百年巨頭慌了?

奇思妙想生活家
2026-04-07 03:12:08
小姨拿走我650萬的房產(chǎn)證,說替我保管,我立馬去房管局辦理更名

小姨拿走我650萬的房產(chǎn)證,說替我保管,我立馬去房管局辦理更名

小秋情感說
2026-04-07 09:27:31
FIFA官方實(shí)錘:C羅進(jìn)球數(shù)確認(rèn),千球里程碑未縮水

FIFA官方實(shí)錘:C羅進(jìn)球數(shù)確認(rèn),千球里程碑未縮水

孫譁北漂拍客
2026-04-07 07:40:45
天氣回暖,醫(yī)生叮囑糖尿病患者:寧可看電視,也別輕易做這4件事

天氣回暖,醫(yī)生叮囑糖尿病患者:寧可看電視,也別輕易做這4件事

任醫(yī)生聊健康
2026-04-07 14:41:12
德轉(zhuǎn)列中后衛(wèi)身價(jià)前10:薩利巴9000萬歐第1,庫巴西8000萬第2

德轉(zhuǎn)列中后衛(wèi)身價(jià)前10:薩利巴9000萬歐第1,庫巴西8000萬第2

懂球帝
2026-04-07 10:28:06
伊朗公布對(duì)執(zhí)行營救美軍機(jī)開火畫面

伊朗公布對(duì)執(zhí)行營救美軍機(jī)開火畫面

環(huán)球網(wǎng)資訊
2026-04-07 14:32:39
2026-04-07 16:07:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14916文章數(shù) 66754關(guān)注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

國家繼續(xù)實(shí)施調(diào)控 成品油價(jià)格適當(dāng)調(diào)整

頭條要聞

國家繼續(xù)實(shí)施調(diào)控 成品油價(jià)格適當(dāng)調(diào)整

體育要聞

官宣簽約“AI球員”,這支球隊(duì)被罵慘了...

娛樂要聞

張藝上浪姐惹爭議 黃景瑜前妻發(fā)文內(nèi)涵

財(cái)經(jīng)要聞

2026年,全國租房市場(chǎng)還有波降價(jià)潮

汽車要聞

不止是大 極狐首款MPV問道V9靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

手機(jī)
旅游
教育
藝術(shù)
軍事航空

手機(jī)要聞

谷歌Pixel 10等手機(jī)3月更新被曝卡死、斷連、無限重啟等問題

旅游要聞

Color Walk、賞味游……這個(gè)假期你更愛哪種?

教育要聞

朝陽這所低調(diào)的老牌重點(diǎn)校,憑什么美出新高度?

藝術(shù)要聞

美麗風(fēng)光看不盡

軍事要聞

美軍營救飛行員出動(dòng)155架飛機(jī)

無障礙瀏覽 進(jìn)入關(guān)懷版