337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

不用一個(gè)字,MIT團(tuán)隊(duì)讓細(xì)胞自動(dòng)機(jī)教會(huì)了大模型推理

0
分享至


來(lái)源:DeepTech深科技

運(yùn)營(yíng)/排版:何晨龍

1970 年,數(shù)學(xué)家約翰·康威發(fā)明了“生命游戲”(Game of Life)。在一塊無(wú)限延伸的棋盤(pán)上,每個(gè)方格非生即死,遵循幾條極其簡(jiǎn)單的規(guī)則:活細(xì)胞如果鄰居太少就會(huì)孤獨(dú)而死,太多則因擁擠而亡;死細(xì)胞恰好有三個(gè)活鄰居就會(huì)復(fù)活。

沒(méi)有人下棋,沒(méi)有人操控,但這些簡(jiǎn)單規(guī)則跑起來(lái)之后,屏幕上會(huì)涌現(xiàn)出滑翔機(jī)、脈沖槍、甚至可以模擬圖靈機(jī)的復(fù)雜結(jié)構(gòu)。半個(gè)多世紀(jì)以來(lái),這個(gè)實(shí)驗(yàn)一直被視為復(fù)雜性科學(xué)的經(jīng)典演示,展示簡(jiǎn)單規(guī)則如何生成無(wú)窮復(fù)雜的行為。


圖丨康威的“生命游戲”(來(lái)源:WikiPedia)

沒(méi)人想過(guò)這些東西能教 AI 說(shuō)話。直到現(xiàn)在。

MIT Improbable AI 實(shí)驗(yàn)室 Pulkit Agrawal 團(tuán)隊(duì)在今年 3 月發(fā)表了一篇論文,提出了一個(gè)聽(tīng)起來(lái)相當(dāng)不合常理的想法:用類(lèi)似“生命游戲”的細(xì)胞自動(dòng)機(jī)生成的數(shù)據(jù),去預(yù)訓(xùn)練大型語(yǔ)言模型。這些數(shù)據(jù)不包含任何文字、任何語(yǔ)義,只是一個(gè) 12×12 網(wǎng)格上像素不斷演化的軌跡。


圖丨Pulkit Agrawal(來(lái)源:MIT CSAIL)

但實(shí)驗(yàn)結(jié)果顯示,在這些純粹的“動(dòng)態(tài)圖案”上訓(xùn)練過(guò)的模型,在隨后的自然語(yǔ)言學(xué)習(xí)中表現(xiàn)得更好,困惑度(perplexity)降低了最多 6%,收斂速度加快了最多 1.6 倍。更讓人意外的是,僅用 1.64 億個(gè)細(xì)胞自動(dòng)機(jī) token 做預(yù)訓(xùn)練,效果竟然超過(guò)了用 16 億個(gè)真實(shí)英語(yǔ)文本(來(lái)自 Common Crawl 數(shù)據(jù)集 C4)做同樣的預(yù)訓(xùn)練。

這項(xiàng)工作的核心思路可以用一句話概括:語(yǔ)言模型真正需要學(xué)習(xí)的,可能不是語(yǔ)言本身,而是語(yǔ)言背后的計(jì)算結(jié)構(gòu)。


圖丨NCA 預(yù)預(yù)訓(xùn)練到語(yǔ)言預(yù)訓(xùn)練的概覽(來(lái)源:arXiv)

研究團(tuán)隊(duì)使用的是“神經(jīng)細(xì)胞自動(dòng)機(jī)”(Neural Cellular Automata, NCA),這是經(jīng)典細(xì)胞自動(dòng)機(jī)的一種推廣。傳統(tǒng)的細(xì)胞自動(dòng)機(jī)(比如康威的生命游戲)使用固定的規(guī)則,而 NCA 把規(guī)則替換成了一個(gè)小型神經(jīng)網(wǎng)絡(luò),具體來(lái)說(shuō)是一個(gè) 3×3 卷積加上一層 MLP。

每次生成訓(xùn)練數(shù)據(jù)時(shí),研究者隨機(jī)初始化這個(gè)網(wǎng)絡(luò)的權(quán)重,等于隨機(jī)抽取一條全新的動(dòng)力學(xué)規(guī)則,然后讓它在網(wǎng)格上跑出一段時(shí)空演化軌跡。這些軌跡被切割成 2×2 的圖像塊,映射為 token 序列,再用標(biāo)準(zhǔn)的下一個(gè) token 預(yù)測(cè)任務(wù)來(lái)訓(xùn)練 transformer。

換句話說(shuō),模型拿到的每一條序列,都來(lái)自一個(gè)它從未見(jiàn)過(guò)的規(guī)則。要預(yù)測(cè)下一個(gè) token,它必須在上下文中推斷出這條隱藏規(guī)則,然后應(yīng)用它。這和語(yǔ)言模型在真實(shí)文本上做的事情存在某種深層對(duì)應(yīng)。

斯坦福大學(xué)馬騰宇與 Percy Liang 團(tuán)隊(duì)在 2022 年的工作中就曾論證,下一個(gè) token 預(yù)測(cè)本質(zhì)上是一種隱式的貝葉斯推斷:模型從已有的文本中推斷出潛在的“生成概念”,再據(jù)此預(yù)測(cè)接下來(lái)會(huì)出現(xiàn)什么。NCA 訓(xùn)練把這個(gè)過(guò)程提純了。自然語(yǔ)言中混雜著語(yǔ)義快捷方式和共現(xiàn)先驗(yàn),模型可以“投機(jī)取巧”;而 NCA 數(shù)據(jù)中沒(méi)有任何語(yǔ)義可以依賴(lài),每一個(gè) token 都在迫使模型做純粹的規(guī)則推斷。

這套方法被稱(chēng)為“pre-pre-training”,即在正式的語(yǔ)言預(yù)訓(xùn)練之前,先用合成數(shù)據(jù)做一輪“預(yù)預(yù)訓(xùn)練”。

訓(xùn)練流程分三步走:先在 NCA 數(shù)據(jù)上訓(xùn)練 transformer 的非嵌入層權(quán)重,再在自然語(yǔ)言語(yǔ)料(網(wǎng)頁(yè)文本、代碼或數(shù)學(xué)文本)上做標(biāo)準(zhǔn)預(yù)訓(xùn)練,最后是針對(duì)具體任務(wù)的微調(diào)。研究者測(cè)試了三個(gè)下游語(yǔ)料庫(kù),分別是 OpenWebText(網(wǎng)頁(yè)文本,約 90 億 token)、OpenWebMath(數(shù)學(xué)文本,約 40 億 token)和 CodeParrot(代碼,約 130 億 token),在所有三個(gè)領(lǐng)域上都觀察到了持續(xù)的改善。


圖丨NCA 預(yù)預(yù)訓(xùn)練在多個(gè)領(lǐng)域改進(jìn)并加速了語(yǔ)言模型預(yù)訓(xùn)練(來(lái)源:arXiv)

在推理基準(zhǔn)測(cè)試上,收益同樣可見(jiàn)。GSM8K 數(shù)學(xué)推理測(cè)試中,NCA 預(yù)訓(xùn)練將 pass@1 從 3.8% 提升到 4.4%;HumanEval 代碼生成測(cè)試中,pass@1 從 6.8% 提升到 7.5%;BigBench-Lite 綜合推理測(cè)試中,pass@4 從 25.9% 躍升至 36.5%。

絕對(duì)數(shù)字不算大,這些畢竟是 16 億參數(shù)的模型,而非千億級(jí)的商用系統(tǒng),但對(duì)照實(shí)驗(yàn)的一致性指向了一個(gè)清晰的信號(hào):從非語(yǔ)言數(shù)據(jù)中習(xí)得的某些東西,確實(shí)在幫助模型處理語(yǔ)言任務(wù)。

那么,到底是什么被轉(zhuǎn)移了?研究者做了一個(gè)拆解實(shí)驗(yàn):在 NCA 預(yù)訓(xùn)練完成后,選擇性地重新初始化模型的不同組件(注意力層、MLP 層、LayerNorm 層),然后觀察下游表現(xiàn)的變化。結(jié)果非常明確:重新初始化注意力權(quán)重造成的性能損失最大,遠(yuǎn)超其他組件。這意味著注意力層承載了最多的可遷移結(jié)構(gòu)。

MLP 層的效果則因領(lǐng)域而異:在 OpenWebText 上,保留 NCA 階段的 MLP 權(quán)重反而會(huì)干擾語(yǔ)言學(xué)習(xí);但在 CodeParrot 上,影響可以忽略不計(jì)。

這一發(fā)現(xiàn)和最近 Jelassi 等人(2025 年)對(duì)混合專(zhuān)家(MoE)架構(gòu)的分析形成了一定程度的呼應(yīng),那項(xiàng)工作表明擴(kuò)大 MLP 參數(shù)主要增強(qiáng)的是記憶能力而非推理能力。兩相對(duì)照,一幅功能分工的圖景浮現(xiàn)出來(lái):注意力層負(fù)責(zé)學(xué)習(xí)通用的依賴(lài)追蹤和上下文推斷機(jī)制,MLP 層則傾向于存儲(chǔ)特定領(lǐng)域的模式和統(tǒng)計(jì)規(guī)律。正因如此,注意力層從 NCA 到語(yǔ)言的遷移是“萬(wàn)金油”式的,而 MLP 的遷移效果取決于源域和目標(biāo)域之間的匹配程度。

研究中另一個(gè)值得關(guān)注的發(fā)現(xiàn)有關(guān)于復(fù)雜性匹配。團(tuán)隊(duì)使用 gzip 壓縮率作為 NCA 軌跡復(fù)雜性的度量,壓縮率低意味著數(shù)據(jù)更有規(guī)律、更可預(yù)測(cè),壓縮率高則意味著更豐富的時(shí)空結(jié)構(gòu)。他們把 NCA 數(shù)據(jù)按壓縮率分成幾個(gè)區(qū)間(20-30%、30-40%、40-50%、50% 以上),分別測(cè)試各區(qū)間對(duì)不同下游領(lǐng)域的遷移效果。

結(jié)果表明,網(wǎng)頁(yè)文本和數(shù)學(xué)文本從高復(fù)雜度 NCA(50%+ 壓縮率)中受益最大,而代碼領(lǐng)域的最優(yōu)區(qū)間在中等復(fù)雜度(30-40%)。有意思的是,這恰好與目標(biāo)語(yǔ)料自身的復(fù)雜度特征對(duì)齊,OpenWebText 和 OpenWebMath 的 gzip 壓縮率在 60-70%,CodeParrot 則只有 32%。

這意味著,合成數(shù)據(jù)不是“越多越好”或“越復(fù)雜越好”,而是需要與目標(biāo)領(lǐng)域的計(jì)算特征相匹配。研究者稱(chēng)之為“domain-targeted data design”,一種自然語(yǔ)言訓(xùn)練中不存在的調(diào)控杠桿。你無(wú)法輕易改變英語(yǔ)的統(tǒng)計(jì)特性,但你可以調(diào)整 NCA 的規(guī)則空間、字母表大小、復(fù)雜度分布,讓它精確匹配你想要訓(xùn)練的能力。

這項(xiàng)工作的理論背景可以追溯到幾條學(xué)術(shù)脈絡(luò)。一條是 MIT 同校 Phillip Isola 團(tuán)隊(duì)在 2024 年提出的“柏拉圖表征假說(shuō)”(Platonic Representation Hypothesis),核心觀點(diǎn)是不同模態(tài)、不同架構(gòu)的 AI 模型,隨著規(guī)模增大,內(nèi)部表征正在趨同,仿佛都在逼近對(duì)現(xiàn)實(shí)世界的某種共同的統(tǒng)計(jì)模型。如果這個(gè)假說(shuō)成立,那么從非語(yǔ)言數(shù)據(jù)中能學(xué)到與語(yǔ)言相通的表征,就不那么令人驚訝了。

,它指出對(duì)于計(jì)算能力有限的觀察者而言,簡(jiǎn)單的確定性過(guò)程也能生成需要學(xué)習(xí)才能把握的結(jié)構(gòu)信息。經(jīng)典信息論認(rèn)為確定性變換不能增加信息量,但那假設(shè)的是全知全能的觀察者;對(duì)于一個(gè)有限容量的 transformer 來(lái)說(shuō),生命游戲中涌現(xiàn)的滑翔機(jī)和碰撞圖案,確實(shí)包含了它必須“理解”才能預(yù)測(cè)的東西。

關(guān)于“為什么 1.6 億 token 的自動(dòng)機(jī)數(shù)據(jù)能勝過(guò) 16 億 token 的英語(yǔ)”,研究者給出的解釋是:在遠(yuǎn)低于計(jì)算最優(yōu)規(guī)模的 token 預(yù)算下(Chinchilla 定律建議 16 億參數(shù)模型需要約 320 億 token),自然語(yǔ)言訓(xùn)練主要在學(xué)習(xí)淺層的局部模式,比如詞匯搭配、句法片段這些“表面功夫”。

而 NCA 數(shù)據(jù)由于每條序列都對(duì)應(yīng)一個(gè)獨(dú)特的動(dòng)力學(xué)規(guī)則,多樣性極高,冗余性極低,每個(gè) token 都在訓(xùn)練模型做深層的規(guī)則推斷。加之 Abbas 等人(2023 年)的研究已經(jīng)表明大規(guī)模自然語(yǔ)言數(shù)據(jù)集內(nèi)部存在大量語(yǔ)義冗余,NCA 在 token 效率上的優(yōu)勢(shì)就變得可以理解了。

不過(guò),目前這個(gè)實(shí)驗(yàn)的規(guī)模還限于 16 億參數(shù),距離工業(yè)級(jí)的千億參數(shù)模型還有數(shù)量級(jí)的差距。NCA 預(yù)訓(xùn)練的增益隨模型規(guī)模增大而遞減,400M 模型改善了 8.6%,1.6B 模型改善了 5.7%,這個(gè)趨勢(shì)在更大規(guī)模上是否會(huì)完全消失,目前還不清楚。

此外,對(duì)于較大字母表(n=10, 15)的 NCA,收益在一定 token 預(yù)算后出現(xiàn)飽和甚至下降,說(shuō)明簡(jiǎn)單地“生成更多 NCA 數(shù)據(jù)”并不是萬(wàn)能解法。如何從理論上指導(dǎo)合成數(shù)據(jù)的生成,使其精確匹配目標(biāo)領(lǐng)域的計(jì)算特征,仍然是一個(gè)開(kāi)放的研究問(wèn)題。

但研究者們的期望不止于此。論文的結(jié)尾寫(xiě)道,他們的最終愿景是完全用干凈的合成數(shù)據(jù)做預(yù)訓(xùn)練,只在最后階段用少量經(jīng)過(guò)精心篩選的自然語(yǔ)言來(lái)獲取語(yǔ)義。當(dāng)前的“預(yù)預(yù)訓(xùn)練”框架是這個(gè)范式的早期原型。

參考資料:

1.https://arxiv.org/pdf/2603.10055

閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問(wèn)21世紀(jì)關(guān)鍵技術(shù)研究院的“未來(lái)知識(shí)庫(kù)”


未來(lái)知識(shí)庫(kù)是 “21世紀(jì)關(guān)鍵技術(shù)研究院”建 立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類(lèi)風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。

截止到2月28日 ”未來(lái)知識(shí)庫(kù)”精選的百部前沿科技趨勢(shì)報(bào)告

(加入未來(lái)知識(shí)庫(kù),全部資料免費(fèi)閱讀和下載)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一只蒼蠅困死整個(gè)大陸?無(wú)法種地不能養(yǎng)馬,這才是非洲的窮根!

一只蒼蠅困死整個(gè)大陸?無(wú)法種地不能養(yǎng)馬,這才是非洲的窮根!

你是我心中最美星空
2026-02-27 07:53:59
全球首個(gè)!諾和諾德每周一次胰島素獲批上市

全球首個(gè)!諾和諾德每周一次胰島素獲批上市

醫(yī)藥魔方
2026-03-27 10:37:12
兩性關(guān)系:男人做到“三慢兩快”,女人自然愛(ài)你入骨

兩性關(guān)系:男人做到“三慢兩快”,女人自然愛(ài)你入骨

周哥一影視
2026-03-30 01:36:23
每體:FIFA將因拉菲尼亞傷病向巴薩作出賠償,金額約14.4萬(wàn)歐

每體:FIFA將因拉菲尼亞傷病向巴薩作出賠償,金額約14.4萬(wàn)歐

懂球帝
2026-03-28 21:40:23
王晶曝陳百?gòu)?qiáng)真正死因,64歲何超瓊顏面盡失

王晶曝陳百?gòu)?qiáng)真正死因,64歲何超瓊顏面盡失

君笙的拂兮
2026-03-22 03:44:36
年賺1400億的中國(guó)平安,和三年前一樣便宜...

年賺1400億的中國(guó)平安,和三年前一樣便宜...

巴山財(cái)觀
2026-03-29 18:11:46
中年人抗衰老最佳方式——死磕這4個(gè)方法,讓你保持好身材,凍齡

中年人抗衰老最佳方式——死磕這4個(gè)方法,讓你保持好身材,凍齡

運(yùn)動(dòng)健身號(hào)
2026-03-25 09:20:13
女性衰老的標(biāo)志:1臭、2大、3小,如果你沒(méi)有,說(shuō)明還年輕!

女性衰老的標(biāo)志:1臭、2大、3小,如果你沒(méi)有,說(shuō)明還年輕!

路醫(yī)生健康科普
2026-03-20 18:00:03
阿里取消入職體檢環(huán)節(jié)

阿里取消入職體檢環(huán)節(jié)

螞蟻大喇叭
2026-03-28 17:06:53
中美5月會(huì)晤要談臺(tái)灣問(wèn)題?美幫助中方統(tǒng)一,中方幫助美退出中東

中美5月會(huì)晤要談臺(tái)灣問(wèn)題?美幫助中方統(tǒng)一,中方幫助美退出中東

戰(zhàn)友老鄧
2026-03-28 14:59:25
網(wǎng)友曝張雪峰搶救細(xì)節(jié):倒地30分鐘才被發(fā)現(xiàn),用ECMO全力搶救無(wú)效

網(wǎng)友曝張雪峰搶救細(xì)節(jié):倒地30分鐘才被發(fā)現(xiàn),用ECMO全力搶救無(wú)效

體育小柚
2026-03-28 09:36:06
“老師最煩這種現(xiàn)眼包家長(zhǎng)”,寶媽運(yùn)動(dòng)會(huì)穿緊身裙,被嘲故作嬌弱

“老師最煩這種現(xiàn)眼包家長(zhǎng)”,寶媽運(yùn)動(dòng)會(huì)穿緊身裙,被嘲故作嬌弱

妍妍教育日記
2026-03-17 20:29:16
拔出蘿卜帶出泥!釋永信“開(kāi)光”內(nèi)幕曝光,這4位女星被流言害慘

拔出蘿卜帶出泥!釋永信“開(kāi)光”內(nèi)幕曝光,這4位女星被流言害慘

科學(xué)發(fā)掘
2026-03-30 00:32:17
抱頭痛哭!37歲娜塔莉亞天津賽季收官,單核拖進(jìn)四強(qiáng)已超預(yù)期

抱頭痛哭!37歲娜塔莉亞天津賽季收官,單核拖進(jìn)四強(qiáng)已超預(yù)期

金毛愛(ài)女排
2026-03-30 00:00:15
總統(tǒng)支持率跌到36%,關(guān)稅被法院判違憲,拉美裔選民大量流失

總統(tǒng)支持率跌到36%,關(guān)稅被法院判違憲,拉美裔選民大量流失

聚焦真實(shí)瞬間
2026-03-29 23:43:47
成都西徹底逆襲!曾經(jīng)瞧不上,未來(lái)讓你高攀不起!

成都西徹底逆襲!曾經(jīng)瞧不上,未來(lái)讓你高攀不起!

一口娛樂(lè)
2026-03-27 16:41:31
藍(lán)調(diào):一種關(guān)于存在的深邃敘事

藍(lán)調(diào):一種關(guān)于存在的深邃敘事

疾跑的小蝸牛
2026-03-27 20:52:52
女子因桃花眼走紅,訂婚兩年熱度依舊,網(wǎng)友喊話:88號(hào)快回來(lái)上班

女子因桃花眼走紅,訂婚兩年熱度依舊,網(wǎng)友喊話:88號(hào)快回來(lái)上班

梅子的小情緒
2025-12-19 14:04:18
東北虎這么強(qiáng),為啥不敢進(jìn)入西伯利亞深處?它也有害怕的東西嗎?

東北虎這么強(qiáng),為啥不敢進(jìn)入西伯利亞深處?它也有害怕的東西嗎?

向航說(shuō)
2026-03-29 00:45:03
刺激夜:美國(guó)2-5,加拿大2-2,日本1-0,塞內(nèi)加爾2-0,韓國(guó)0-4

刺激夜:美國(guó)2-5,加拿大2-2,日本1-0,塞內(nèi)加爾2-0,韓國(guó)0-4

側(cè)身凌空斬
2026-03-29 05:40:30
2026-03-30 02:56:49
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4616文章數(shù) 37440關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯(cuò)了",11位創(chuàng)始人均離職

頭條要聞

伊朗議長(zhǎng):美航母遭受巨大損失 我們絕不接受屈辱

頭條要聞

伊朗議長(zhǎng):美航母遭受巨大損失 我們絕不接受屈辱

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻(xiàn)給父親

娛樂(lè)要聞

汪峰定律再現(xiàn)!李榮浩喊話單依純侵權(quán)

財(cái)經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車(chē)要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
健康
家居
教育

藝術(shù)要聞

不守墨矩的揚(yáng)州八怪

數(shù)碼要聞

內(nèi)存條價(jià)格被曝出現(xiàn)斷崖式下跌,一天跌去百元

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

家居要聞

曲線華爾茲 現(xiàn)代簡(jiǎn)約

教育要聞

建議給家長(zhǎng)放春秋假,否則的話,學(xué)生放春秋假就失去意義

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版