不用一個(gè)字，MIT團(tuán)隊(duì)讓細(xì)胞自動(dòng)機(jī)教會(huì)了大模型推理

2026-03-23 18:28:08　來源: DeepTech深科技

北京舉報(bào)

分享至

1970 年，數(shù)學(xué)家約翰·康威發(fā)明了“生命游戲”（Game of Life）。在一塊無限延伸的棋盤上，每個(gè)方格非生即死，遵循幾條極其簡單的規(guī)則：活細(xì)胞如果鄰居太少就會(huì)孤獨(dú)而死，太多則因擁擠而亡；死細(xì)胞恰好有三個(gè)活鄰居就會(huì)復(fù)活。

沒有人下棋，沒有人操控，但這些簡單規(guī)則跑起來之后，屏幕上會(huì)涌現(xiàn)出滑翔機(jī)、脈沖槍、甚至可以模擬圖靈機(jī)的復(fù)雜結(jié)構(gòu)。半個(gè)多世紀(jì)以來，這個(gè)實(shí)驗(yàn)一直被視為復(fù)雜性科學(xué)的經(jīng)典演示，展示簡單規(guī)則如何生成無窮復(fù)雜的行為。

圖丨康威的“生命游戲”（來源：WikiPedia）

沒人想過這些東西能教 AI 說話。直到現(xiàn)在。

MIT Improbable AI 實(shí)驗(yàn)室 Pulkit Agrawal 團(tuán)隊(duì)在今年 3 月發(fā)表了一篇論文，提出了一個(gè)聽起來相當(dāng)不合常理的想法：用類似“生命游戲”的細(xì)胞自動(dòng)機(jī)生成的數(shù)據(jù)，去預(yù)訓(xùn)練大型語言模型。這些數(shù)據(jù)不包含任何文字、任何語義，只是一個(gè) 12×12 網(wǎng)格上像素不斷演化的軌跡。

圖丨Pulkit Agrawal（來源：MIT CSAIL）

但實(shí)驗(yàn)結(jié)果顯示，在這些純粹的“動(dòng)態(tài)圖案”上訓(xùn)練過的模型，在隨后的自然語言學(xué)習(xí)中表現(xiàn)得更好，困惑度（perplexity）降低了最多 6%，收斂速度加快了最多 1.6 倍。更讓人意外的是，僅用 1.64 億個(gè)細(xì)胞自動(dòng)機(jī) token 做預(yù)訓(xùn)練，效果竟然超過了用 16 億個(gè)真實(shí)英語文本（來自 Common Crawl 數(shù)據(jù)集 C4）做同樣的預(yù)訓(xùn)練。

這項(xiàng)工作的核心思路可以用一句話概括：語言模型真正需要學(xué)習(xí)的，可能不是語言本身，而是語言背后的計(jì)算結(jié)構(gòu)。

圖丨NCA 預(yù)預(yù)訓(xùn)練到語言預(yù)訓(xùn)練的概覽（來源：arXiv）

研究團(tuán)隊(duì)使用的是“神經(jīng)細(xì)胞自動(dòng)機(jī)”（Neural Cellular Automata, NCA），這是經(jīng)典細(xì)胞自動(dòng)機(jī)的一種推廣。傳統(tǒng)的細(xì)胞自動(dòng)機(jī)（比如康威的生命游戲）使用固定的規(guī)則，而 NCA 把規(guī)則替換成了一個(gè)小型神經(jīng)網(wǎng)絡(luò)，具體來說是一個(gè) 3×3 卷積加上一層 MLP。

每次生成訓(xùn)練數(shù)據(jù)時(shí)，研究者隨機(jī)初始化這個(gè)網(wǎng)絡(luò)的權(quán)重，等于隨機(jī)抽取一條全新的動(dòng)力學(xué)規(guī)則，然后讓它在網(wǎng)格上跑出一段時(shí)空演化軌跡。這些軌跡被切割成 2×2 的圖像塊，映射為 token 序列，再用標(biāo)準(zhǔn)的下一個(gè) token 預(yù)測任務(wù)來訓(xùn)練 transformer。

換句話說，模型拿到的每一條序列，都來自一個(gè)它從未見過的規(guī)則。要預(yù)測下一個(gè) token，它必須在上下文中推斷出這條隱藏規(guī)則，然后應(yīng)用它。這和語言模型在真實(shí)文本上做的事情存在某種深層對應(yīng)。

斯坦福大學(xué)馬騰宇與 Percy Liang 團(tuán)隊(duì)在 2022 年的工作中就曾論證，下一個(gè) token 預(yù)測本質(zhì)上是一種隱式的貝葉斯推斷：模型從已有的文本中推斷出潛在的“生成概念”，再據(jù)此預(yù)測接下來會(huì)出現(xiàn)什么。NCA 訓(xùn)練把這個(gè)過程提純了。自然語言中混雜著語義快捷方式和共現(xiàn)先驗(yàn)，模型可以“投機(jī)取巧”；而 NCA 數(shù)據(jù)中沒有任何語義可以依賴，每一個(gè) token 都在迫使模型做純粹的規(guī)則推斷。

這套方法被稱為“pre-pre-training”，即在正式的語言預(yù)訓(xùn)練之前，先用合成數(shù)據(jù)做一輪“預(yù)預(yù)訓(xùn)練”。

訓(xùn)練流程分三步走：先在 NCA 數(shù)據(jù)上訓(xùn)練 transformer 的非嵌入層權(quán)重，再在自然語言語料（網(wǎng)頁文本、代碼或數(shù)學(xué)文本）上做標(biāo)準(zhǔn)預(yù)訓(xùn)練，最后是針對具體任務(wù)的微調(diào)。研究者測試了三個(gè)下游語料庫，分別是 OpenWebText（網(wǎng)頁文本，約 90 億 token）、OpenWebMath（數(shù)學(xué)文本，約 40 億 token）和 CodeParrot（代碼，約 130 億 token），在所有三個(gè)領(lǐng)域上都觀察到了持續(xù)的改善。

（來源：arXiv）

在推理基準(zhǔn)測試上，收益同樣可見。GSM8K 數(shù)學(xué)推理測試中，NCA 預(yù)訓(xùn)練將 pass@1 從 3.8% 提升到 4.4%；HumanEval 代碼生成測試中，pass@1 從 6.8% 提升到 7.5%；BigBench-Lite 綜合推理測試中，pass@4 從 25.9% 躍升至 36.5%。

絕對數(shù)字不算大，這些畢竟是 16 億參數(shù)的模型，而非千億級(jí)的商用系統(tǒng)，但對照實(shí)驗(yàn)的一致性指向了一個(gè)清晰的信號(hào)：從非語言數(shù)據(jù)中習(xí)得的某些東西，確實(shí)在幫助模型處理語言任務(wù)。

那么，到底是什么被轉(zhuǎn)移了？研究者做了一個(gè)拆解實(shí)驗(yàn)：在 NCA 預(yù)訓(xùn)練完成后，選擇性地重新初始化模型的不同組件（注意力層、MLP 層、LayerNorm 層），然后觀察下游表現(xiàn)的變化。結(jié)果非常明確：重新初始化注意力權(quán)重造成的性能損失最大，遠(yuǎn)超其他組件。這意味著注意力層承載了最多的可遷移結(jié)構(gòu)。

MLP 層的效果則因領(lǐng)域而異：在 OpenWebText 上，保留 NCA 階段的 MLP 權(quán)重反而會(huì)干擾語言學(xué)習(xí)；但在 CodeParrot 上，影響可以忽略不計(jì)。

這一發(fā)現(xiàn)和最近 Jelassi 等人（2025 年）對混合專家（MoE）架構(gòu)的分析形成了一定程度的呼應(yīng)，那項(xiàng)工作表明擴(kuò)大 MLP 參數(shù)主要增強(qiáng)的是記憶能力而非推理能力。兩相對照，一幅功能分工的圖景浮現(xiàn)出來：注意力層負(fù)責(zé)學(xué)習(xí)通用的依賴追蹤和上下文推斷機(jī)制，MLP 層則傾向于存儲(chǔ)特定領(lǐng)域的模式和統(tǒng)計(jì)規(guī)律。正因如此，注意力層從 NCA 到語言的遷移是“萬金油”式的，而 MLP 的遷移效果取決于源域和目標(biāo)域之間的匹配程度。

研究中另一個(gè)值得關(guān)注的發(fā)現(xiàn)有關(guān)于復(fù)雜性匹配。團(tuán)隊(duì)使用 gzip 壓縮率作為 NCA 軌跡復(fù)雜性的度量，壓縮率低意味著數(shù)據(jù)更有規(guī)律、更可預(yù)測，壓縮率高則意味著更豐富的時(shí)空結(jié)構(gòu)。他們把 NCA 數(shù)據(jù)按壓縮率分成幾個(gè)區(qū)間（20-30%、30-40%、40-50%、50% 以上），分別測試各區(qū)間對不同下游領(lǐng)域的遷移效果。

結(jié)果表明，網(wǎng)頁文本和數(shù)學(xué)文本從高復(fù)雜度 NCA（50%+ 壓縮率）中受益最大，而代碼領(lǐng)域的最優(yōu)區(qū)間在中等復(fù)雜度（30-40%）。有意思的是，這恰好與目標(biāo)語料自身的復(fù)雜度特征對齊，OpenWebText 和 OpenWebMath 的 gzip 壓縮率在 60-70%，CodeParrot 則只有 32%。

這意味著，合成數(shù)據(jù)不是“越多越好”或“越復(fù)雜越好”，而是需要與目標(biāo)領(lǐng)域的計(jì)算特征相匹配。研究者稱之為“domain-targeted data design”，一種自然語言訓(xùn)練中不存在的調(diào)控杠桿。你無法輕易改變英語的統(tǒng)計(jì)特性，但你可以調(diào)整 NCA 的規(guī)則空間、字母表大小、復(fù)雜度分布，讓它精確匹配你想要訓(xùn)練的能力。

這項(xiàng)工作的理論背景可以追溯到幾條學(xué)術(shù)脈絡(luò)。一條是 MIT 同校 Phillip Isola 團(tuán)隊(duì)在 2024 年提出的“柏拉圖表征假說”（Platonic Representation Hypothesis），核心觀點(diǎn)是不同模態(tài)、不同架構(gòu)的 AI 模型，隨著規(guī)模增大，內(nèi)部表征正在趨同，仿佛都在逼近對現(xiàn)實(shí)世界的某種共同的統(tǒng)計(jì)模型。如果這個(gè)假說成立，那么從非語言數(shù)據(jù)中能學(xué)到與語言相通的表征，就不那么令人驚訝了。

另一條脈絡(luò)來自 Finzi 等人（2026 年）提出的“epiplexity”概念，它指出對于計(jì)算能力有限的觀察者而言，簡單的確定性過程也能生成需要學(xué)習(xí)才能把握的結(jié)構(gòu)信息。經(jīng)典信息論認(rèn)為確定性變換不能增加信息量，但那假設(shè)的是全知全能的觀察者；對于一個(gè)有限容量的 transformer 來說，生命游戲中涌現(xiàn)的滑翔機(jī)和碰撞圖案，確實(shí)包含了它必須“理解”才能預(yù)測的東西。

關(guān)于“為什么 1.6 億 token 的自動(dòng)機(jī)數(shù)據(jù)能勝過 16 億 token 的英語”，研究者給出的解釋是：在遠(yuǎn)低于計(jì)算最優(yōu)規(guī)模的 token 預(yù)算下（Chinchilla 定律建議 16 億參數(shù)模型需要約 320 億 token），自然語言訓(xùn)練主要在學(xué)習(xí)淺層的局部模式，比如詞匯搭配、句法片段這些“表面功夫”。

而 NCA 數(shù)據(jù)由于每條序列都對應(yīng)一個(gè)獨(dú)特的動(dòng)力學(xué)規(guī)則，多樣性極高，冗余性極低，每個(gè) token 都在訓(xùn)練模型做深層的規(guī)則推斷。加之 Abbas 等人（2023 年）的研究已經(jīng)表明大規(guī)模自然語言數(shù)據(jù)集內(nèi)部存在大量語義冗余，NCA 在 token 效率上的優(yōu)勢就變得可以理解了。

不過，目前這個(gè)實(shí)驗(yàn)的規(guī)模還限于 16 億參數(shù)，距離工業(yè)級(jí)的千億參數(shù)模型還有數(shù)量級(jí)的差距。NCA 預(yù)訓(xùn)練的增益隨模型規(guī)模增大而遞減，400M 模型改善了 8.6%，1.6B 模型改善了 5.7%，這個(gè)趨勢在更大規(guī)模上是否會(huì)完全消失，目前還不清楚。

此外，對于較大字母表（n=10, 15）的 NCA，收益在一定 token 預(yù)算后出現(xiàn)飽和甚至下降，說明簡單地“生成更多 NCA 數(shù)據(jù)”并不是萬能解法。如何從理論上指導(dǎo)合成數(shù)據(jù)的生成，使其精確匹配目標(biāo)領(lǐng)域的計(jì)算特征，仍然是一個(gè)開放的研究問題。

但研究者們的期望不止于此。論文的結(jié)尾寫道，他們的最終愿景是完全用干凈的合成數(shù)據(jù)做預(yù)訓(xùn)練，只在最后階段用少量經(jīng)過精心篩選的自然語言來獲取語義。當(dāng)前的“預(yù)預(yù)訓(xùn)練”框架是這個(gè)范式的早期原型。

參考資料：

1.https://arxiv.org/pdf/2603.10055

運(yùn)營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.