Karpathy把訓(xùn)練AI那套搬到寫代碼

2026-03-25 21:31:33　來源: Ping值焦慮

北京舉報

分享至

Andrej Karpathy開源了一個叫autoresearch的項目，核心邏輯簡單粗暴：讓AI自己跑實驗、看結(jié)果、改參數(shù)，循環(huán)幾天，模型就變強了。這套原本用來訓(xùn)練大語言模型的自動化流程，現(xiàn)在被人搬到了日常寫代碼的場景里。

一位長期用Claude Code的開發(fā)者看完代碼后，直接動手改了個版本。他的目標(biāo)不是訓(xùn)練模型，而是讓AI助手自己優(yōu)化自己的"工作習(xí)慣"——怎么拆解任務(wù)、怎么查代碼庫、怎么保證輸出風(fēng)格一致。這相當(dāng)于給Claude裝了個自動迭代的反饋系統(tǒng)。

從煉丹到寫代碼，同一套自動化邏輯

Karpathy的原版autoresearch針對的是LLM訓(xùn)練場景。你定好一個指標(biāo)（比如驗證集上的bits per byte），然后讓Claude Code自動改訓(xùn)練代碼、跑實驗、記錄結(jié)果。能提升指標(biāo)就保留，不行就回滾。整個過程可以無人值守跑上幾天。

這位開發(fā)者平時寫代碼已經(jīng)高度依賴Claude Code，但他發(fā)現(xiàn)自己的"使用方式"很隨意。測試新技巧靠感覺，優(yōu)化流程靠人工復(fù)盤。他形容這是"不科學(xué)"的——沒有對照實驗，沒有穩(wěn)定指標(biāo)，改進全靠拍腦袋。

于是他決定把autoresearch的骨架抽出來，套到coding skill的優(yōu)化上。

一個典型的coding skill長這樣：接收任務(wù)→探索代碼庫→制定計劃→執(zhí)行→自我審查。他要做的，就是設(shè)計一套實驗機制，讓這個流程本身自動進化。

三個硬指標(biāo)，卡住AI的 output 質(zhì)量

原版autoresearch只用單一指標(biāo)（val_bpb）決定生死，但寫代碼顯然更復(fù)雜。這位開發(fā)者設(shè)計了三個關(guān)鍵指標(biāo)：

第一，代碼是否通過測試。這是底線，沒商量。

第二，是否符合項目規(guī)范。包括命名風(fēng)格、文件組織、注釋習(xí)慣——這些往往寫在項目的CONTRIBUTING.md或者團隊內(nèi)部文檔里，但AI經(jīng)常選擇性忽略。

第三，人工審查通過率。模擬真實的code review場景，看AI生成的代碼能不能過得了人類同事那關(guān)。

為了簡化，他先用二元評分：過/不過。未來可以擴展成更細(xì)粒度的打分，但二進制足夠啟動循環(huán)。

無狀態(tài)循環(huán)：每次迭代都是全新的開始

整個auto-improve loop的設(shè)計刻意保持無狀態(tài)。每次迭代從當(dāng)前最佳版本出發(fā)，生成一個候選變體，跑完整套測試，根據(jù)三個指標(biāo)決定是晉升為新baseline還是丟棄。

這意味著系統(tǒng)不會"記住"之前失敗的嘗試，也不會被局部最優(yōu)困住。每次都有機會徹底重構(gòu)skill的結(jié)構(gòu)，而不是在現(xiàn)有框架上修修補補。

這種設(shè)計有個副作用：如果某次迭代把skill改崩了，直接丟棄就行，不會污染后續(xù)實驗。代價是可能重復(fù)探索相似的空間，但換來了穩(wěn)定性和可并行性。

開發(fā)者提到，這套機制理論上可以讓AI完全自主地"訓(xùn)練"自己的coding skill，針對特定代碼庫和團隊習(xí)慣持續(xù)優(yōu)化，不需要人類盯著每一步。

落地前的三道坎

想法很干凈，實現(xiàn)起來還有一堆麻煩。

測試用例從哪來？需要大量真實的"任務(wù)-參考代碼"pair，覆蓋不同復(fù)雜度、不同領(lǐng)域的場景。自己造數(shù)據(jù)容易過擬合，用生產(chǎn)代碼又有隱私問題。

指標(biāo)怎么量化？"符合規(guī)范"和"通過審查"都有主觀成分。兩個人review同一份代碼可能給出不同結(jié)論，怎么讓AI學(xué)會這種模糊判斷？

還有成本問題。每個候選版本都要跑完整套測試，如果skill本身調(diào)用API或者操作數(shù)據(jù)庫，實驗開銷會指數(shù)級膨脹。

這些坑不會在設(shè)計階段顯形，只有真正跑起來才知道深淺。開發(fā)者說他會在有初步結(jié)果后繼續(xù)分享——目前還停留在紙面推演。

如果這套機制跑通，意味著AI助手的進化方式會發(fā)生質(zhì)變。不再是廠商統(tǒng)一推送模型更新，而是每個團隊、每個代碼庫都能養(yǎng)出自己的"定制化AI同事"。你的Claude和我的Claude，半年后可能完全是兩種工作風(fēng)格。

這種分化是效率的極致，還是協(xié)作的噩夢？當(dāng)AI的技能樹開始碎片化，人類程序員該怎么跟不同"性格"的AI搭檔？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.