![]()
Andrej Karpathy開源了一個叫autoresearch的項目,核心邏輯簡單粗暴:讓AI自己跑實驗、看結(jié)果、改參數(shù),循環(huán)幾天,模型就變強了。這套原本用來訓(xùn)練大語言模型的自動化流程,現(xiàn)在被人搬到了日常寫代碼的場景里。
一位長期用Claude Code的開發(fā)者看完代碼后,直接動手改了個版本。他的目標(biāo)不是訓(xùn)練模型,而是讓AI助手自己優(yōu)化自己的"工作習(xí)慣"——怎么拆解任務(wù)、怎么查代碼庫、怎么保證輸出風(fēng)格一致。這相當(dāng)于給Claude裝了個自動迭代的反饋系統(tǒng)。
從煉丹到寫代碼,同一套自動化邏輯
Karpathy的原版autoresearch針對的是LLM訓(xùn)練場景。你定好一個指標(biāo)(比如驗證集上的bits per byte),然后讓Claude Code自動改訓(xùn)練代碼、跑實驗、記錄結(jié)果。能提升指標(biāo)就保留,不行就回滾。整個過程可以無人值守跑上幾天。
這位開發(fā)者平時寫代碼已經(jīng)高度依賴Claude Code,但他發(fā)現(xiàn)自己的"使用方式"很隨意。測試新技巧靠感覺,優(yōu)化流程靠人工復(fù)盤。他形容這是"不科學(xué)"的——沒有對照實驗,沒有穩(wěn)定指標(biāo),改進全靠拍腦袋。
于是他決定把autoresearch的骨架抽出來,套到coding skill的優(yōu)化上。
一個典型的coding skill長這樣:接收任務(wù)→探索代碼庫→制定計劃→執(zhí)行→自我審查。他要做的,就是設(shè)計一套實驗機制,讓這個流程本身自動進化。
三個硬指標(biāo),卡住AI的 output 質(zhì)量
原版autoresearch只用單一指標(biāo)(val_bpb)決定生死,但寫代碼顯然更復(fù)雜。這位開發(fā)者設(shè)計了三個關(guān)鍵指標(biāo):
第一,代碼是否通過測試。這是底線,沒商量。
第二,是否符合項目規(guī)范。包括命名風(fēng)格、文件組織、注釋習(xí)慣——這些往往寫在項目的CONTRIBUTING.md或者團隊內(nèi)部文檔里,但AI經(jīng)常選擇性忽略。
第三,人工審查通過率。模擬真實的code review場景,看AI生成的代碼能不能過得了人類同事那關(guān)。
為了簡化,他先用二元評分:過/不過。未來可以擴展成更細(xì)粒度的打分,但二進制足夠啟動循環(huán)。
無狀態(tài)循環(huán):每次迭代都是全新的開始
整個auto-improve loop的設(shè)計刻意保持無狀態(tài)。每次迭代從當(dāng)前最佳版本出發(fā),生成一個候選變體,跑完整套測試,根據(jù)三個指標(biāo)決定是晉升為新baseline還是丟棄。
這意味著系統(tǒng)不會"記住"之前失敗的嘗試,也不會被局部最優(yōu)困住。每次都有機會徹底重構(gòu)skill的結(jié)構(gòu),而不是在現(xiàn)有框架上修修補補。
這種設(shè)計有個副作用:如果某次迭代把skill改崩了,直接丟棄就行,不會污染后續(xù)實驗。代價是可能重復(fù)探索相似的空間,但換來了穩(wěn)定性和可并行性。
開發(fā)者提到,這套機制理論上可以讓AI完全自主地"訓(xùn)練"自己的coding skill,針對特定代碼庫和團隊習(xí)慣持續(xù)優(yōu)化,不需要人類盯著每一步。
落地前的三道坎
想法很干凈,實現(xiàn)起來還有一堆麻煩。
測試用例從哪來?需要大量真實的"任務(wù)-參考代碼"pair,覆蓋不同復(fù)雜度、不同領(lǐng)域的場景。自己造數(shù)據(jù)容易過擬合,用生產(chǎn)代碼又有隱私問題。
指標(biāo)怎么量化?"符合規(guī)范"和"通過審查"都有主觀成分。兩個人review同一份代碼可能給出不同結(jié)論,怎么讓AI學(xué)會這種模糊判斷?
還有成本問題。每個候選版本都要跑完整套測試,如果skill本身調(diào)用API或者操作數(shù)據(jù)庫,實驗開銷會指數(shù)級膨脹。
這些坑不會在設(shè)計階段顯形,只有真正跑起來才知道深淺。開發(fā)者說他會在有初步結(jié)果后繼續(xù)分享——目前還停留在紙面推演。
如果這套機制跑通,意味著AI助手的進化方式會發(fā)生質(zhì)變。不再是廠商統(tǒng)一推送模型更新,而是每個團隊、每個代碼庫都能養(yǎng)出自己的"定制化AI同事"。你的Claude和我的Claude,半年后可能完全是兩種工作風(fēng)格。
這種分化是效率的極致,還是協(xié)作的噩夢?當(dāng)AI的技能樹開始碎片化,人類程序員該怎么跟不同"性格"的AI搭檔?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.