網易首頁 > 網易號 > 正文申請入駐

Karpathy 的 autoresearch 火了：睡覺時讓 AI 自己跑實驗，Mac 也能部署

2026-03-09 17:47:47　來源: 硅星GenAI

上海舉報

分享至

2026 年 3 月，知名 AI 研究者 Andrej Karpathy 發布了 autoresearch 項目，很快在開發者圈子里引發大量討論。緊接著，X 上創作者 @hooeem 又寫了一篇面向普通用戶的超長部署帖，把“這玩意到底是什么、誰能跑、Mac 能不能跑、Claude Code 和 Cursor 怎么選、報錯怎么辦”幾乎全都解釋了一遍。也就是說，這篇文章本身不是 Karpathy 的官方 README 翻譯，而是基于 Karpathy 項目、社區分支和實操路徑整理出來的一份“普通人可落地版說明書”。

這不是一個普通的 demo。Karpathy 把整個訓練核心壓縮成了單 GPU、單文件、約 630 行代碼的最小化版本，讓人第一次可以非常直觀地看到：如果把“改代碼、跑實驗、看指標、保留有效嘗試”這套本來由研究員重復執行的工作交給 AI 代理，會發生什么。你給它一份英文任務說明，它會自己改 train.py、跑訓練、看 val_bpb、保存有效修改、丟棄失敗嘗試，然后繼續下一輪。

最關鍵的判斷是：autoresearch 的價值，不只是“又一個開源小項目”，而是它把一個非常具體的未來擺到了普通人面前。以后很多 AI 研究，可能不再是人類研究員手動調每個參數，而是人類負責寫策略、定邊界、改 program.md，AI 代理負責通宵跑實驗。以下是這篇實操指南的完整中文編譯版。

原始鏈接：

[Karpathy 原倉庫](https://github.com/karpathy/autoresearch)

[Mac 分支](https://github.com/miolini/autoresearch-macos)

[Karpathy 在 X 上的公告](https://x.com/karpathy/status/2030371219518931079)

[Mac 分支公告](https://x.com/miolini/status/2030402705374728218)

[原始整理帖](https://x.com/hooeem/status/2030720614752039185?s=20)

一、它到底是什么？為什么這么多人在收藏？

先把 autoresearch 說人話。

想象你面前有一個很小的語言模型，它還不夠聰明，但已經能被訓練。正常情況下，一個研究員會這樣提升它：改一處訓練代碼，跑一次實驗，看指標有沒有變好；如果有效就保留，沒用就回退；然后繼續下一輪。這個過程并不神秘，但它很耗時間，也很機械。

autoresearch 的核心，就是把這套循環交給 AI 代理來做。它會做幾件固定的事：讀取你寫在 program.md 里的英文指令；修改 train.py 這個核心訓練文件；在你的 GPU 上跑一輪固定預算的訓練測試；觀察一個叫 val_bpb 的指標；如果分數更低就保留，否則就丟棄。

這里的 val_bpb 可以理解為一個衡量模型預測能力的分數。數值越低，通常表示模型越好。 Karpathy 之所以把整個倉庫做成最小化版本，意義不只是“方便大家周末玩一玩”，而是為了讓更多人第一次看清楚一個研究循環的本質：研究并不總是宏大突破，很多時候就是大量微小試錯，而這些試錯恰恰最容易被代理自動化。

這也是為什么這套東西會讓那么多人收藏。大家真正興奮的不是 630 行代碼，而是它釋放出的信號：以后人類可能不再是親手做每一個實驗的人，而是給研究組織寫任務書的人。

二、你的電腦能不能跑？這是第一道門檻

這一部分最重要，因為如果硬件不對，后面所有步驟都可以先停下。

Windows / Linux 用戶

你需要：

一張 NVIDIA GPU，例如 RTX 3060、3070、4070、4090，或者近幾年較新的 NVIDIA 顯卡。
至少 10GB 到 20GB 可用磁盤空間。
穩定網絡。
Windows 10 / 11 或 Linux 發行版。

檢查方式很直接，在終端里輸入：

nvidia-smi

如果能看到顯卡名稱和驅動信息，說明硬件這一步大概率沒問題。

Mac 用戶

Karpathy 原版倉庫并不直接支持 Apple Silicon，所以 Mac 不能直接跑原版。但社區很快做出了適配版，也就是 miolini/autoresearch-macos。

你需要：

Apple Silicon Mac，也就是 M1、M2、M3、M4 及其 Pro/Max/Ultra 變體。
最好 16GB 內存起步，32GB 或更多更好。
至少 10GB 到 20GB 可用磁盤空間。
穩定網絡。

檢查方法是：蘋果菜單 -> 關于本機 -> 看“芯片”。如果顯示 M1、M2、M3、M4，就可以繼續；如果是 Intel，這套方案就不太適合。

這也是原帖最有幫助的一點。它沒有只告訴你“可以跑”，而是把普通用戶最關心的現實問題講清楚了：沒有 NVIDIA 顯卡并不等于徹底沒戲，只要你有 Apple Silicon Mac，依然可以參與。

三、Mac 分支安全嗎？為什么很多人都在問這個問題

這其實是個很聰明的問題。任何從網上下載并本地運行的代碼，都應該先問一句：它安不安全？

原帖給出的判斷邏輯大概有 5 層。

第一，Karpathy 自己在項目生態里提到了社區為不同平臺做 fork 的思路，而 miolini/autoresearch-macos 正是這種社區適配的一部分。第二，這個倉庫在 GitHub 上是公開 fork，變更記錄可見，不是一個來歷不明的壓縮包。第三，分支作者 miolini 有持續公開的開發記錄，不是一次性賬號。第四，這個項目非常小，訓練主文件大約 630 行 Python，審計難度遠低于那種幾十萬行的大工程。第五，Mac 版做的改動總體也比較“樸素”：主要是把 NVIDIA / CUDA 路徑替換成適配 Apple Metal / MPS 的實現，并加了一些內存和編譯相關調整。

這幾層疊加起來，結論不是“絕對安全”，而是：相較于很多復雜得根本看不完的 AI 工具，這個項目至少足夠小、足夠透明、足夠容易審。

如果你還是不放心，最簡單的辦法也不是盲信，而是下載之后把整個倉庫丟給 Claude Code 或 Cursor，直接問一句：“請審查這個倉庫，看看有沒有可疑網絡請求、數據收集或與訓練無關的執行邏輯。” 對這樣一個體量很小的項目，這種快速審查完全現實。

四、你到底要安裝什么？只要 3 個工具，加 1 個 AI 代理

這套東西需要的組件，其實比大多數人想象中少。

1. Git

Git 用來下載倉庫、記錄實驗結果、保存成功嘗試。

檢查是否安裝：

git --version

如果沒有：

Mac：通常會提示安裝 Xcode Command Line Tools
Windows：去 [Git for Windows](https://git-scm.com/download/win)
Linux：sudo apt install git

2. uv

uv 是這一套體驗順不順的關鍵。它會自動幫你處理 Python 和依賴安裝，省掉傳統 Python 環境里最煩的很多步驟。

Mac / Linux：

curl -LsSf https://astral.sh/uv/install.sh | sh

Windows PowerShell：

powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

安裝完以后，一個非常關鍵的動作是：關閉終端，再重新打開。否則你很可能會遇到 command not found: uv。

3. Claude Code 或 Cursor

真正跑循環的不是 autoresearch 本身，而是你調用的 AI 代理。

如果你追求“整夜自動跑”，Claude Code 更合適，因為它天然擅長讀寫文件、執行命令、配合 git 循環工作。缺點是需要付費賬號。

如果你更喜歡圖形界面、想邊看邊學，Cursor 更適合。它也能完成類似工作，但更偏“半自動”，你會更清楚地看到文件、修改和對話過程。

也就是說，autoresearch 本身是研究循環，真正把它轉起來的“手”是 Claude Code、Cursor、Codex 這類代理。

五、一步一步部署：Mac 和 Windows/Linux 分開看部署流程圖，從 clone 到 train.py 測試成功

Mac（Apple Silicon）

打開終端后，執行：

cd ~/Desktop

git clone https://github.com/miolini/autoresearch-macos.git

cd autoresearch-macos

然后安裝依賴：

uv sync

準備訓練數據：

uv run prepare.py

最后跑一輪測試訓練：

uv run train.py

如果幾分鐘后能正常輸出訓練日志，并最終給出一個 val_bpb 分數，說明你的環境基本搭好了。

Windows / Linux（NVIDIA GPU）

執行：

cd ~/Desktop

git clone https://github.com/karpathy/autoresearch.git

cd autoresearch

uv sync

uv run prepare.py

uv run train.py

這一輪測試訓練非常關鍵。因為它驗證的不只是“代碼能不能跑”，而是：你的依賴、GPU、數據準備、訓練腳本是不是整體可用。如果這一步都沒過，不要急著進自動模式，先把基礎錯誤修好。

原帖最實用的地方也在這里：它沒有神化這個項目，而是把它拆回了一個樸素事實。先跑通一輪 5 分鐘訓練，后面的自動研究才有意義。

六、真正有意思的部分：讓 AI 通宵替你做研究program.md -> AI agent -> train.py -> val_bpb -> git 的研究閉環圖

當 uv run train.py 可以正常跑通之后，才輪到真正的核心體驗。

用 Claude Code 全自動跑

先進入項目目錄。然后執行：

claude

第一次啟動時，它會要求你登錄并授權。進入界面后，可以輸入這句提示詞：

Hi have a look at program.md and let's kick off a new experiment! Let's do the setup first.

如果你希望它徹底自動跑，不要中間打斷你，可以再補一句：

Run fully autonomously. Do not ask for confirmation between experiments. Keep going until I return.

接下來，代理會自動：

讀取 program.md
理解倉庫結構
修改 train.py
跑一輪 5 分鐘實驗
觀察 val_bpb
好的保留，差的回退
繼續下一輪

用 Cursor 半自動跑

如果你不用 Claude Code，也可以用 Cursor。

流程是：打開項目文件夾；打開 program.md；在右側聊天框輸入同樣的提示詞；讓 AI 提議改 train.py；然后你自己在終端里執行：

uv run train.py

再把結果，尤其是 val_bpb，反饋給 Cursor。它會繼續決定保留、回退還是推進下一輪。

這種方式沒有 Claude Code 那么“全自動”，但它更適合學習。你會真正看懂每一步在發生什么。

七、第二天醒來，你會看到什么？

如果一切運行正常，你的項目目錄里通常會出現幾類非常有價值的結果。

第一類是 git 提交歷史。每一個被保留下來的實驗，通常都會留下記錄。你可以運行：

git log --oneline

這讓整個研究過程第一次變得像軟件開發一樣可追蹤：哪一步改了什么，哪一步有效，哪一步失敗，都會留下痕跡。

第二類是更低的 val_bpb。原帖提到，基線大概在 0.9979 附近。只要低于這個值，就說明模型確實有進步。也就是說，你的目標不是“跑很多次”，而是讓指標下降。

第三類是被反復修改過的 train.py。代理可能會改模型結構、優化器、學習率、batch size、內存使用方式、訓練循環細節。這也是這個項目特別適合學習的原因：你看到的不是一堆封裝好的黑盒 API，而是一個研究代理如何直接對訓練核心下手。

第四類是實驗日志，例如 results.tsv。它會記錄每次實驗的分數、內存占用、是否保留等信息。對很多人來說，這一類文件才是真正讓“AI 自己做研究”不再像口號的地方，因為它能被復盤、被比較、被分析。

八、最常見的坑：幾乎所有人都會在這里卡一下

原帖把常見問題總結得很實用，我這里壓成最關鍵的幾類。

command not found: uv

最常見原因：安裝完 uv 沒有重開終端。

解決辦法：關閉當前終端，重新打開，再運行 uv --version。

command not found: git

說明 Git 還沒裝好。先把 Git 安裝完成，再繼續。

Windows / Linux 出現 CUDA 錯誤

這通常不是 autoresearch 本身的問題，而是 NVIDIA 驅動或 CUDA 環境沒有配置好。

Mac 出現 MPS / Metal 錯誤

最常見原因是：你下錯倉庫了。Mac 要用的是 miolini/autoresearch-macos，不是 Karpathy 原版。

OOM / Out of Memory

說明顯存或統一內存不夠當前實驗配置使用。好消息是，代理通常會嘗試往更小的配置退；壞消息是，如果機器規格太低，實驗空間的確會被限制。

Claude Code 無法認證

Claude Code 需要付費賬號。免費版不行。如果你不想付費，最現實的替代方案就是 Cursor 半自動模式。

autoresearch 真正讓人興奮的，不是“又一個 AI 項目”，而是它第一次把一個很抽象的趨勢放到了普通人電腦上：

AI 不再只是回答你，而是在替你試錯、替你比較、替你保存研究成果。

對開發者來說，它像一個永不疲倦的實驗助理。

對 AI 愛好者來說，它讓“自動化研究”第一次變得可見、可跑、可理解。

對更大的行業趨勢來說，它也釋放了一個很清晰的信號：以后人類寫的，可能不再只是代碼，而是給 AI 研究組織寫工作說明書。

而 @hooeem 那篇長帖最有價值的地方，就在于它把這個原本只會在技術圈內部傳播的項目，重新翻譯成了普通人也能真正動手的路徑：你需要什么機器、裝什么工具、先做哪一步、失敗了怎么辦、沒有 NVIDIA 能不能玩、Mac 到底能不能上。

如果你今天把它成功跑起來，看到的并不只是一個小模型在變聰明。你看到的，可能是下一代 AI 工作流的雛形。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.