![]()
新智元報(bào)道
編輯:犀牛
【新智元導(dǎo)讀】Karpathy公開個(gè)人知識(shí)管理新范式:讓大模型把你的一切資料「編譯」成一部活的百科全書——RAG已死,人類只需負(fù)責(zé)思考。
就在這兩天,AI圈又被一個(gè)人引爆了。
不是Sam Altman,不是馬斯克,是那個(gè)低調(diào)、卻每次出手都能掀翻桌子的男人——Andrej Karpathy。
這次他是做了一件看起來更「樸素」的事情:把自己的知識(shí)管理方式公開了。
就這?就這。
但「就這」,讓整個(gè)開發(fā)者社區(qū)炸了鍋。
他在X上隨手發(fā)的一條帖子,短短幾天收獲了1200多萬次圍觀。
![]()
卡帕西背后的意思是:大模型的下一個(gè)戰(zhàn)場,不是寫更多代碼,而是管理更多知識(shí)。
而他給出的方案,叫做「LLM Wiki」——一種讓大模型當(dāng)你的全職知識(shí)管家、24小時(shí)不間斷整理、更新、自檢個(gè)人知識(shí)庫的全新范式。
GitHub上他附帶的一份「想法文件」(idea file),不到12小時(shí)拿下超2100顆Star。
![]()
開發(fā)者Farza緊隨其后,直接用這套思路,把自己2500條日記、筆記和iMessage消息,讓大模型「編譯」成了一個(gè)擁有400篇結(jié)構(gòu)化文章的個(gè)人Wiki百科——Farzapedia。
一個(gè)給AI Agent用的、關(guān)于「你自己」的百科全書。
![]()
聽起來科幻?但它已經(jīng)在運(yùn)行了。
LLM Wiki 到底是什么?
回憶一下你自己的日常:讀了一篇好文章,收藏了;看了一篇論文,存了個(gè)PDF;開會(huì)記了一段筆記,扔進(jìn)了Apple Notes;在微信群看到一個(gè)不錯(cuò)的觀點(diǎn),截了個(gè)圖……
然后呢?
然后就沒有然后了。
三天后你需要用到某條信息,翻遍所有app、所有文件夾,就是找不到。
要么是關(guān)鍵詞想不起來,要么是存的地方太分散,要么干脆就是——記得看過,但忘了在哪看的。
信息越多,大腦越亂;收藏越勤,遺忘越快。
這就是傳統(tǒng)知識(shí)管理的死穴——它需要你不斷花時(shí)間手動(dòng)整理,而人類天生懶得整理。
那AI能幫忙嗎?當(dāng)然能。
目前最主流的做法叫RAG(檢索增強(qiáng)生成):把一堆文檔切成碎片,存進(jìn)向量數(shù)據(jù)庫,用戶問問題的時(shí)候,AI去「搜」相關(guān)片段,拼湊出答案。
NotebookLM、ChatGPT的文件上傳功能,本質(zhì)上都是這個(gè)路子。
RAG好不好用?能用,但不夠好。
卡帕西一針見血地指出了RAG的根本問題:它每次都在從零開始「重新發(fā)現(xiàn)」知識(shí)。
你今天問一個(gè)需要綜合五篇論文才能回答的問題,AI把碎片翻了一遍給你拼了個(gè)答案。明天你換個(gè)角度再問,它得重新翻一遍、重新拼一遍。
什么都沒有積累下來,什么也沒有建立起來。
用卡帕西的原話說:「沒有積累。」(There's no accumulation.)
那他的方案是什么?
讓大模型不是每次「搜」你的文件,而是把你的文件「編譯」成一部活的百科全書。
這就是「LLM Wiki」的核心思想。
![]()
LLM Wiki的完整架構(gòu)
卡帕西在GitHub Gist上公開了他的完整構(gòu)想。
雖然他刻意寫得比較「抽象」——因?yàn)樗J(rèn)為在AI Agent時(shí)代,分享的應(yīng)該是想法而非具體代碼,讓每個(gè)人的Agent去根據(jù)想法定制實(shí)現(xiàn)——但整套系統(tǒng)的骨架其實(shí)非常清晰。
第一層:原始數(shù)據(jù)(Raw Sources)
就是你的素材庫。論文、文章、代碼、圖片、數(shù)據(jù)集……統(tǒng)統(tǒng)扔進(jìn)一個(gè)raw/文件夾。
不需要你整理,不需要你分類,扔進(jìn)去就行。
這一層是「不可變」的——大模型只讀取,絕不修改。這是你的信息源頭、真相之本。
卡帕西推薦用Obsidian Web Clipper瀏覽器插件,看到好文章一鍵轉(zhuǎn)成Markdown,再用快捷鍵把圖片全部下載到本地,確保以后網(wǎng)站掛了圖也不會(huì)丟。
第二層:Wiki(The Wiki)
這是整個(gè)系統(tǒng)的核心。
大模型讀完raw/里的素材后,不是簡單地「索引」它們,而是主動(dòng)地「編譯」出一整套結(jié)構(gòu)化的Wiki。
什么叫「編譯」?
就像編譯器把你的源代碼變成可執(zhí)行程序一樣,大模型把你的「原始資料」變成了一部可導(dǎo)航、可查詢、互相引用的知識(shí)體系。
具體來說,大模型會(huì)做這些事:給每篇素材寫摘要,抽取關(guān)鍵概念,為重要主題撰寫?yīng)毩⑽恼拢诓煌撁嬷g建立反向鏈接,維護(hù)一個(gè)總索引文件(index.md),記錄操作日志(log.md)。
你幾乎不用手動(dòng)編輯Wiki里的任何內(nèi)容。
寫文章的是大模型,打標(biāo)簽的是大模型,建鏈接的是大模型。
用卡帕西自己的話說——Obsidian是IDE,大模型是程序員,Wiki是代碼庫。
第三層:規(guī)則文件(The Schema)
這是一份「說明書」,告訴大模型這個(gè)Wiki怎么組織、有什么規(guī)矩、遇到不同情況該怎么操作。
比如在Claude Code里是CLAUDE.md,在OpenAI Codex里是AGENTS.md。
這份文件由你和大模型「共同進(jìn)化」——你用著用著發(fā)現(xiàn)什么規(guī)則好用就加上去,什么不好用就改掉。
四大操作:導(dǎo)入、查詢、輸出、自檢
架構(gòu)搭好了,日常怎么用?
卡帕西給出了四個(gè)核心操作。
操作一:導(dǎo)入(Ingest)
把新素材扔進(jìn)raw/,告訴大模型:「處理這個(gè)。」
大模型讀完之后,跟你討論關(guān)鍵發(fā)現(xiàn),然后寫一篇摘要頁,更新總索引,并且在整個(gè)Wiki中找到所有相關(guān)的頁面——可能是某個(gè)概念頁、某個(gè)人物頁、某個(gè)對比頁——逐一更新。
一篇新素材可能會(huì)觸發(fā)10到15個(gè)Wiki頁面的聯(lián)動(dòng)更新。
卡帕西個(gè)人喜歡一次導(dǎo)入一篇素材,邊導(dǎo)入邊看大模型寫的摘要,確保方向?qū)α恕?/p>
當(dāng)然你也可以批量導(dǎo)入,一口氣扔100篇論文,讓大模型自己慢慢消化。
操作二:查詢(Query)
一旦Wiki積累到一定規(guī)模,你就可以對著它問各種復(fù)雜問題了。
卡帕西自己的一個(gè)研究Wiki攢了大約100篇文章、40萬字。他本以為這個(gè)規(guī)模得搞一套復(fù)雜的RAG才行——結(jié)果發(fā)現(xiàn)根本不需要。
為什么?
因?yàn)榇竽P推綍r(shí)把索引文件和摘要維護(hù)得很好,它先讀索引,找到相關(guān)頁面,再鉆進(jìn)去細(xì)看。
40萬字的規(guī)模,輕松應(yīng)對。
而且查詢的輸出格式不限于文字——可以是Markdown文章,可以是Marp格式的幻燈片,可以是matplotlib圖表,任何你想要的可視化形式。
操作三:回填(File Back)
這是最精妙的一步:把查詢結(jié)果存回Wiki。
你問了一個(gè)對比分析的問題,大模型給了你一份精彩的回答——這份回答本身也是有價(jià)值的知識(shí)。
卡帕西的做法是把這些輸出「歸檔」回Wiki,讓它成為Wiki的一部分,供未來的查詢使用。
你的每一次提問,都在讓知識(shí)庫變得更豐富。用的越多,它越聰明。
這不是消耗,是投資。
操作四:自檢(Lint)
定期讓大模型給Wiki做一次「體檢」。
檢查什么?數(shù)據(jù)不一致的地方;新素材推翻了舊結(jié)論的地方;有引用但沒有獨(dú)立頁面的重要概念;孤立的、沒有任何鏈接指向的頁面;通過網(wǎng)絡(luò)搜索可以補(bǔ)全的信息空缺。
這讓整個(gè)Wiki不僅保持健康,還在不斷生長。
VentureBeat對此有一個(gè)精彩的評(píng)價(jià):「這就像一個(gè)能自我修復(fù)的活知識(shí)庫。」(It acts as a livingAIknowledge base that actually heals itself.)
到這里,你會(huì)發(fā)現(xiàn)卡帕西做出來的東西,跟傳統(tǒng)知識(shí)庫完全不是一回事了。
傳統(tǒng)知識(shí)庫是一個(gè)需要你不斷喂養(yǎng)的存儲(chǔ)工具,而LLM Wiki是一個(gè)自運(yùn)行的知識(shí)引擎——大模型負(fù)責(zé)整理、更新、自檢、生長,人類只需要做一件事:思考。
Farzapedia:當(dāng)你的一生被「編譯」成百科全書
如果說卡帕西給出了理論框架,那開發(fā)者Farza就是第一個(gè)把這套理論「跑通」的人。
Farza做了一件聽起來有點(diǎn)瘋狂的事:他把自己的2500條日記、Apple Notes筆記和部分iMessage對話全部喂給了大模型,讓AI從中「編譯」出了一部關(guān)于他自己的個(gè)人Wiki百科——Farzapedia。
![]()
這部「百科全書」包含400篇詳細(xì)文章,覆蓋了他的朋友們、他創(chuàng)辦過的公司、他的研究領(lǐng)域、甚至他最愛的動(dòng)漫以及這些動(dòng)漫對他的影響。
每篇文章都帶有反向鏈接,形成了一個(gè)完整的知識(shí)網(wǎng)絡(luò)。
但最關(guān)鍵的一點(diǎn)是——Farzapedia不是給Farza自己看的,是給他的AIAgent用的。
整個(gè)Wiki的結(jié)構(gòu)和鏈接方式,天然適合Agent爬取。
Farza用Claude Code打開這個(gè)Wiki,Agent從index.md(總目錄)開始,可以像蜘蛛一樣順著鏈接一層層鉆到它需要的具體頁面。
舉個(gè)例子:Farza在設(shè)計(jì)一個(gè)新項(xiàng)目的落地頁,他問Agent:「我最近有什么影響了我審美的電影和圖片?幫我找找靈感。」
Agent怎么做的?
它在Wiki里找到了Farza的「哲學(xué)」文章——那里記錄了他看一部吉卜力紀(jì)錄片時(shí)的筆記;找到了「競品分析」文章——里面有他截圖保存的YC公司落地頁;甚至翻出了他幾年前存的1970年代披頭士樂隊(duì)周邊商品的圖片。
結(jié)果Agent給出了一份極其精準(zhǔn)、極其「懂他」的創(chuàng)意方案。
Farza坦言,他一年前用RAG搭過類似的系統(tǒng),但體驗(yàn)很差。
而基于文件系統(tǒng)的知識(shí)庫,讓Agent通過它真正理解的目錄結(jié)構(gòu)去查找信息,效果天差地別。
而Farzapedia最神奇的地方在于——它是「活」的。
當(dāng)Farza往Wiki里添加新內(nèi)容(一篇文章、一張靈感圖、一份會(huì)議紀(jì)要),系統(tǒng)會(huì)自動(dòng)判斷這條新信息應(yīng)該歸入哪2到3篇已有文章,或者干脆創(chuàng)建一篇新文章。
用Farza的比喻:「它就像一個(gè)超級(jí)天才圖書管理員,專門管理你的大腦——它永遠(yuǎn)在幫你把東西歸到最合適的位置,而且它從不疲倦。」
權(quán)力歸你
卡帕西在轉(zhuǎn)發(fā)Farzapedia時(shí),用了一段話來闡述他為什么如此推崇這種知識(shí)管理方式。
這段話值得仔細(xì)品味,因?yàn)樗嘎读艘环N關(guān)于「AI時(shí)代個(gè)人數(shù)據(jù)主權(quán)」的深層思考。
![]()
他歸納了四個(gè)核心優(yōu)勢:
第一,顯式(Explicit)。你的知識(shí)不是藏在某個(gè)AI的「隱式記憶」里——那種你看不見、摸不著、也不知道它到底記了什么的黑箱。Wiki是顯式的、可導(dǎo)航的,你可以清清楚楚看到AI知道你什么、不知道你什么,可以檢視和管理這份「記憶制品」。
第二,你的(Yours)。數(shù)據(jù)就在你的本地電腦上,不在某個(gè)AI廠商的云端系統(tǒng)里。你不需要擔(dān)心「我的數(shù)據(jù)被誰拿去訓(xùn)練了」,也不用恐懼「如果哪天換了AI服務(wù)商,我的記憶還能不能帶走」。
第三,文件優(yōu)于應(yīng)用(File overApp)。整個(gè)知識(shí)庫就是一堆Markdown文件和圖片——最通用的格式。任何工具都能讀取它們,任何Agent都能操作它們,你可以用Obsidian看,也可以自己寫個(gè)界面來看。這叫「互操作性」。
第四,自帶AI(BYOAI - Bring Your Own AI)。你想用Claude就用Claude,想用Codex就用Codex,想用開源模型就用開源模型。甚至你可以把Wiki當(dāng)訓(xùn)練數(shù)據(jù),微調(diào)一個(gè)「打從權(quán)重層面就認(rèn)識(shí)你」的專屬AI。AI廠商之間的競爭?讓他們卷去,你只管挑最好的用。
卡帕西的總結(jié)很干脆:這種個(gè)性化方案把你放在了完全的控制位上。數(shù)據(jù)是你的,格式是通用的,內(nèi)容是透明的。用哪個(gè)AI隨你挑,讓AI公司們保持緊張吧!
知識(shí)的「編譯時(shí)代」來了
回頭看卡帕西的LLM Wiki,你會(huì)發(fā)現(xiàn)它的精神內(nèi)核其實(shí)并不新。
1945年,美國科學(xué)家Vannevar Bush在那篇著名的論文《As We May Think》中,就提出過一個(gè)叫「Memex」的構(gòu)想——一個(gè)個(gè)人化的、持續(xù)策展的知識(shí)存儲(chǔ)系統(tǒng),文檔之間由「關(guān)聯(lián)線索」(associative trails)連接起來。
![]()
Bush認(rèn)為,文檔之間的連接和文檔本身一樣有價(jià)值。
這個(gè)想法比互聯(lián)網(wǎng)還早了半個(gè)世紀(jì)。
后來,互聯(lián)網(wǎng)確實(shí)實(shí)現(xiàn)了文檔的連接,但走向了公共化、碎片化,而非個(gè)人化、結(jié)構(gòu)化。
Bush當(dāng)年沒能解決的問題只有一個(gè):誰來做維護(hù)?
現(xiàn)在,大模型解決了這個(gè)問題。
卡帕西的方案,本質(zhì)上是對Bush的Memex做了一次「現(xiàn)代編譯」:AI負(fù)責(zé)所有枯燥的維護(hù)工作——更新交叉引用、保持摘要最新、發(fā)現(xiàn)新舊數(shù)據(jù)的矛盾、維護(hù)幾十上百個(gè)頁面之間的一致性。
人類之所以放棄維護(hù)知識(shí)庫,不是因?yàn)椴幌耄且驗(yàn)榫S護(hù)成本增長得比價(jià)值更快。
大模型消除了這個(gè)瓶頸。
我們正在目睹一個(gè)新范式的誕生——從「AI搜索信息」到「AI編譯知識(shí)」。
在這個(gè)范式里,大模型不再只是一個(gè)你問什么它答什么的「搜索引擎」,而是一個(gè)持續(xù)運(yùn)轉(zhuǎn)的「知識(shí)編譯器」。
你的人生經(jīng)歷、工作素材、閱讀記錄、靈感碎片,都是它的「源代碼」。
而它的產(chǎn)出,是一部只屬于你的、永遠(yuǎn)在生長的、從不遺忘的「第二大腦」。
人類負(fù)責(zé)思考,AI負(fù)責(zé)記住。
這可能是大模型最「樸素」、卻也最深刻的一個(gè)應(yīng)用方向。
不炫技,不燒錢,不需要百萬Token的上下文窗口,不需要復(fù)雜的向量數(shù)據(jù)庫——就是一堆Markdown文件,加上一個(gè)勤勞的AI圖書管理員。
1945年,Vannevar Bush只能把Memex畫在紙上。
2026年,你可以把它跑在你的筆記本電腦上了。
未來已來。
參考資料:
https://x.com/karpathy/status/2040470801506541998
https://x.com/karpathy/status/2039805659525644595
https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.