你以為 AI 在學習,實際上,每次對話它都在重學一遍。
你或許也有這樣的體驗:在 NotebookLM、ChatGPT 上傳一系列文件,LLM 處理并生成答案。但每次 LLM 都要“從 0 開始”挖掘知識,尤其是當達到使用上限或結束會話時,就像給項目做了一次“記憶清空”。
其本質仍然是檢索增強生成(RAG)。為了讓它記住建立的架構細節,只能用更多的 token 和時間來重建 AI 的上下文。
現在,OpenAI 創始成員之一、特斯拉前 AI 總監 Andrej Karpathy 通過構建一個持久的、由 LLM 維護的項目記錄,提出了一套全新的知識庫方案 LLM Wiki。
該方案比典型的企業級解決方案(向量數據庫和 RAG 管道)更簡單,也更優雅,能夠復制粘貼到個人 Agent 中(例如 OpenAI Codex、Claude Code、OpenCode/Pi 等)。在這個系統中,LLM 本身充當的角色是全職“知識庫管理員”:積極編譯、檢查和鏈接類 Markdown(.md)維基百科式文檔。
![]()
(來源:https://gist.github.com/karpathy/442a6bf555914893e9)
Karpathy 將大量 token 預算用于結構化知識構建,而非重復生成樣板代碼,從而為“第二大腦”的下一階段繪制藍圖:一個能夠自我修復、可審計且完全人類可讀的知識體系。
Karpathy 指出,“該方法在約 100 篇文章、40 萬字規模下的效率顯著優于傳統 RAG,且完全人類可讀、可審計,基本擺脫了供應商鎖定。”
盡管 Karpathy 稱這套方案現在還處于靠“一堆蹩腳腳本”實現的階段,但已有企業家嗅到了商機,有企業家稱:誰能把這個功能打包成普通用戶都能用的東西,誰就把握了巨大商機。一款應用即可與你常用工具、書簽、閱讀應用、播客應用及社交媒體優質討論內容同步。
![]()
(來源:https://x.com/karpathy/status/2039805659525644595)
在 LLM Wiki 方案中,LLM 并非僅僅在查詢時從原始文檔中檢索信息,而是逐步構建并維護一個持久化的維基:一個結構化的、相互鏈接的 Markdown 文件集合,它位于用戶和原始數據源之間。
當用戶添加新的數據源時,LLM 不僅會為其進行索引以便后續檢索,還會讀取、提取關鍵信息,并將其整合到現有的 Wiki 中更新頁面,修訂主題摘要,指出新數據與舊說法相矛盾之處,從而不斷修正或強化已有知識體系。知識被編譯后可持續復用,無需在每次查詢時重新推導。
關鍵在于,LLM Wiki 是一個持續更新、不斷完善的資源。交叉引用已然建立,矛盾之處已被標記,綜合信息則反映了用戶閱讀過的所有內容。你添加的每個來源、提出的每個問題都會讓 LLM Wiki 的內容更加豐富。
這樣做的好處是,用戶幾乎從不(或很少)親自編寫 Wiki,所有內容都由 LLM(知識庫管理員)編寫和維護,其一次可處理約 15 個文件。你只需要尋找資料、主動探索和提出正確的問題;而 LLM 則負責所有繁瑣的工作:總結、交叉引用、歸檔和信息整理,這些工作使知識庫能夠長期發揮作用。
Karpathy 稱,他一邊打開 Agent,一邊打開 Obsidian。LLM 會根據他們的對話進行編輯,用戶能夠實時瀏覽結果,包括點擊鏈接、查看圖表視圖、閱讀更新后的頁面。在這種情景下,Obsidian 是集成開發環境(IDE);LLM 是程序員;維基則是代碼庫。
綜合來看,系統架構分三個不同的階段運行。
數據導入:原始資料,例如研究論文、GitHub 代碼庫、數據集和網絡文章被導入到 raw/ 目錄中。為了將網頁文章轉換為 .md 文件,Karpathy 使用了 Obsidian Web Clipper 擴展,他還設置了一個快捷鍵,將所有相關的圖片下載到本地,以便 LLM 可通過視覺功能引用它們。
編譯步驟:這是架構中的核心創新點。LLM 不僅僅是對文件進行索引,而是對文件進行“編譯”。它讀取原始數據并生成結構化的維基百科頁面,包括生成摘要、識別關鍵概念、撰寫百科全書式條目,以及在相關概念之間創建“反向鏈接”。
主動維護(代碼校對):該系統并非一成不變。Karpathy 描述了運行“健康檢查”或“代碼校對”的過程,LLM 會掃描 Wiki 以查找不一致之處、缺失數據或新連接。這相當于一個更動態的、能夠“自我修復”的知識庫。
![]()
(來源:https://x.com/himanshustwts/status/2039811786602607)
LLM Wiki 的應用場景廣泛,競爭分析、盡職調查、旅行計劃、課程筆記、興趣愛好深度研究……任何需要持續積累知識,并且希望有序整理的場景都可以用到它。
個人成長:追蹤個人目標、健康、心理、自我提升,可記錄日記、文章、播客筆記,并隨著時間的推移構建一個結構化的自我形象。
深度研究:對某個主題進行為期數周或數月的深入研究,例如閱讀論文、文章、報告,并逐步構建一個包含不斷發展的論點的綜合維基。
讀書筆記:邊讀邊整理章節,創建頁面記錄人物、主題、情節線索以及它們之間的聯系。最終,你將擁有一個內容豐富的配套維基。以托爾金百科(Tolkien Gateway)為例,其歷經數年由志愿者社區構建而成,涵蓋人物、地點、事件、語言等。你可以一邊閱讀,一邊構建類似的內容,而 LLM 則負責所有的交叉引用和維護工作。
業務/團隊:一個由 LLM 維護的內部 Wiki,內容來源于 Slack 消息、會議記錄、項目文檔和客戶電話,可能也會有人工參與審核更新。Wiki 之所以能保持更新狀態,是因為 LLM 承擔了重要使命——那些團隊中其他人都不愿意做的維護工作。
目前,已有開發者將 LLM Wiki 模式擴展到 OpenClaw 管理的 10 個 Agent 系統中,通過 Hermes(由 Nous Research 訓練用于結構化評估)作為獨立審核關卡對編譯后的文章進行評分驗證,以確保只有準確的內容進入永久知識庫,再生成簡報回饋給各個 Agent,從而形成了一個“產生-整理-驗證-反饋”的閉環。
![]()
(來源:X)
Karpathy 將 Markdown 文件看作“真理之源”,其可避免向量嵌入的“黑箱”問題。AI 給出的每一條結論都可以追溯到特定的 .md 文件,而這些文件可以由人閱讀、編輯或刪除。
LLM Wiki 方案探索的未來目標是合成數據生成和微調。隨著 Wiki 的增長,數據通過持續的 LLM 代碼校對變得越來越“純凈”,有望成為更完美的數據訓練集。
LLM 不再僅僅讀取 Wiki 的上下文窗口,在此基礎上,用戶最終有望在 Wiki 本身上對模型進行微調,從而構建一個更小、更高效的模型。這將使 LLM 通過模型權重掌握個人知識庫,把研究項目真正轉化為專屬的定制化智能。
總體來說,這種方案是一種新的理念:通過擁有自身記憶的主動智能體,避免了以往“單次”人工智能交互的局限性。
對于個人研究人員而言,這意味著有望告別 LLM“失憶”,轉而建立更長期的關系。對企業而言,這預示著原始數據湖正在向編譯后的知識資產轉變。或許,這也意味著我們正在進入 AI 自主知識庫時代。
參考資料:
https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f
https://x.com/karpathy/status/2039805659525644595
https://x.com/himanshustwts/status/2039811786602607052
https://x.com/jumperz/status/2040166448492900356
https://venturebeat.com/data/karpathy-shares-llm-knowledge-base-architecture-that-bypasses-rag-with-an
排版:劉雅坤
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.