網易首頁 > 網易號 > 正文申請入駐

Karpathy開源第二大腦方案，有望替代向量數據庫，讓AI永不失憶

2026-04-05 16:24:52　來源: DeepTech深科技

北京舉報

分享至

你以為 AI 在學習，實際上，每次對話它都在重學一遍。

你或許也有這樣的體驗：在 NotebookLM、ChatGPT 上傳一系列文件，LLM 處理并生成答案。但每次 LLM 都要“從 0 開始”挖掘知識，尤其是當達到使用上限或結束會話時，就像給項目做了一次“記憶清空”。

其本質仍然是檢索增強生成（RAG）。為了讓它記住建立的架構細節，只能用更多的 token 和時間來重建 AI 的上下文。

現在，OpenAI 創始成員之一、特斯拉前 AI 總監 Andrej Karpathy 通過構建一個持久的、由 LLM 維護的項目記錄，提出了一套全新的知識庫方案 LLM Wiki。

該方案比典型的企業級解決方案（向量數據庫和 RAG 管道）更簡單，也更優雅，能夠復制粘貼到個人 Agent 中（例如 OpenAI Codex、Claude Code、OpenCode/Pi 等）。在這個系統中，LLM 本身充當的角色是全職“知識庫管理員”：積極編譯、檢查和鏈接類 Markdown（.md）維基百科式文檔。

（來源：https://gist.github.com/karpathy/442a6bf555914893e9）

Karpathy 將大量 token 預算用于結構化知識構建，而非重復生成樣板代碼，從而為“第二大腦”的下一階段繪制藍圖：一個能夠自我修復、可審計且完全人類可讀的知識體系。

Karpathy 指出，“該方法在約 100 篇文章、40 萬字規模下的效率顯著優于傳統 RAG，且完全人類可讀、可審計，基本擺脫了供應商鎖定。”

盡管 Karpathy 稱這套方案現在還處于靠“一堆蹩腳腳本”實現的階段，但已有企業家嗅到了商機，有企業家稱：誰能把這個功能打包成普通用戶都能用的東西，誰就把握了巨大商機。一款應用即可與你常用工具、書簽、閱讀應用、播客應用及社交媒體優質討論內容同步。

（來源：https://x.com/karpathy/status/2039805659525644595）

在 LLM Wiki 方案中，LLM 并非僅僅在查詢時從原始文檔中檢索信息，而是逐步構建并維護一個持久化的維基：一個結構化的、相互鏈接的 Markdown 文件集合，它位于用戶和原始數據源之間。

當用戶添加新的數據源時，LLM 不僅會為其進行索引以便后續檢索，還會讀取、提取關鍵信息，并將其整合到現有的 Wiki 中更新頁面，修訂主題摘要，指出新數據與舊說法相矛盾之處，從而不斷修正或強化已有知識體系。知識被編譯后可持續復用，無需在每次查詢時重新推導。

關鍵在于，LLM Wiki 是一個持續更新、不斷完善的資源。交叉引用已然建立，矛盾之處已被標記，綜合信息則反映了用戶閱讀過的所有內容。你添加的每個來源、提出的每個問題都會讓 LLM Wiki 的內容更加豐富。

這樣做的好處是，用戶幾乎從不（或很少）親自編寫 Wiki，所有內容都由 LLM（知識庫管理員）編寫和維護，其一次可處理約 15 個文件。你只需要尋找資料、主動探索和提出正確的問題；而 LLM 則負責所有繁瑣的工作：總結、交叉引用、歸檔和信息整理，這些工作使知識庫能夠長期發揮作用。

Karpathy 稱，他一邊打開 Agent，一邊打開 Obsidian。LLM 會根據他們的對話進行編輯，用戶能夠實時瀏覽結果，包括點擊鏈接、查看圖表視圖、閱讀更新后的頁面。在這種情景下，Obsidian 是集成開發環境（IDE）；LLM 是程序員；維基則是代碼庫。

綜合來看，系統架構分三個不同的階段運行。

數據導入：原始資料，例如研究論文、GitHub 代碼庫、數據集和網絡文章被導入到 raw/ 目錄中。為了將網頁文章轉換為 .md 文件，Karpathy 使用了 Obsidian Web Clipper 擴展，他還設置了一個快捷鍵，將所有相關的圖片下載到本地，以便 LLM 可通過視覺功能引用它們。

編譯步驟：這是架構中的核心創新點。LLM 不僅僅是對文件進行索引，而是對文件進行“編譯”。它讀取原始數據并生成結構化的維基百科頁面，包括生成摘要、識別關鍵概念、撰寫百科全書式條目，以及在相關概念之間創建“反向鏈接”。

主動維護（代碼校對）：該系統并非一成不變。Karpathy 描述了運行“健康檢查”或“代碼校對”的過程，LLM 會掃描 Wiki 以查找不一致之處、缺失數據或新連接。這相當于一個更動態的、能夠“自我修復”的知識庫。

（來源：https://x.com/himanshustwts/status/2039811786602607）

LLM Wiki 的應用場景廣泛，競爭分析、盡職調查、旅行計劃、課程筆記、興趣愛好深度研究……任何需要持續積累知識，并且希望有序整理的場景都可以用到它。

個人成長：追蹤個人目標、健康、心理、自我提升，可記錄日記、文章、播客筆記，并隨著時間的推移構建一個結構化的自我形象。

深度研究：對某個主題進行為期數周或數月的深入研究，例如閱讀論文、文章、報告，并逐步構建一個包含不斷發展的論點的綜合維基。

讀書筆記：邊讀邊整理章節，創建頁面記錄人物、主題、情節線索以及它們之間的聯系。最終，你將擁有一個內容豐富的配套維基。以托爾金百科（Tolkien Gateway）為例，其歷經數年由志愿者社區構建而成，涵蓋人物、地點、事件、語言等。你可以一邊閱讀，一邊構建類似的內容，而 LLM 則負責所有的交叉引用和維護工作。

業務/團隊：一個由 LLM 維護的內部 Wiki，內容來源于 Slack 消息、會議記錄、項目文檔和客戶電話，可能也會有人工參與審核更新。Wiki 之所以能保持更新狀態，是因為 LLM 承擔了重要使命——那些團隊中其他人都不愿意做的維護工作。

目前，已有開發者將 LLM Wiki 模式擴展到 OpenClaw 管理的 10 個 Agent 系統中，通過 Hermes（由 Nous Research 訓練用于結構化評估）作為獨立審核關卡對編譯后的文章進行評分驗證，以確保只有準確的內容進入永久知識庫，再生成簡報回饋給各個 Agent，從而形成了一個“產生-整理-驗證-反饋”的閉環。

（來源：X）

Karpathy 將 Markdown 文件看作“真理之源”，其可避免向量嵌入的“黑箱”問題。AI 給出的每一條結論都可以追溯到特定的 .md 文件，而這些文件可以由人閱讀、編輯或刪除。

LLM Wiki 方案探索的未來目標是合成數據生成和微調。隨著 Wiki 的增長，數據通過持續的 LLM 代碼校對變得越來越“純凈”，有望成為更完美的數據訓練集。

LLM 不再僅僅讀取 Wiki 的上下文窗口，在此基礎上，用戶最終有望在 Wiki 本身上對模型進行微調，從而構建一個更小、更高效的模型。這將使 LLM 通過模型權重掌握個人知識庫，把研究項目真正轉化為專屬的定制化智能。

總體來說，這種方案是一種新的理念：通過擁有自身記憶的主動智能體，避免了以往“單次”人工智能交互的局限性。

對于個人研究人員而言，這意味著有望告別 LLM“失憶”，轉而建立更長期的關系。對企業而言，這預示著原始數據湖正在向編譯后的知識資產轉變。或許，這也意味著我們正在進入 AI 自主知識庫時代。

參考資料：

https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f

https://x.com/karpathy/status/2039805659525644595

https://x.com/himanshustwts/status/2039811786602607052

https://x.com/jumperz/status/2040166448492900356

https://venturebeat.com/data/karpathy-shares-llm-knowledge-base-architecture-that-bypasses-rag-with-an

排版：劉雅坤

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.