快速閱讀: Supermemory團隊用多智能體協(xié)作系統(tǒng)在長期記憶基準測試LongMemEval上達到99%準確率,核心突破是用3個并行搜索Agent替代傳統(tǒng)向量檢索,讓AI通過“理解”而非“數(shù)學(xué)相似度”來回憶信息。這套方案不需要向量數(shù)據(jù)庫,甚至可以嵌入機器人。
該圖片可能由AI生成![]()
向量數(shù)據(jù)庫可能不是AI記憶的最優(yōu)解。
Supermemory在LongMemEval基準測試(11.5萬token對話歷史)上達到99%準確率,用的方法反而更簡單:完全拋棄向量檢索,改用多個Agent協(xié)作。
傳統(tǒng)RAG的問題出在檢索環(huán)節(jié)。語義相似度匹配根本分不清“舊事實”和“新更正”,當檢索結(jié)果里混雜太多噪音,大模型就會迷失。
![]()
他們的解法是ASMR(Agentic Search and Memory Retrieval):
信息攝取階段,3個并行Observer Agent同時讀取對話記錄,按照個人信息、偏好、事件、時間數(shù)據(jù)等六個維度提取知識點,直接存儲結(jié)構(gòu)化內(nèi)容而非生成embedding。
檢索階段才是關(guān)鍵。面對提問時不查詢數(shù)據(jù)庫,而是派出3個專門的搜索Agent——一個找直接事實,一個挖隱含語境,一個重建時間線。這些Agent是在“主動閱讀和推理”,不是在做向量余弦計算。
回答階段用了兩種策略測試。第一種是8個高度專業(yè)化的prompt變體并行運行(精確計數(shù)專家、時間專家、上下文深挖專家等),只要任何一條推理路徑答對就算成功,準確率98.6%。第二種是12個Agent獨立作答后,由一個聚合器LLM綜合投票裁決,準確率97.2%。
有觀點認為這套系統(tǒng)證明了“認知理解”比“數(shù)學(xué)相似性”更適合處理記憶任務(wù)。數(shù)學(xué)只能捕捉表層模式,而Agent可以處理時間序列中的矛盾、更新和細微差別。
更有意思的是,這個架構(gòu)完全在內(nèi)存中運行,不依賴外部向量數(shù)據(jù)庫,理論上可以部署到任何設(shè)備,包括機器人。他們11天后會開源全部代碼。
當數(shù)十億個高度個性化的AI Agent開始學(xué)習(xí)和記住我們的一切時,記憶系統(tǒng)的天花板在哪里?也許不在算力,而在我們愿意給Agent多少“主動思考”的權(quán)限。
ref: x.com/DhravyaShah/status/2035517012647272689
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.