4月8日消息,近日,智源研究院聯合高校與開源社區共同研發的DeepXiv項目現已開源并免費開放使用。據悉,該項目是專為智能體設計的科技文獻基礎設施,旨在將論文搜索、漸進式閱讀、熱點追蹤和深度調研轉化為可調用、可編排的能力。
![]()
據介紹,DeepXiv能將讓開放科技文獻從"人類可讀"升級為"智能體可用",原生支持JSON和Markdown,使智能體可直接獲取標題、作者、摘要、參考文獻等元信息。同時,DeepXiv提供面向智能體優化的數據組織方式,如在預覽(Preview)層面,DeepXiv 先快速獲取論文核心信息,低成本判斷相關性;再通過分塊(Chunking)功能按結構或語義切分論文內容,支持論文局部精讀;在整體閱讀過程中,DeepXiv 還會實現漸進披露(Progressive Disclosure):先看少量、再按需展開。
據悉,DeepXiv目前已覆蓋全量ArXiv數據,并保持每日增量更新。同時該項目正擴展至包括 PubMed Central (PMC)、ACM、bioRxiv / medRxiv / ChemRxiv 等各類 *Rxiv,以及 Semantic Scholar,等更多開放文獻源,計劃建立覆蓋超過2億篇開放科技文獻的統一智能體接入層。
在功能集成方面,DeepXiv基于專屬搜索引擎提供問答、信息提取及熱點追蹤等技能,其內置的深度調研Agent可串聯搜索、篩選與歸納整理等環節。
![]()
![]()
此外,不止于把論文"搜出來",DeepXiv 進一步打造了更豐富的技能:在問答能力層面,DeepXiv 可圍繞文獻直接完成信息提取與理解,例如:"論文的核心貢獻是什么?""實驗設置和對比基線是什么?",實現對文獻的深入理解;同時DeepXiv 還可實現熱點追蹤,了解每天 / 每周 / 每月關于某一主題的熱點論文有哪些?;在面向復雜問題時,DeepXiv 還將開展深入研究,例如:"過去三年關于 Agent Memory 的代表性工作有哪些?""多模態檢索增強在金融場景中的公開基準及數據集有哪些?"
據了解,DeepXiv提供多種接入形態以滿足不同需求。其中,CLI(命令行界面)為核心形態,智能體可通過編排腳本實現工作流;同時提供MCP接入能力,支持嵌入各類智能體開發框架;此外,還為開發者提供Python SDK,用于定制化科研智能體的集成。同時,基于 deepxiv,開發者可以非常快速地封裝出一批面向具體科研任務的定制化 Skills。這意味著,DeepXiv 不只是提供一個"可調用的工具",而是在為日常科研工作流提供一層可快速復用、可持續擴展的能力底座。(袁寧)
