網易首頁 > 網易號 > 正文申請入駐

AI讀不懂文檔結構？計算所重構Agentic RAG文檔推理能力

2026-03-16 11:50:10　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】DeepRead讓AI像人一樣閱讀文檔：利用OCR識別章節結構，先精準定位相關段落，再完整讀取上下文，避免碎片化檢索。實驗顯示，其長文檔問答準確率提升17%，能自動跳過冗余信息，精準提取財報、論文等復雜內容，無需額外知識圖譜，輕量高效。

大語言模型的工具使用能力正推動RAG從靜態的一次性檢索，向自主、多輪的證據獲取進化，Agentic RAG已成為解決復雜問答任務的核心方向。

但現有主流Agentic Search框架普遍存在一個關鍵痛點——結構盲：它們將長文檔視為無差別的扁平文本塊，忽略了文檔原生的層級組織（如章節、段落）和順序邏輯，導致檢索碎片化、證據遺漏、冗余操作等問題頻發。

比如說，人類查詢「ACL論文投稿要求」時，會先翻閱目錄找到「投稿指南」章節，再逐段精讀關鍵信息。

但傳統Agentic Search（如Search-o1）卻只能通過不斷給出新的query反復檢索，可能遺漏「頁碼限制」「格式要求」等未被關鍵詞覆蓋的內容，還會重復獲取已瀏覽過的片段。

這種「結構盲」帶來三大問題：

證據碎片化：將文檔拆分為固定大小的文本塊，破壞語義連貫性，迫使智能體拼接零散片段；
檢索冗余：缺乏全局結構認知，反復檢索同類信息，浪費計算資源；
信息遺漏：依賴關鍵詞匹配，無法捕獲章節內隱含的相關信息。

而現代OCR技術已能精準提取文檔的層級結構和閱讀順序，這為解決「結構盲」提供了基礎——讓智能體學會利用這些原生結構，而非忽視它們。

中國科學院計算技術研究所團隊提出的DeepRead，核心創新是將文檔結構轉化為智能體可理解、可操作的坐標系統，通過兩大工具協同實現類人推理，整體框架參考下圖。

論文：https://arxiv.org/abs/2602.05014

代碼：https://github.com/Zhanli-Li/DeepRead

文檔結構建模：給每個段落分配「坐標」

DeepRead首先通過OCR工具將原始文檔轉化為結構化Markdown格式，構建雙維度結構模型：

層級維度：區分標題（如章節）和內容段落，記錄標題的父子關系（如「2.方法」包含「2.1模型設計」）；
順序維度：給每個段落分配唯一坐標（doc_id, sec_id, para_idx），即「文檔ID-章節ID-段落索引」，讓每個文本片段都有明確的位置標識。

同時，DeepRead會將輕量化的目錄（TOC）注入系統提示，讓智能體掌握全局結構，無需加載全量文檔內容，平衡上下文開銷與結構感知能力。

兩大核心工具：Retrieve與ReadSection的協同

DeepRead為智能體配備兩個互補工具，模擬人類「快速定位+深度閱讀」的行為：

Retrieve（掃描式定位）：接收語義查詢，返回Top-K相關段落及其坐標，同時支持「掃描窗口」（在召回的段落加上前后各1段），模擬人類快速瀏覽上下文的行為；
ReadSection（聚焦式閱讀）：接收坐標范圍（如doc_id=1, sec_id=3, start_para=0, end_para=5），返回該范圍內的連續、保序段落，重構完整語義上下文，徹底解決碎片化問題。

兩者形成閉環：Retrieve負責「找方向」，快速鎖定相關章節；ReadSection負責「深挖掘」，獲取完整證據，避免關鍵詞檢索的局限性。

涌現行為：自主學會「定位再閱讀」

無需手動編碼規則或是特定指令，DeepRead可自主進化出類人推理策略：先通過Retrieve獲取結構錨點，再調用ReadSection精讀相關章節。實驗顯示，90%以上的查詢會遵循這一范式，且工具調用比例會自適應任務特性——ContextBench（長文檔推理）更依賴ReadSection，FinanceBench（金融數據提取）更依賴Retrieve。

實驗結果

跨場景的顯著提升

研究人員在四大基準數據集（涵蓋單文檔/合成多文檔數據集）上驗證了DeepRead的效果，核心結果參考下表

關鍵亮點包括：

長文檔推理突破：在需長距離依賴的ContextBench上，DeepRead準確率從74.5%提升至91.5%，提升幅度達17.0%，驗證了結構感知對長文檔的價值；
多文檔融合優勢：在基于QASPER（學術論文問答）和SyllabusQA（課程大綱對比）合成的多文檔數據集上表現優越，分別提升7.7%和13.8%，證明結構感知能有效跨文檔整合證據；
魯棒性驗證：通過DeepSeek-V3.2、GLM-4.7、Qwen3-235B三大獨立法官評估，結果一致率達88.58%，確保提升并非偶然。

值得注意的是，DeepRead的優勢并非來自「更多的檢索片段」——即使Search-o1允許檢索更多文本塊，仍無法彌補結構缺失的差距；而盲目擴展上下文（expand）可能會降低DeepRead在部分任務上的性能，因為結構化閱讀已能提供足夠連貫的證據，冗余文本只會引入噪聲。

案例直觀感受：從「關鍵詞拼湊」到「章節精讀」

以FinanceBench中的亞馬遜營收計算任務為例：

傳統Search-o1風格的Agentic Search需反復檢索「2016營收」「2017凈銷售額」等關鍵詞，可能混淆「預估數據」與「實際財報數據」；
DeepRead則先通過Retrieve定位到「合并利潤表」章節，再用ReadSection讀取完整表格，精準提取2016年135987百萬美元、2017年177866百萬美元的凈銷售額，計算出30.8%的同比增長率。

總結

DeepRead的核心價值在于：挖掘文檔原生結構先驗，用輕量坐標系統和協同工具，實現了Agentic RAG的結構感知升級。

相比構建復雜知識圖譜的方案，DeepRead無需額外結構化成本，僅通過OCR解析和工具設計，就在長文檔、多文檔任務上實現顯著提升，兼具實用性和效率。

參考資料：

https://arxiv.org/abs/2602.05014

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.