337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

AI讀不懂文檔結構?計算所重構Agentic RAG文檔推理能力

0
分享至


新智元報道

編輯:LRST

【新智元導讀】DeepRead讓AI像人一樣閱讀文檔:利用OCR識別章節結構,先精準定位相關段落,再完整讀取上下文,避免碎片化檢索。實驗顯示,其長文檔問答準確率提升17%,能自動跳過冗余信息,精準提取財報、論文等復雜內容,無需額外知識圖譜,輕量高效。

大語言模型的工具使用能力正推動RAG從靜態的一次性檢索,向自主、多輪的證據獲取進化,Agentic RAG已成為解決復雜問答任務的核心方向。

但現有主流Agentic Search框架普遍存在一個關鍵痛點——結構盲:它們將長文檔視為無差別的扁平文本塊,忽略了文檔原生的層級組織(如章節、段落)和順序邏輯,導致檢索碎片化、證據遺漏、冗余操作等問題頻發。

比如說,人類查詢「ACL論文投稿要求」時,會先翻閱目錄找到「投稿指南」章節,再逐段精讀關鍵信息。

但傳統Agentic Search(如Search-o1)卻只能通過不斷給出新的query反復檢索,可能遺漏「頁碼限制」「格式要求」等未被關鍵詞覆蓋的內容,還會重復獲取已瀏覽過的片段。


這種「結構盲」帶來三大問題:

  1. 證據碎片化:將文檔拆分為固定大小的文本塊,破壞語義連貫性,迫使智能體拼接零散片段;

  2. 檢索冗余:缺乏全局結構認知,反復檢索同類信息,浪費計算資源;

  3. 信息遺漏:依賴關鍵詞匹配,無法捕獲章節內隱含的相關信息。

而現代OCR技術已能精準提取文檔的層級結構和閱讀順序,這為解決「結構盲」提供了基礎——讓智能體學會利用這些原生結構,而非忽視它們。

中國科學院計算技術研究所團隊提出的DeepRead,核心創新是將文檔結構轉化為智能體可理解、可操作的坐標系統,通過兩大工具協同實現類人推理,整體框架參考下圖。


論文:https://arxiv.org/abs/2602.05014

代碼:https://github.com/Zhanli-Li/DeepRead


文檔結構建模:給每個段落分配「坐標」

DeepRead首先通過OCR工具將原始文檔轉化為結構化Markdown格式,構建雙維度結構模型:

  • 層級維度:區分標題(如章節)和內容段落,記錄標題的父子關系(如「2.方法」包含「2.1模型設計」);

  • 順序維度:給每個段落分配唯一坐標(doc_id, sec_id, para_idx),即「文檔ID-章節ID-段落索引」,讓每個文本片段都有明確的位置標識。

同時,DeepRead會將輕量化的目錄(TOC)注入系統提示,讓智能體掌握全局結構,無需加載全量文檔內容,平衡上下文開銷與結構感知能力。

兩大核心工具:Retrieve與ReadSection的協同

DeepRead為智能體配備兩個互補工具,模擬人類「快速定位+深度閱讀」的行為:

  • Retrieve(掃描式定位):接收語義查詢,返回Top-K相關段落及其坐標,同時支持「掃描窗口」(在召回的段落加上前后各1段),模擬人類快速瀏覽上下文的行為;

  • ReadSection(聚焦式閱讀):接收坐標范圍(如doc_id=1, sec_id=3, start_para=0, end_para=5),返回該范圍內的連續、保序段落,重構完整語義上下文,徹底解決碎片化問題。

兩者形成閉環:Retrieve負責「找方向」,快速鎖定相關章節;ReadSection負責「深挖掘」,獲取完整證據,避免關鍵詞檢索的局限性。

涌現行為:自主學會「定位再閱讀」

無需手動編碼規則或是特定指令,DeepRead可自主進化出類人推理策略:先通過Retrieve獲取結構錨點,再調用ReadSection精讀相關章節。實驗顯示,90%以上的查詢會遵循這一范式,且工具調用比例會自適應任務特性——ContextBench(長文檔推理)更依賴ReadSection,FinanceBench(金融數據提取)更依賴Retrieve。


實驗結果

跨場景的顯著提升

研究人員在四大基準數據集(涵蓋單文檔/合成多文檔數據集)上驗證了DeepRead的效果,核心結果參考下表


關鍵亮點包括:

  1. 長文檔推理突破:在需長距離依賴的ContextBench上,DeepRead準確率從74.5%提升至91.5%,提升幅度達17.0%,驗證了結構感知對長文檔的價值;

  2. 多文檔融合優勢:在基于QASPER(學術論文問答)和SyllabusQA(課程大綱對比)合成的多文檔數據集上表現優越,分別提升7.7%和13.8%,證明結構感知能有效跨文檔整合證據;

  3. 魯棒性驗證:通過DeepSeek-V3.2、GLM-4.7、Qwen3-235B三大獨立法官評估,結果一致率達88.58%,確保提升并非偶然。


值得注意的是,DeepRead的優勢并非來自「更多的檢索片段」——即使Search-o1允許檢索更多文本塊,仍無法彌補結構缺失的差距;而盲目擴展上下文(expand)可能會降低DeepRead在部分任務上的性能,因為結構化閱讀已能提供足夠連貫的證據,冗余文本只會引入噪聲。

案例直觀感受:從「關鍵詞拼湊」到「章節精讀」

以FinanceBench中的亞馬遜營收計算任務為例:

  • 傳統Search-o1風格的Agentic Search需反復檢索「2016營收」「2017凈銷售額」等關鍵詞,可能混淆「預估數據」與「實際財報數據」;

  • DeepRead則先通過Retrieve定位到「合并利潤表」章節,再用ReadSection讀取完整表格,精準提取2016年135987百萬美元、2017年177866百萬美元的凈銷售額,計算出30.8%的同比增長率。


總結

DeepRead的核心價值在于:挖掘文檔原生結構先驗,用輕量坐標系統和協同工具,實現了Agentic RAG的結構感知升級。

相比構建復雜知識圖譜的方案,DeepRead無需額外結構化成本,僅通過OCR解析和工具設計,就在長文檔、多文檔任務上實現顯著提升,兼具實用性和效率。

參考資料:

https://arxiv.org/abs/2602.05014

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
張雪峰二婚妻子付幸:幾個月婚姻分走數億,11歲女兒遺產繼承復雜

張雪峰二婚妻子付幸:幾個月婚姻分走數億,11歲女兒遺產繼承復雜

眼光很亮
2026-03-27 16:04:09
安檢4.5小時起步!機場大癱瘓

安檢4.5小時起步!機場大癱瘓

新浪財經
2026-03-27 06:42:11
庫里為妻子慶生,37歲傷停,5961萬薪水聯盟第一,生4娃很幸福

庫里為妻子慶生,37歲傷停,5961萬薪水聯盟第一,生4娃很幸福

大西體育
2026-03-27 21:09:43
官宣!他接受紀律審查和監察調查

官宣!他接受紀律審查和監察調查

錫望
2026-03-27 17:09:50
1995年,49歲的特朗普來到香港,懷中抱著一位神秘女人,她是誰?

1995年,49歲的特朗普來到香港,懷中抱著一位神秘女人,她是誰?

文史達觀
2025-01-26 06:45:03
絕殺!北京20分逆轉廣東,許利民命硬,杜鋒為迷信張皓嘉付出代價

絕殺!北京20分逆轉廣東,許利民命硬,杜鋒為迷信張皓嘉付出代價

后仰大風車
2026-03-27 21:38:51
郴州通報煙花零售店燃爆事件:店主實施犯罪后自殺,13名公職人員被處理

郴州通報煙花零售店燃爆事件:店主實施犯罪后自殺,13名公職人員被處理

界面新聞
2026-03-27 12:27:38
武漢一大型知名商場正式更名!

武漢一大型知名商場正式更名!

越喬
2026-03-27 22:42:42
立陶宛涉臺表態變了,中歐班列已改道,200多條鐵軌全拆…

立陶宛涉臺表態變了,中歐班列已改道,200多條鐵軌全拆…

福建平子
2026-03-27 11:25:16
科威特重要港口遭襲

科威特重要港口遭襲

新華社
2026-03-27 19:17:02
浙江男老師意外發現女學生長相酷似亡妻,鑒定后,結果讓他當場愣住

浙江男老師意外發現女學生長相酷似亡妻,鑒定后,結果讓他當場愣住

紅豆講堂
2024-09-13 09:35:43
國乒全隊抵達澳門,孫穎莎一路熱聊,王楚欽打鬧,倆人同框太好磕

國乒全隊抵達澳門,孫穎莎一路熱聊,王楚欽打鬧,倆人同框太好磕

球盲百小易
2026-03-28 01:07:56
生育大局已定!不出意外的話,2026年起中國人口將迎來4大變化

生育大局已定!不出意外的話,2026年起中國人口將迎來4大變化

世界圈
2026-03-27 10:05:02
馬杜羅第二次公開出庭:身穿囚服,面帶微笑神情輕松,瘦了一圈

馬杜羅第二次公開出庭:身穿囚服,面帶微笑神情輕松,瘦了一圈

紅星新聞
2026-03-27 12:13:14
焦泊喬申請暫時離隊,球迷:實在無法忍受,就跟徐昕學,換支球隊

焦泊喬申請暫時離隊,球迷:實在無法忍受,就跟徐昕學,換支球隊

小樓侃體育
2026-03-27 16:27:40
哪吒汽車破產覆滅,最諷刺的不是200億債務,而是這個名字本身

哪吒汽車破產覆滅,最諷刺的不是200億債務,而是這個名字本身

蜉蝣說
2026-03-25 10:54:58
扎心!俄愛國軍事博主攤牌:再征40萬大軍也白搭,戰場早已變天!

扎心!俄愛國軍事博主攤牌:再征40萬大軍也白搭,戰場早已變天!

老馬拉車莫少裝
2026-03-25 07:41:30
中方拒收道歉,日本自衛官被轉移,小泉進次郎沉默24小時后發聲

中方拒收道歉,日本自衛官被轉移,小泉進次郎沉默24小時后發聲

何氽簡史
2026-03-26 15:40:58
痛心!山東美女李曉云去世,年僅27歲,結婚三年,丈夫發文感謝

痛心!山東美女李曉云去世,年僅27歲,結婚三年,丈夫發文感謝

洞鑒地理
2026-03-27 21:33:18
馬英九基金會人事變動!董事證實:王光慈接執行長有記錄,馬曾說有識人之明

馬英九基金會人事變動!董事證實:王光慈接執行長有記錄,馬曾說有識人之明

郭茂辰海峽傳真
2026-03-27 21:52:01
2026-03-28 07:00:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
14829文章數 66720關注度
往期回顧 全部

科技要聞

楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

頭條要聞

男醫生給孕妻做彩超 丈夫崩潰撞墻:不過了 明天就離婚

頭條要聞

男醫生給孕妻做彩超 丈夫崩潰撞墻:不過了 明天就離婚

體育要聞

邵佳一:足球就像一場馬拉松

娛樂要聞

范瑋琪加盟,官宣《浪姐7》遭全網抵制

財經要聞

我在小吃培訓機構學習“科技與狠活”

汽車要聞

與眾08,金標大眾不能輸的一戰

態度原創

親子
數碼
時尚
房產
本地

親子要聞

天氣暖和了,安排一套孩子自己能玩半天,激發孩子的動手能力,真的是帶娃省媽啊#太空沙解壓 #太空沙花樣...

數碼要聞

洛斐QQ音樂聯名外設泄露:極地苔原色,瞬間激活432Hz自然聲

推廣中獎名單-更新至2026年3月11日推廣

房產要聞

6.8萬方!天河員村再征地,金融城西區開發全面提速

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

無障礙瀏覽 進入關懷版