337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

突破“結(jié)構(gòu)性失明”,SEAL攻克結(jié)構(gòu)化長(zhǎng)文檔檢索難題

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長(zhǎng)。

在處理 HTML、Markdown 等長(zhǎng)篇結(jié)構(gòu)化文檔檢索時(shí),現(xiàn)有方法常因忽略 h1、h2 等文檔結(jié)構(gòu)標(biāo)簽而面臨 “結(jié)構(gòu)性失明(Structural Blindness)” 問(wèn)題,為此本文提出了名為 SEAL 的全新對(duì)比學(xué)習(xí)框架,其核心方法包含兩部分:

一是結(jié)構(gòu)感知學(xué)習(xí)(Structure-Aware Learning,SAL),通過(guò)對(duì)比含結(jié)構(gòu)標(biāo)簽與不含結(jié)構(gòu)標(biāo)簽的文檔幫助模型理解整體層級(jí)結(jié)構(gòu);二是元素感知對(duì)齊(Element-Aware Learning,EAL),通過(guò)隨機(jī)遮蔽部分元素的標(biāo)簽迫使模型進(jìn)行更細(xì)粒度的語(yǔ)義對(duì)齊。

實(shí)驗(yàn)結(jié)果表明,SEAL 框架在多個(gè)基準(zhǔn)模型上效果顯著,例如在 BGE-M3 模型上將 MRR@10 指標(biāo)從 73.96% 提升至 77.84%,且其有效性已在真實(shí)線上 A/B 測(cè)試中得到驗(yàn)證,這項(xiàng)研究的核心貢獻(xiàn)在于創(chuàng)新性地將文檔的宏觀層級(jí)結(jié)構(gòu)與微觀元素語(yǔ)義同時(shí)融入統(tǒng)一的 Embedding 空間,大幅增強(qiáng)了預(yù)訓(xùn)練語(yǔ)言模型對(duì)結(jié)構(gòu)化數(shù)據(jù)的理解和表示能力,同時(shí)還發(fā)布了專門用于此類研究的長(zhǎng)文本帶結(jié)構(gòu)標(biāo)注新數(shù)據(jù)集 StructDocRetrieval,填補(bǔ)了該領(lǐng)域的數(shù)據(jù)集空白。項(xiàng)目均已上線始智AI-wisemodel開源社區(qū),歡迎體驗(yàn)。


代碼和數(shù)據(jù)集地址

https://wisemodel.cn/codes/Rilzob/SEAL

https://wisemodel.cn/datasets/Rilzob/StructDocRetrieval/file

01.

結(jié)構(gòu)化長(zhǎng)文檔檢索中的常見挑戰(zhàn)

在日常工作和學(xué)習(xí)中,我們常常需要從篇幅浩繁的文檔中尋找特定信息,例如技術(shù)手冊(cè)、法律文書或研究報(bào)告。面對(duì)這些結(jié)構(gòu)復(fù)雜的長(zhǎng)文本,即便是先進(jìn)的Embedding模型,也可能在信息檢索時(shí)表現(xiàn)不佳。

一個(gè)關(guān)鍵原因是,現(xiàn)有方法在處理結(jié)構(gòu)化長(zhǎng)文檔時(shí),大多將其視為一長(zhǎng)串無(wú)差別的純文本,忽略了標(biāo)題、段落、列表等固有的結(jié)構(gòu)信息。這種對(duì)文檔層次脈絡(luò)的“視而不見”,我們稱之為“結(jié)構(gòu)性失明”(Structural Blindness),它限制了Embedding模型對(duì)文檔深層語(yǔ)義的理解能力。針對(duì)這一挑戰(zhàn),我們提出了名為 SEAL (Structure and Element Aware Learning) 的對(duì)比學(xué)習(xí)框架,嘗試讓Embedding模型更好地理解和利用文檔的結(jié)構(gòu)信息。

02.

SEAL框架的設(shè)計(jì)思路

該研究旨在解決長(zhǎng)文檔檢索中的兩個(gè)具體問(wèn)題:一是如何讓模型感知文檔的層次結(jié)構(gòu),二是如何促進(jìn)用戶查詢與文檔內(nèi)部具體元素之間的精準(zhǔn)對(duì)齊。SEAL框架為此設(shè)計(jì)了兩種相輔相成的訓(xùn)練策略。我們可以將其理解為對(duì)Embedding模型進(jìn)行的兩項(xiàng)專門“輔導(dǎo)”。


1、結(jié)構(gòu)感知學(xué)習(xí)(Structure-Aware Learning, SAL)—— 嘗試?yán)斫馕臋n的"骨架"

傳統(tǒng)的Embedding模型在讀取HTML等格式的文檔時(shí),往往會(huì)剝離

等結(jié)構(gòu)標(biāo)簽。SAL的核心思路則有所不同。它在訓(xùn)練時(shí)會(huì)向模型同時(shí)展示一份文檔的兩個(gè)版本:一個(gè)保留了結(jié)構(gòu)標(biāo)簽,另一個(gè)則去除了標(biāo)簽。通過(guò)對(duì)比學(xué)習(xí)的任務(wù),模型被鼓勵(lì)去發(fā)現(xiàn),即使沒有明確的標(biāo)簽,某些文本片段(如標(biāo)題)的內(nèi)容和位置也蘊(yùn)含著其結(jié)構(gòu)功能。通過(guò)這種方式,模型能夠逐步學(xué)習(xí)到文檔的內(nèi)在"骨架",區(qū)分不同部分的邏輯功能。

2、元素感知對(duì)齊(Element-Aware Alignment,EAL)—— 關(guān)注局部元素的語(yǔ)義角色

為了進(jìn)一步提升模型對(duì)細(xì)節(jié)的把握,EAL策略引入了一種基于元素(如一個(gè)標(biāo)題或一個(gè)段落)的Mask機(jī)制。在訓(xùn)練中會(huì)按照固定比例隨機(jī)Mask文檔中的一小部分元素,然后要求模型判斷這份信息不完整的文檔是否與給定的Query相關(guān)。為了完成任務(wù),模型必須更依賴文本內(nèi)容本身以及周圍未被遮蓋的元素來(lái)推斷文檔的整體相關(guān)性。這個(gè)過(guò)程促使模型更深入地理解每個(gè)文本片段的語(yǔ)義角色及其在上下文中的作用。


實(shí)驗(yàn)結(jié)果表明,這兩種訓(xùn)練策略的結(jié)合能夠帶來(lái)積極效果。在BGE-M3模型上的測(cè)試顯示,應(yīng)用SEAL框架后,衡量檢索排序質(zhì)量的關(guān)鍵指標(biāo)NDCG@10從73.96%提升至77.84%。這一數(shù)據(jù)表明,模型在將更相關(guān)的結(jié)果排在靠前位置的能力上有所增強(qiáng)。同時(shí),線上A/B測(cè)試的結(jié)果也初步顯示了該方法在實(shí)際應(yīng)用場(chǎng)景中的積極影響。

03.

為結(jié)構(gòu)化文檔檢索提供新視角

SEAL框架的探索為信息檢索領(lǐng)域,特別是長(zhǎng)文檔處理,提供了一個(gè)有益的視角。在學(xué)術(shù)層面,這項(xiàng)工作強(qiáng)調(diào)了在模型訓(xùn)練中利用文檔原生結(jié)構(gòu)的重要性,并提出了一種可行的技術(shù)路徑。同時(shí),該團(tuán)隊(duì)還發(fā)布了一個(gè)名為StructDocRetrieval 的新數(shù)據(jù)集,其中包含帶有結(jié)構(gòu)標(biāo)注的萬(wàn)詞級(jí)別長(zhǎng)文檔。這個(gè)資源的公開,為社區(qū)評(píng)估和開發(fā)面向長(zhǎng)文檔的檢索模型提供了一個(gè)新的Benchmark,有望推動(dòng)相關(guān)研究的進(jìn)一步發(fā)展。

在應(yīng)用層面,這種對(duì)結(jié)構(gòu)信息的精細(xì)理解,有望為檢索增強(qiáng)生成(RAG)等下游任務(wù)提供更可靠的信息來(lái)源。例如,當(dāng)AI助手需要從復(fù)雜的技術(shù)文檔中尋找答案時(shí),對(duì)結(jié)構(gòu)的理解能幫助它更準(zhǔn)確地定位和引用信息。在企業(yè)知識(shí)庫(kù)、法律科技等專業(yè)領(lǐng)域,該方法也展現(xiàn)了其應(yīng)用前景。

----- END -----


wisemodel相關(guān):

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來(lái),逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長(zhǎng)期需要技術(shù)、運(yùn)營(yíng)等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營(yíng)的成員,歡迎感興趣的朋友加盟,可以通過(guò)添加wisemodel微信,或者將簡(jiǎn)歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長(zhǎng)劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動(dòng)查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
蔡磊透露身體近況:四個(gè)人同時(shí)攙扶也無(wú)法邁步,感覺最對(duì)不起的就是妻子

蔡磊透露身體近況:四個(gè)人同時(shí)攙扶也無(wú)法邁步,感覺最對(duì)不起的就是妻子

極目新聞
2026-03-29 22:40:10
奧運(yùn)冠軍“拉拉鏈露胸”,讓耐克繃不住了!

奧運(yùn)冠軍“拉拉鏈露胸”,讓耐克繃不住了!

品牌營(yíng)銷報(bào)
2026-02-23 11:31:10
太反常!別的國(guó)家越強(qiáng)越?jīng)]人敢惹,為啥中國(guó)越強(qiáng),麻煩就越多

太反常!別的國(guó)家越強(qiáng)越?jīng)]人敢惹,為啥中國(guó)越強(qiáng),麻煩就越多

小蘭聊歷史
2026-03-30 15:11:22
美國(guó)歷史,或?qū)⒂诒局苋膶懀?>
    </a>
        <h3>
      <a href=湊近看世界
2026-03-30 10:24:47
中東危機(jī)只是小菜?更大危機(jī)還在后面,外媒:中國(guó)將徹底顛覆戰(zhàn)場(chǎng)

中東危機(jī)只是小菜?更大危機(jī)還在后面,外媒:中國(guó)將徹底顛覆戰(zhàn)場(chǎng)

嘆知
2026-03-29 18:13:46
焦泊喬成籌碼?廣東可能進(jìn)行交易,前國(guó)手有望加盟,曾獲杜鋒青睞

焦泊喬成籌碼?廣東可能進(jìn)行交易,前國(guó)手有望加盟,曾獲杜鋒青睞

萌蘭聊個(gè)球
2026-03-30 08:19:53
霍啟山激動(dòng):嫂子我喜歡這個(gè)!郭晶晶:等著,嫂子給你要微信去!

霍啟山激動(dòng):嫂子我喜歡這個(gè)!郭晶晶:等著,嫂子給你要微信去!

拳擊時(shí)空
2026-03-28 07:07:19
烏克蘭認(rèn)輸了?澤連斯基改口認(rèn)慫,不到24小時(shí),普京下達(dá)最新命令

烏克蘭認(rèn)輸了?澤連斯基改口認(rèn)慫,不到24小時(shí),普京下達(dá)最新命令

近史閣
2026-03-30 12:19:48
歐洲人在性方面有多開放?德國(guó)再創(chuàng)歷史!女廁所、女浴室隨便進(jìn)了

歐洲人在性方面有多開放?德國(guó)再創(chuàng)歷史!女廁所、女浴室隨便進(jìn)了

西樓知趣雜談
2026-03-24 14:38:30
萬(wàn)科12位高管被調(diào)查

萬(wàn)科12位高管被調(diào)查

地產(chǎn)微資訊
2026-03-28 11:17:12
楊瀚森全程沒動(dòng)手仍吃T!白扔2000美元太冤枉,主帥盛贊:很踏實(shí)

楊瀚森全程沒動(dòng)手仍吃T!白扔2000美元太冤枉,主帥盛贊:很踏實(shí)

你的籃球頻道
2026-03-30 10:02:01
“斬首術(shù)”應(yīng)該獲諾貝爾獎(jiǎng)?如此“讓領(lǐng)導(dǎo)先走”,真是偉大創(chuàng)造嗎

“斬首術(shù)”應(yīng)該獲諾貝爾獎(jiǎng)?如此“讓領(lǐng)導(dǎo)先走”,真是偉大創(chuàng)造嗎

瑜說(shuō)還休
2026-03-27 17:31:33
單依純明目張膽侵權(quán)他人作品,拒不道歉,李榮浩4連問(wèn)硬剛到底

單依純明目張膽侵權(quán)他人作品,拒不道歉,李榮浩4連問(wèn)硬剛到底

上觀新聞
2026-03-29 17:56:07
伊朗做好最壞打算,如果美國(guó)發(fā)動(dòng)地面戰(zhàn),將拉著周邊鄰國(guó)同歸于盡

伊朗做好最壞打算,如果美國(guó)發(fā)動(dòng)地面戰(zhàn),將拉著周邊鄰國(guó)同歸于盡

探史
2026-03-30 11:47:20
中國(guó)摩托的越南復(fù)仇:從“工業(yè)垃圾”到“平替神車”

中國(guó)摩托的越南復(fù)仇:從“工業(yè)垃圾”到“平替神車”

沙雕小琳琳
2026-03-28 10:15:55
洛桑去世真相:博林25年后坦白,他其實(shí)沒喝多少酒

洛桑去世真相:博林25年后坦白,他其實(shí)沒喝多少酒

觀察者海風(fēng)
2026-03-26 23:12:53
曼聯(lián)夏窗鎖定23歲頂級(jí)中場(chǎng)!為截胡曼城,紅魔愿以他為核心建隊(duì)

曼聯(lián)夏窗鎖定23歲頂級(jí)中場(chǎng)!為截胡曼城,紅魔愿以他為核心建隊(duì)

仰臥撐FTUer
2026-03-30 13:28:08
開辟第二個(gè)戰(zhàn)場(chǎng)?美航母后撤,胡塞導(dǎo)彈砸向以色列,伊朗迎來(lái)強(qiáng)援

開辟第二個(gè)戰(zhàn)場(chǎng)?美航母后撤,胡塞導(dǎo)彈砸向以色列,伊朗迎來(lái)強(qiáng)援

張殿成
2026-03-30 16:02:05
朱孝天撕「賣情懷F4」標(biāo)簽上陸綜 曾志偉嚇一跳:為什么要來(lái)?

朱孝天撕「賣情懷F4」標(biāo)簽上陸綜 曾志偉嚇一跳:為什么要來(lái)?

ETtoday星光云
2026-03-30 09:50:17
塔圖姆轟32+5+8無(wú)緣今日最佳!對(duì)不起,你碰到暴走創(chuàng)紀(jì)錄的申京了

塔圖姆轟32+5+8無(wú)緣今日最佳!對(duì)不起,你碰到暴走創(chuàng)紀(jì)錄的申京了

世界體育圈
2026-03-30 12:41:58
2026-03-30 16:59:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國(guó)版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

DeepSeek性能異常問(wèn)題已解決,服務(wù)恢復(fù)

頭條要聞

單套最低5400萬(wàn) 北京豪宅暴雷幾十戶業(yè)主辦不了房產(chǎn)證

頭條要聞

單套最低5400萬(wàn) 北京豪宅暴雷幾十戶業(yè)主辦不了房產(chǎn)證

體育要聞

想進(jìn)世界杯,意大利還要過(guò)他這一關(guān)

娛樂要聞

單依純凌晨發(fā)長(zhǎng)文道歉!李榮浩再回應(yīng)

財(cái)經(jīng)要聞

油價(jià)沖擊,有些亞洲貨幣先扛不住了!

汽車要聞

理想i9要來(lái)了!外形似小號(hào)MEGA 能沖擊高端純電市場(chǎng)?

態(tài)度原創(chuàng)

本地
房產(chǎn)
家居
時(shí)尚
公開課

本地新聞

用Color Walk的方式解鎖城市春日

房產(chǎn)要聞

32億,三開三罄!誰(shuí)在硬控海口樓市高端局?

家居要聞

東方法式美學(xué) 現(xiàn)代簡(jiǎn)約

來(lái)到1980的周也,好毛利蘭

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版