Milvus開源語義高亮模型：砍掉80%檢索上下文

2026-01-20 19:56:46　來源: wisemodel開源社區(qū)

北京舉報(bào)

分享至

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)，始終堅(jiān)持“中立、開放、共建、共創(chuàng)、合作”五項(xiàng)基本原則，歡迎加入共同成長。

RAG與agent用到深水區(qū)，一定會遇到這個(gè)問題：明明架構(gòu)很完美，私有數(shù)據(jù)也做了接入，但項(xiàng)目上線三天，不但token賬單爆了，模型輸出結(jié)果也似乎總差點(diǎn)意思。原因在于，針對大模型的RAG、agent架構(gòu)，其檢索模塊，本質(zhì)上可視為傳統(tǒng)搜索做的衍生變體。

這就導(dǎo)致了一個(gè)問題，傳統(tǒng)搜索系統(tǒng)，比如搜索引擎、推薦系統(tǒng)等，需要飽和式輸出，保證用戶能夠收到關(guān)于檢索結(jié)果所有召回信息，然后人類會自動(dòng)在其中選擇適合的信息消化吸收。但這一思路，遷移到RAG上，一次query，就能召回10段文檔給LLM，然后每篇文檔幾千字，這就導(dǎo)致一個(gè)query就要消耗幾萬個(gè)token。但問題是，這10篇文檔里，真正有用的句子可能只有幾十句，而剩下的，全是噪音。大量的噪音灌入，不僅浪費(fèi)token，也分散了LLM注意力。

那么，怎么解決RAG召回上下文太長的問題？

不妨借鑒傳統(tǒng)搜索中的重點(diǎn)內(nèi)容Highlight高亮能力，來為大模型做精準(zhǔn)的上下文剪枝。歡迎體驗(yàn)zilliz最新開源的中英文雙語語義高亮模型Semantic Highlight！模型已經(jīng)發(fā)布在始智AI wisemodel社區(qū)：

模型地址

https://wisemodel.cn/models/zilliz/semantic-highlight-bilingual-v1

SOTA模型Semantic Highlight

要解決RAG召回上下文太長的問題，一個(gè)最簡單的辦法就是，把召回文檔里真正與query語義相關(guān)的句子高亮出來，只把高亮的句子發(fā)給LLM。這樣，不僅token數(shù)量能直接減少70-80%，LLM不再被噪音干擾，也能直觀看到這個(gè)文檔的重點(diǎn)；并且，在RAG狀態(tài)不理想時(shí)，也能直接復(fù)盤是檢索策略的問題，還是chunking策略的問題。

目前，市面上也已經(jīng)出現(xiàn)了一些能夠初步解決這些問題的模型，但它們要么只支持英文，要么上下文窗口太小（512 token），要么協(xié)議不友好（不允許商業(yè)使用）。沒有一個(gè)能同時(shí)滿足：中英文都強(qiáng)、窗口夠大、泛化能力好、協(xié)議友好。所以，zilliz開源了內(nèi)部最新的Semantic Highlight（語義高亮）模型。

作為一款支持中英文雙語處理的輕量級模型，它不僅能快速在生產(chǎn)環(huán)境完成部署，幫助用戶更好的理解高亮核心內(nèi)容，裁掉無關(guān)上下文，大幅降低RAG成本。與此同時(shí)，由于Semantic Highlight 和 Context Pruning 上下文剪枝本質(zhì)是同一技術(shù)的一體兩面。因此，這款模型也能用于 Context Pruning 場景，在 Agent 應(yīng)用中對上下文做精準(zhǔn)裁剪，降低大模型的 token 成本。目前模型權(quán)重已經(jīng)開源，MIT協(xié)議，歡迎使用~

從數(shù)據(jù)上看，在中英文數(shù)據(jù)集上的評測，模型都達(dá)到了SOTA水平。

這是out-of-domain測試。也就是說，測試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的分布完全不同。模型在所有四個(gè)數(shù)據(jù)集上都是第一。同時(shí)，這是唯一一個(gè)在中英文數(shù)據(jù)集上都表現(xiàn)優(yōu)秀的模型。其他模型要么只支持英文，要么在中文上明顯下降。比如XProvence系列，在中文wikitext2上只有0.45-0.47，Semantic Highlight 是0.60。

Semantic Highlight工作原理

Semantic Highlight的推理過程其實(shí)很簡單。

將輸入拼接為 [BOS] + Query + Context
對上下文中的每個(gè) token 打分（0 到 1 之間）
將每個(gè)句子內(nèi)的 token 分?jǐn)?shù)平均，得到句子分?jǐn)?shù)
高亮高分句子，移除低分句子

這套思路，借鑒了來自Provence的輕量Encoder-Only模型思路，把修剪上下文當(dāng)成一個(gè)給每個(gè)token打分的任務(wù)來做。（Provence是一個(gè)專門做Context Pruning的模型，由Naver在ICLR 2025發(fā)表。）

Encoder-Only雖然是上古時(shí)代的架構(gòu)，但它用0.6B上下的參數(shù)就能完成token打分任務(wù)，其速度和效率，比現(xiàn)在的LLM快得多。現(xiàn)在主流的大模型（Decoder-Only架構(gòu)），通常是一個(gè)一個(gè)token地吐詞，緩慢輸出。而Encoder-Only是并行處理，一次性給所有位置打分。而基于Encoder-Only的打分結(jié)果，再將每個(gè)句子的token得分聚合成句子得分，就可以得到每個(gè)句子的相關(guān)性分?jǐn)?shù)，高于閾值的句子即為highlight句子。具體的模型選擇上，選擇了BGE-M3 Reranker v2作為基礎(chǔ)模型。因?yàn)樗荅ncoder架構(gòu)，更適配token/句子打分；多語言方面，中英文都是重點(diǎn)優(yōu)化語言。并且其上下文窗口能做到8192 tokens，適合RAG里更長的文檔。0.6B的參數(shù)量，在保證效率的同時(shí)，也確保基礎(chǔ)模型本身有足夠好的世界知識。而且BGE-M3 Reranker v2本身就是針對Reranking需求訓(xùn)練出來的，用于做token打分這種相似性任務(wù)時(shí)，遷移學(xué)習(xí)更省力。

訓(xùn)練數(shù)據(jù)準(zhǔn)備

模型架構(gòu)選好之后，需要思考的下一步是訓(xùn)練數(shù)據(jù)從哪里來？參考了Open Provence里的數(shù)據(jù)構(gòu)造和組織形式，并對其進(jìn)行改進(jìn)優(yōu)化（Open Provence是Provence的開源復(fù)現(xiàn)項(xiàng)目）。Open Provence好的一點(diǎn)是，它的數(shù)據(jù)來自公開的問答數(shù)據(jù)集，然后使用了一個(gè)小的LLM，對句子相關(guān)度進(jìn)行標(biāo)注，并生成 silver label（銀標(biāo)簽）。但其不足在于，直接讓LLM直接生成標(biāo)注結(jié)果，輸出結(jié)果會變得不穩(wěn)定且難以后期優(yōu)化；但傳統(tǒng)人工標(biāo)注，又會成本、時(shí)間雙雙失控。因此，讓LLM在輸出標(biāo)簽的時(shí)候，把推理過程也寫出來。也就是說，每條訓(xùn)練樣本除了Query、Context、Sentence Spans等字段，還有一個(gè)很重要的字段：Think process（思考過程），從而讓標(biāo)注更準(zhǔn)確，因?yàn)閷懲评磉^程相當(dāng)于自檢一遍，可以保證更低的錯(cuò)誤率。具體來說，讓模型帶上思考過程，會帶來了三個(gè)更多的優(yōu)勢：可觀測（模型為什么選這句的原因）、可調(diào)試（能快速知道標(biāo)錯(cuò)的內(nèi)容，是prompt問題還是知識問題）、可復(fù)用（后續(xù)即使換模型重標(biāo)注，也有現(xiàn)成參考答案。）標(biāo)注流程如下：

這里用于標(biāo)注數(shù)據(jù)的模型，用的是本地部署的Qwen3 8B。它有天然的思考模式，可以用輸出推理過程，成本也相對可控。最終，構(gòu)造了500萬+雙語訓(xùn)練樣本，中英文各一半。英文數(shù)據(jù)來自MS MARCO、Natural Questions、GooAQ，中文數(shù)據(jù)來自DuReader、Wikipedia中文、mmarco_chinese。其中，一部分?jǐn)?shù)據(jù)是來自 Open Provence 等模型訓(xùn)練數(shù)據(jù)的重新標(biāo)注，另一部分使用原始語料生成query和context，再進(jìn)行標(biāo)注。全部標(biāo)注好的訓(xùn)練數(shù)據(jù)也開源在HuggingFace上了，方便大家二次開發(fā)或參考訓(xùn)練。https://huggingface.co/zilliz/datasets

準(zhǔn)備好了模型架構(gòu)和數(shù)據(jù)集，接下來，在8張A100上訓(xùn)練了3個(gè)epoch，約9小時(shí)，Semantic Highlight終于成功出爐。目前，Semantic Highlight模型已經(jīng)開源，MIT協(xié)議，可以放心用在商業(yè)項(xiàng)目中，也歡迎大家基于這個(gè)模型的二次開發(fā)和改進(jìn)，讓開源的力量薪火相傳。另外，在Zilliz Cloud云服務(wù)上，也即將上線Semantic Highlight的在線推理服務(wù)，主打開箱即用。

致謝

Semantic Highlight模型的訓(xùn)練，離不開前人的工作，參考了Provence的理論基礎(chǔ)。它提出了用輕量級Encoder模型做上下文修剪的思路，這個(gè)思路非常優(yōu)雅。也使用了Open Provence的代碼框架（開源協(xié)議），它把訓(xùn)練流程、數(shù)據(jù)管道、模型都實(shí)現(xiàn)好了，不用重復(fù)造輪子，只需要做少量的調(diào)整。在這些基礎(chǔ)上，加入了自己的創(chuàng)新：用帶思考過程的LLM標(biāo)注提升數(shù)據(jù)質(zhì)量；創(chuàng)建了500萬+雙語訓(xùn)練樣本，覆蓋中英文場景，更符合實(shí)際業(yè)務(wù)需求；選擇了更適合RAG場景的基礎(chǔ)模型（BGE-M3 Reranker v2）。只訓(xùn)練Pruning Head，專注在Semantic Highlight任務(wù)上，沒有訓(xùn)練Rerank Head。在此，向Provence團(tuán)隊(duì)和Open Provence項(xiàng)目的貢獻(xiàn)者們致以誠摯的感謝。

Open Provence 項(xiàng)目：hotchpotch/open_provence
Provence 論文：arXiv:2501.16214
Provence 官方介紹文章：Provence: efficient and robust context pruning for retrieval-augmented generation
Milvus：milvus.io
Zilliz Cloud：zilliz.com

作者介紹

張晨

Zilliz Algorithm Engineer

----- END -----

wisemodel相關(guān)：

系列模型：

關(guān)于wisemodel更多

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅(jiān)持和投入，更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù)，歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果，包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū)，共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。

歡迎加盟wisemodel開源社區(qū)

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果，鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等，在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹，也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立，旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū)，將打造成“HuggingFace”之外最活躍的AI開源社區(qū)，匯聚主要AI開源模型、數(shù)據(jù)集和代碼等，歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者，以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等，還有投資機(jī)構(gòu)、科技媒體等，共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動(dòng)查看

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.