重新定義嵌入模型標桿，“源”EB 2.0檢索排序雙SOTA

2025-12-28 18:07:44　來源: wisemodel開源社區(qū)

北京舉報

分享至

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在，歡迎加入共同成長。

浪潮信息AI團隊正式發(fā)布"源"Yuan-EB 2.0系列模型（Yuan-embedding-2.0，嵌入模型）。根據(jù)HuggingFace權(quán)威評測榜單MTEB和C-MTEB最新更新顯示，"源"Yuan-EB 2.0模型在檢索任務(wù)（Retrieval）與排序任務(wù)（Reranking）雙榜單中，斬獲"雙SOTA"的絕佳成績。中文模型在C-MTEB榜單檢索任務(wù)獲得81.76分、排序任務(wù)獲得77.94分；英文模型在MTEB榜單檢索任務(wù)獲得70.69分、排序任務(wù)獲得53.27分，展現(xiàn)了其在自然語言處理領(lǐng)域的強大能力。

尤其值得關(guān)注的是，"源"Yuan-EB 2.0模型僅以0.3B和0.6B的輕量級參數(shù)規(guī)模，全面超越眾多大參數(shù)量主流模型，樹立了"小參數(shù)、高性能、低開銷"的技術(shù)新標桿，為檢索增強生成（RAG）、語義搜索等應(yīng)用落地提供了更優(yōu)的技術(shù)方案。已上線始智AI-wisemodel開源社區(qū)，歡迎體驗。

模型地址

https://wisemodel.cn/models/IEIT-Yuan/Yuan-embedding-2.0-zh

https://wisemodel.cn/models/IEIT-Yuan/Yuan-embedding-2.0-en/file

01.

源Yuan-EB2.0斬獲

檢索與排序任務(wù)雙項第一

"源"Yuan-EB 2.0系列模型由浪潮信息自主研發(fā)，創(chuàng)新性地利用源大模型進行高質(zhì)量訓(xùn)練數(shù)據(jù)構(gòu)建，通過強化型Reranker損失函數(shù)、多階段漸進式訓(xùn)練方案、動態(tài)難負例挖掘等技術(shù)突破，顯著提升了模型在檢索與排序任務(wù)上的表現(xiàn)。作為RAG系統(tǒng)的核心組件，嵌入模型負責將文本轉(zhuǎn)換為向量形式，直接決定檢索的精準性和效率。"源"Yuan-EB 2.0模型包括中文和英文兩個模型，分別針對中英文語義特性進行深度優(yōu)化，并在醫(yī)療、法律、金融、電商等垂直領(lǐng)域進行針對性訓(xùn)練，確保模型在專業(yè)場景下的優(yōu)異表現(xiàn)。

中文版本，C-MTEB榜單

C-MTEB（Chinese Massive Text Embedding Benchmark）是業(yè)界公認的中文Embedding模型權(quán)威評測基準，涵蓋Classification、Clustering、Pair Classification、Reranking、Retrieval、STS等六大任務(wù)類型，共35個公開數(shù)據(jù)集。Yuan-embedding-2.0-zh在Retrieval和Reranking任務(wù)上表現(xiàn)突出，分別以81.76分和77.94分的成績奪得雙料冠軍，全面超越業(yè)界主流大參數(shù)量模型，展現(xiàn)了卓越的中文語義理解與檢索能力。

英文版本：MTEB榜單

MTEB（Massive Text Embedding Benchmark）是全球最權(quán)威的多語言Embedding模型評測基準，涵蓋8大任務(wù)類型、58個數(shù)據(jù)集、112種語言。其中英文評測集作為最具競爭力的賽道，匯聚了全球頂尖Embedding模型。Yuan-embedding-2.0-en英文版本在該榜單中取得突破性成績，在Retrieval任務(wù)獲得70.69分、Reranking任務(wù)獲得53.27分，僅以0.6B的輕量級參數(shù)規(guī)模擊敗眾多大參數(shù)模型，充分證明了其技術(shù)創(chuàng)新的有效性和先進性。

02.

樹立“小參數(shù)、高性能、低開銷”技術(shù)新標桿

“源”Yuan-EB 2.0模型以輕量級的 0.3B 和 0.6B 參數(shù)規(guī)模，實現(xiàn)了對諸多大參數(shù)模型的性能反超，重新定義了“小參數(shù)、高性能、低開銷”的技術(shù)新標桿，其背后得益于研發(fā)團隊在技術(shù)架構(gòu)與訓(xùn)練方法上的多項原創(chuàng)性創(chuàng)新：

強化型Reranker損失函數(shù)

浪潮信息AI團隊設(shè)計了一種創(chuàng)新的強化型Reranker損失函數(shù)，通過三個自適應(yīng)機制的協(xié)同作用，實現(xiàn)了訓(xùn)練過程的智能化調(diào)節(jié)：

其中：

動態(tài)Margin機制：基于樣本得分方差自動調(diào)整優(yōu)化目標，當模型對樣本區(qū)分度高時提升margin要求，反之則適當降低，實現(xiàn)因材施教的訓(xùn)練效果；

難例加權(quán)策略：采用指數(shù)衰減函數(shù)自動識別并重點優(yōu)化邊界樣本，將計算資源聚焦在真正有價值的難分樣本上，大幅提升訓(xùn)練效率；

自適應(yīng)溫度調(diào)節(jié)：根據(jù)正負樣本得分差距動態(tài)調(diào)整損失函數(shù)的陡峭程度，有效防止對簡單樣本的過擬合，增強模型泛化能力；

這種三位一體的設(shè)計使得損失函數(shù)能夠智能感知樣本特性并自動調(diào)整優(yōu)化策略，顯著提升了Reranking任務(wù)的精排能力。該方法具有自動聚焦難樣本、避免過度擬合易樣本的優(yōu)勢，訓(xùn)練過程穩(wěn)定、收斂快，同時對搜索、問答、對話等不同任務(wù)場景展現(xiàn)出強大的適應(yīng)性。

多階段漸進式訓(xùn)練

模型訓(xùn)練采用精心設(shè)計的多階段漸進式方案：

大規(guī)模弱監(jiān)督預(yù)訓(xùn)練：利用海量配對數(shù)據(jù)進行對比學(xué)習(xí)，構(gòu)建扎實的語義表征基礎(chǔ)；
高質(zhì)量監(jiān)督微調(diào)：基于人工標注的高質(zhì)量數(shù)據(jù)集進行精細化訓(xùn)練，提升模型在特定任務(wù)上的表現(xiàn)；
任務(wù)特定優(yōu)化：針對Retrieval和Reranking任務(wù)分別設(shè)計優(yōu)化策略，充分發(fā)揮模型在不同場景下的潛力；

動態(tài)難負例挖掘

浪潮信息AI團隊創(chuàng)新性地提出了動態(tài)難負例挖掘方法，在訓(xùn)練過程中實時識別并利用高質(zhì)量負樣本，能夠提供：

自動過濾偽負例，避免噪聲樣本對模型訓(xùn)練的干擾；
動態(tài)調(diào)整負例難度，確保模型始終在最佳學(xué)習(xí)區(qū)間內(nèi)訓(xùn)練；
有效提升模型對細粒度語義差異的判別能力；

多語言深度優(yōu)化

針對語言特性進行專項優(yōu)化：

語義理解增強：針對中英文語言的詞語搭配、語法結(jié)構(gòu)和語義關(guān)聯(lián)特點進行深度訓(xùn)練，準確捕捉不同語言表達的細微語義差異；
多領(lǐng)域覆蓋：在通用領(lǐng)域和垂直行業(yè)場景中進行廣泛訓(xùn)練，提升模型對不同領(lǐng)域文本的檢索和排序能力；
高效編碼與泛化：優(yōu)化文本的向量表征效率，通過多樣化數(shù)據(jù)訓(xùn)練增強模型在不同應(yīng)用場景下的泛化能力，在保持高精度的同時提升檢索響應(yīng)速度；

元腦企智EPAI平臺集成“源”Yuan-EB 2.0模型，加速知識庫構(gòu)建與性能提升

目前，"源"Yuan-EB 2.0模型現(xiàn)已完成在元腦企智EPAI平臺的全面部署。針對智能搜索、RAG增強、智能客服等業(yè)務(wù)需求，企業(yè)用戶可直接在平臺上調(diào)用該模型，體驗低算力成本下的極致語義理解與精排效果。通過與元腦企智EPAI平臺多階段RAG檢索增強技術(shù)，實現(xiàn)企業(yè)私有數(shù)據(jù)、行業(yè)專業(yè)知識與通用知識的高效整合，攻克大模型知識時效性難題，為業(yè)務(wù)場景提供精準、專業(yè)的生成內(nèi)容保障。

依托元腦企智EPAI平臺完整的工具鏈支持，企業(yè)無需深厚的技術(shù)技術(shù)積累即可快速搭建智能應(yīng)用。"源"Yuan-EB 2.0模型優(yōu)異的檢索與排序性能，配合平臺的一站式開發(fā)能力，使企業(yè)能夠以更低成本、更高效率構(gòu)建專屬知識庫系統(tǒng)，切實釋放數(shù)據(jù)價值，全面提升企業(yè)的智能化水平。

----- END -----

wisemodel相關(guān)：

系列模型：

關(guān)于wisemodel更多

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果，包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū)，共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區(qū)，為了加快公司發(fā)展，我們長期需要技術(shù)、運營等人才加盟，技術(shù)側(cè)重在AI infra、后端開發(fā)，熟悉K8S、模型訓(xùn)練和推理等技術(shù)，以及熟悉開發(fā)者生態(tài)運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果，鼓勵高校實驗室、大企業(yè)研究團隊、個人等，在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹，也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立，旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū)，將打造成“HuggingFace”之外最活躍的AI開源社區(qū)，匯聚主要AI開源模型、數(shù)據(jù)集和代碼等，歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者，以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等，還有投資機構(gòu)、科技媒體等，共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.