![]()
始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。
浪潮信息AI團隊正式發(fā)布"源"Yuan-EB 2.0系列模型(Yuan-embedding-2.0,嵌入模型)。根據(jù)HuggingFace權(quán)威評測榜單MTEB和C-MTEB最新更新顯示,"源"Yuan-EB 2.0模型在檢索任務(wù)(Retrieval)與排序任務(wù)(Reranking)雙榜單中,斬獲"雙SOTA"的絕佳成績。中文模型在C-MTEB榜單檢索任務(wù)獲得81.76分、排序任務(wù)獲得77.94分;英文模型在MTEB榜單檢索任務(wù)獲得70.69分、排序任務(wù)獲得53.27分,展現(xiàn)了其在自然語言處理領(lǐng)域的強大能力。
尤其值得關(guān)注的是,"源"Yuan-EB 2.0模型僅以0.3B和0.6B的輕量級參數(shù)規(guī)模,全面超越眾多大參數(shù)量主流模型,樹立了"小參數(shù)、高性能、低開銷"的技術(shù)新標桿,為檢索增強生成(RAG)、語義搜索等應(yīng)用落地提供了更優(yōu)的技術(shù)方案。已上線始智AI-wisemodel開源社區(qū),歡迎體驗。
![]()
模型地址
https://wisemodel.cn/models/IEIT-Yuan/Yuan-embedding-2.0-zh
https://wisemodel.cn/models/IEIT-Yuan/Yuan-embedding-2.0-en/file
01.
源Yuan-EB2.0斬獲
檢索與排序任務(wù)雙項第一
"源"Yuan-EB 2.0系列模型由浪潮信息自主研發(fā),創(chuàng)新性地利用源大模型進行高質(zhì)量訓(xùn)練數(shù)據(jù)構(gòu)建,通過強化型Reranker損失函數(shù)、多階段漸進式訓(xùn)練方案、動態(tài)難負例挖掘等技術(shù)突破,顯著提升了模型在檢索與排序任務(wù)上的表現(xiàn)。作為RAG系統(tǒng)的核心組件,嵌入模型負責將文本轉(zhuǎn)換為向量形式,直接決定檢索的精準性和效率。"源"Yuan-EB 2.0模型包括中文和英文兩個模型,分別針對中英文語義特性進行深度優(yōu)化,并在醫(yī)療、法律、金融、電商等垂直領(lǐng)域進行針對性訓(xùn)練,確保模型在專業(yè)場景下的優(yōu)異表現(xiàn)。
中文版本,C-MTEB榜單
C-MTEB(Chinese Massive Text Embedding Benchmark)是業(yè)界公認的中文Embedding模型權(quán)威評測基準,涵蓋Classification、Clustering、Pair Classification、Reranking、Retrieval、STS等六大任務(wù)類型,共35個公開數(shù)據(jù)集。Yuan-embedding-2.0-zh在Retrieval和Reranking任務(wù)上表現(xiàn)突出,分別以81.76分和77.94分的成績奪得雙料冠軍,全面超越業(yè)界主流大參數(shù)量模型,展現(xiàn)了卓越的中文語義理解與檢索能力。
![]()
英文版本:MTEB榜單
MTEB(Massive Text Embedding Benchmark)是全球最權(quán)威的多語言Embedding模型評測基準,涵蓋8大任務(wù)類型、58個數(shù)據(jù)集、112種語言。其中英文評測集作為最具競爭力的賽道,匯聚了全球頂尖Embedding模型。Yuan-embedding-2.0-en英文版本在該榜單中取得突破性成績,在Retrieval任務(wù)獲得70.69分、Reranking任務(wù)獲得53.27分,僅以0.6B的輕量級參數(shù)規(guī)模擊敗眾多大參數(shù)模型,充分證明了其技術(shù)創(chuàng)新的有效性和先進性。
![]()
02.
樹立“小參數(shù)、高性能、低開銷”技術(shù)新標桿
“源”Yuan-EB 2.0模型以輕量級的 0.3B 和 0.6B 參數(shù)規(guī)模,實現(xiàn)了對諸多大參數(shù)模型的性能反超,重新定義了“小參數(shù)、高性能、低開銷”的技術(shù)新標桿,其背后得益于研發(fā)團隊在技術(shù)架構(gòu)與訓(xùn)練方法上的多項原創(chuàng)性創(chuàng)新:
強化型Reranker損失函數(shù)
浪潮信息AI團隊設(shè)計了一種創(chuàng)新的強化型Reranker損失函數(shù),通過三個自適應(yīng)機制的協(xié)同作用,實現(xiàn)了訓(xùn)練過程的智能化調(diào)節(jié):
其中:
動態(tài)Margin機制:基于樣本得分方差自動調(diào)整優(yōu)化目標,當模型對樣本區(qū)分度高時提升margin要求,反之則適當降低,實現(xiàn)因材施教的訓(xùn)練效果;
難例加權(quán)策略:采用指數(shù)衰減函數(shù)自動識別并重點優(yōu)化邊界樣本,將計算資源聚焦在真正有價值的難分樣本上,大幅提升訓(xùn)練效率;
自適應(yīng)溫度調(diào)節(jié):根據(jù)正負樣本得分差距動態(tài)調(diào)整損失函數(shù)的陡峭程度,有效防止對簡單樣本的過擬合,增強模型泛化能力;
這種三位一體的設(shè)計使得損失函數(shù)能夠智能感知樣本特性并自動調(diào)整優(yōu)化策略,顯著提升了Reranking任務(wù)的精排能力。該方法具有自動聚焦難樣本、避免過度擬合易樣本的優(yōu)勢,訓(xùn)練過程穩(wěn)定、收斂快,同時對搜索、問答、對話等不同任務(wù)場景展現(xiàn)出強大的適應(yīng)性。
多階段漸進式訓(xùn)練
模型訓(xùn)練采用精心設(shè)計的多階段漸進式方案:
大規(guī)模弱監(jiān)督預(yù)訓(xùn)練:利用海量配對數(shù)據(jù)進行對比學(xué)習(xí),構(gòu)建扎實的語義表征基礎(chǔ);
高質(zhì)量監(jiān)督微調(diào):基于人工標注的高質(zhì)量數(shù)據(jù)集進行精細化訓(xùn)練,提升模型在特定任務(wù)上的表現(xiàn);
任務(wù)特定優(yōu)化:針對Retrieval和Reranking任務(wù)分別設(shè)計優(yōu)化策略,充分發(fā)揮模型在不同場景下的潛力;
動態(tài)難負例挖掘
浪潮信息AI團隊創(chuàng)新性地提出了動態(tài)難負例挖掘方法,在訓(xùn)練過程中實時識別并利用高質(zhì)量負樣本,能夠提供:
自動過濾偽負例,避免噪聲樣本對模型訓(xùn)練的干擾;
動態(tài)調(diào)整負例難度,確保模型始終在最佳學(xué)習(xí)區(qū)間內(nèi)訓(xùn)練;
有效提升模型對細粒度語義差異的判別能力;
多語言深度優(yōu)化
針對語言特性進行專項優(yōu)化:
語義理解增強:針對中英文語言的詞語搭配、語法結(jié)構(gòu)和語義關(guān)聯(lián)特點進行深度訓(xùn)練,準確捕捉不同語言表達的細微語義差異;
多領(lǐng)域覆蓋:在通用領(lǐng)域和垂直行業(yè)場景中進行廣泛訓(xùn)練,提升模型對不同領(lǐng)域文本的檢索和排序能力;
高效編碼與泛化:優(yōu)化文本的向量表征效率,通過多樣化數(shù)據(jù)訓(xùn)練增強模型在不同應(yīng)用場景下的泛化能力,在保持高精度的同時提升檢索響應(yīng)速度;
![]()
元腦企智EPAI平臺集成“源”Yuan-EB 2.0模型,加速知識庫構(gòu)建與性能提升
目前,"源"Yuan-EB 2.0模型現(xiàn)已完成在元腦企智EPAI平臺的全面部署。針對智能搜索、RAG增強、智能客服等業(yè)務(wù)需求,企業(yè)用戶可直接在平臺上調(diào)用該模型,體驗低算力成本下的極致語義理解與精排效果。通過與元腦企智EPAI平臺多階段RAG檢索增強技術(shù),實現(xiàn)企業(yè)私有數(shù)據(jù)、行業(yè)專業(yè)知識與通用知識的高效整合,攻克大模型知識時效性難題,為業(yè)務(wù)場景提供精準、專業(yè)的生成內(nèi)容保障。
依托元腦企智EPAI平臺完整的工具鏈支持,企業(yè)無需深厚的技術(shù)技術(shù)積累即可快速搭建智能應(yīng)用。"源"Yuan-EB 2.0模型優(yōu)異的檢索與排序性能,配合平臺的一站式開發(fā)能力,使企業(yè)能夠以更低成本、更高效率構(gòu)建專屬知識庫系統(tǒng),切實釋放數(shù)據(jù)價值,全面提升企業(yè)的智能化水平。
----- END -----
![]()
wisemodel相關(guān):
系列模型:
關(guān)于wisemodel更多
1
歡迎持續(xù)關(guān)注和支持
開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。
2
歡迎加盟wisemodel開源社區(qū)
始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優(yōu)質(zhì)內(nèi)容
歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關(guān)于wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。
向上滑動查看
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.