網易首頁 > 網易號 > 正文申請入駐

KaLM-Embedding-V2重塑高質量文本嵌入格局

2025-11-06 18:42:04　來源: wisemodel開源社區

北京舉報

分享至

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在，歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動，最高可得算力券+token包380元獎勵，歡迎參與和支持！

大模型驅動的語義表示時代，文本嵌入模型（Text Embedding Models）已成為檢索、STS、分類、排序等各類NLP下游任務的核心基石。然而，主流嵌入模型普遍依賴大規模數據或合成數據，很少系統性探索訓練技巧與數據質量的協同優化。

結果就是，并且由于模型體積龐大，部署成本高昂，其泛化能力和可復現性不太理想。

此外，多數業界領先的嵌入模型來源于頭部公司，其專有數據、封閉代碼和商業限制為學術界和開發者社區帶來了巨大的挑戰，使得高效、可復現的研究難以進行。

為此，KaLM-Embedding團隊推出了KaLM-Embedding-V2系列模型，一個以高質量數據+精湛訓練技巧為核心打造的緊湊通用嵌入解決方案。它不僅性能強悍，更以0.5B參數的“小體型”挑戰甚至超越多個7B~9B級模型！與同參數量規模的Qwen3-Embedding-0.6B以及bge-m3相比，KaLM-Embedding-V2系列展現出來顯著的性能優勢。

最重要的是，KaLM-Embedding不僅僅是一系列單點模型，而是一個面向學術界的全面開源貢獻：

完整的數據配方和全開源的數據：讓研究者能直接從training-ready的數據集著手；
卓越的訓練技術：讓研究者快速構建媲美工業級的檢索器模型。
開放的商業授權：明確開放模型的商用權限，旨在推動RAG基礎設施的普及；
完整的訓練與推理代碼：降低復現與擴展的門檻，以及下游任務適配難度；

KaLM-Embedding團隊望借此推動通用文本嵌入技術的開放：讓任何研究者、開發者乃至企業團隊，都能自由使用、改進與擴展這一嵌入框架；讓高質量的語義理解能力不再只屬于超大規模模型與封閉系統，而能通過開放數據與透明訓練，被更廣泛地共享、驗證與創新。模型已上線始智AI-wisemodel開源社區，歡迎大家前去體驗。

模型地址

https://wisemodel.cn/models/YanshekWoo/KaLM-embedding-multilingual-mini-instruct-v2.5

01.

模型方法

全雙向表征學習

KaLM-Embedding-V2系列采樣Qwen2-0.5B作為模型主干，但在架構上進行了關鍵性改造。LLMs天生具有因果注意力掩碼，這限制了嵌入模型在進行表征學習時對全局上下文的捕捉。KaLM-Embedding-V2除了這一掩碼，實現了完全雙向的注意力機制，讓模型能夠更全面、更精確地捕捉文本的深層語義，為高性能嵌入打下堅實基礎。模型僅0.5B參數，卻在語義嵌入質量上媲美甚至超越3–26x大的模型。

精湛訓練技巧

為解決嵌入模型訓練中存在的若干問題，包括優化方向易被簡單樣本主導、難負樣本信息量隨訓練衰減、hard標簽信號過于粗粒度。研究團隊系統性地設計了一系列訓練優化技術，它們是KaLM-Embedding-V2性能騰飛的關鍵：

焦點式重加權機制：借鑒Focal Loss的精髓，持續聚焦于那些“困難”和“易錯”的難樣本，從訓練原理上保證了模型的邊界判別能力能夠對標工業級檢索器的要求。

在線困難負樣本混合：針對離線挖掘的難負樣本隨著訓練進行提供的信息量不足的問題，模型在訓練過程中動態混合現有難負樣本的特征，在極低計算成本下，實時合成信息量更多、難度更高的難負樣本。

對比蒸餾：從更強的教師模型中學習“細粒度語義差異”，實現語義區分力的飛躍。這使得模型實現了從“粗語義理解”到“精語義對齊”的質變。

套娃式嵌入：對比學習和對比蒸餾訓練目標引入套娃表示學習，實現更魯棒的多維靈活嵌入，低維度依然穩健的高性能。

高質量數據為王

“好模型，離不開好數據”。KaLM-Embedding 團隊建立了一個系統化的高質量訓練數據構建體系。預訓練覆蓋 20+類弱監督語料（約470M樣本），精調與蒸餾階段覆蓋100+類高質量監督數據（約6M樣本）。數據覆蓋多語言，多領域，多任務，長短文本。主要來源于公開數據集。引入任務指令、難負例挖掘、基于樣例的多類別標注樣本、Persona數據生成等策略，極大豐富任務多樣性和數據的質量：

任務指令：在輸入到模型進行編碼之前，會將特定的任務指令（task instruction）前置于查詢文本（query）之前。

難負例挖掘：在對比學習中，模型的目標是最大化查詢與其正樣本之間的相似度，同時最小化與負樣本，尤其是難以區分的負樣本之間的相似度。難負例挖掘用于提供具有挑戰性的訓練樣本，以增強模型細粒度的區分能力。實現方式包括離線挖掘以及本工作提出的在線困難負樣本混合。

基于樣例的多類別標注樣本：針對分類和聚類數據集，構建基于樣例的雙端分類樣本；對同類別聚類的樣本視作正樣本，將其他類別或聚類里面的樣本是做負樣本。

Persona數據生成：通過引入具有不同角色（Persona）設定的合成數據，進一步增強訓練數據的多樣性，并擴大模型的領域覆蓋范圍。

Spark-Chemistry-X1-13B能夠助力化學相關科研工作的高效推進與深遠探索，使得開發者能夠高效便捷搭建化學性質預測、化學知識檢索問答等相關應用，同時也激發了更多跨領域創新可能，例如計算機科學與化學、生物學與化學等。

02.

實驗性能表現

主要結果

在MTEB英文和中文benchmark上，KaLM-Embedding-V2系列取得了雙料冠軍（< 1B parameters）；對比更大的嵌入模型，比如bge-multilingual-gemma2，在參數量僅有1/18的情況下，KaLM-Embedding-V2性能表現也絲毫不遜色。在具體子任務上，KaLM-Embedding-V2.5在10/13 cases中，取得了最優或次優的表現。

值得一提的是KaLM-Embedding-V2系列微調數據量僅6M，同時僅使用2-4 GPUs，Qwen3-Embedding-0.6B則使用了19M的微調數據量，充分說明精湛的訓練技術和卓越的數據工程的有效性。

OOD評估

為評估模型在真實工業場景下的魯棒性與泛化能力，我們在兩個中文域外檢索任務中進行測試：客服FAQ檢索與游戲文檔搜索。所有數據均來自真實用戶，且未用于模型訓練。結果顯示，KaLM-Embedding-V2.5在相似規模下取得SOTA性能，并在僅為Qwen3-Embedding-8B 參數量約1/15的情況下，在8/12項上表現更優，體現出了強大的泛化與魯棒性。

可視化分析

為分析嵌入質量與下游任務性能的關系，我們在多種中英文聚類與分類數據上進行可視化。結果顯示，KaLM-Embedding-V2.5的嵌入分布更緊湊、類別更分離，相比V1和Qwen3-Embedding-0.6B，能更好區分細粒度語義。在RedditClustering和CLSClusteringP2P等任務中，V2.5的語義聚類更清晰，進一步驗證了其優越的語義表示能力。

KaLM-Embedding-V2系列由KaLM-Embedding團隊聯合推出，通過高質量數據與精湛訓練技巧，在僅0.5B參數下實現跨語言、多任務SOTA表現，性能媲美3-26x大的模型；其全開源、可商用、可復現的設計，旨在推動通用文本嵌入的開放，打造高效、透明、可持續的語義表示。

----- END -----

wisemodel相關：

系列模型：

關于wisemodel更多

歡迎持續關注和支持

開源社區建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果，包括模型、數據集和代碼等發布到 wisemodel.cn 社區，共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續關注wisemodel.cn開源社區動態。

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區，為了加快公司發展，我們長期需要技術、運營等人才加盟，技術側重在AI infra、后端開發，熟悉K8S、模型訓練和推理等技術，以及熟悉開發者生態運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果，鼓勵高校實驗室、大企業研究團隊、個人等，在wisemodel平臺上分享各類優質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立，旨在打造和建設中立開放的AI開源創新社區，將打造成“HuggingFace”之外最活躍的AI開源社區，匯聚主要AI開源模型、數據集和代碼等，歡迎高?？蒲性核?、大型互聯網公司、創新創業企業、廣大個人開發者，以及政府部門、學會協會、聯盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創新生態。

向上滑動查看

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.