337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

KaLM-Embedding-V2重塑高質量文本嵌入格局

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動,最高可得算力券+token包380元獎勵,歡迎參與和支持!

大模型驅動的語義表示時代,文本嵌入模型(Text Embedding Models)已成為檢索、STS、分類、排序等各類NLP下游任務的核心基石。然而,主流嵌入模型普遍依賴大規模數據或合成數據,很少系統性探索訓練技巧與數據質量的協同優化。

結果就是,并且由于模型體積龐大,部署成本高昂,其泛化能力和可復現性不太理想。

此外,多數業界領先的嵌入模型來源于頭部公司,其專有數據、封閉代碼和商業限制為學術界和開發者社區帶來了巨大的挑戰,使得高效、可復現的研究難以進行。

為此,KaLM-Embedding團隊推出了KaLM-Embedding-V2系列模型,一個以高質量數據+精湛訓練技巧為核心打造的緊湊通用嵌入解決方案。它不僅性能強悍,更以0.5B參數的“小體型”挑戰甚至超越多個7B~9B級模型!與同參數量規模的Qwen3-Embedding-0.6B以及bge-m3相比,KaLM-Embedding-V2系列展現出來顯著的性能優勢。


最重要的是,KaLM-Embedding不僅僅是一系列單點模型,而是一個面向學術界的全面開源貢獻:

  • 完整的數據配方和全開源的數據讓研究者能直接從training-ready的數據集著手;

  • 卓越的訓練技術:讓研究者快速構建媲美工業級的檢索器模型。

  • 開放的商業授權:明確開放模型的商用權限,旨在推動RAG基礎設施的普及;

  • 完整的訓練與推理代碼:降低復現與擴展的門檻,以及下游任務適配難度;


KaLM-Embedding團隊望借此推動通用文本嵌入技術的開放:讓任何研究者、開發者乃至企業團隊,都能自由使用、改進與擴展這一嵌入框架;讓高質量的語義理解能力不再只屬于超大規模模型與封閉系統,而能通過開放數據與透明訓練,被更廣泛地共享、驗證與創新。模型已上線始智AI-wisemodel開源社區,歡迎大家前去體驗。


模型地址

https://wisemodel.cn/models/YanshekWoo/KaLM-embedding-multilingual-mini-instruct-v2.5

01.

模型方法


全雙向表征學習

KaLM-Embedding-V2系列采樣Qwen2-0.5B作為模型主干,但在架構上進行了關鍵性改造。LLMs天生具有因果注意力掩碼,這限制了嵌入模型在進行表征學習時對全局上下文的捕捉。KaLM-Embedding-V2除了這一掩碼,實現了完全雙向的注意力機制,讓模型能夠更全面、更精確地捕捉文本的深層語義,為高性能嵌入打下堅實基礎。模型僅0.5B參數,卻在語義嵌入質量上媲美甚至超越3–26x大的模型。



精湛訓練技巧

為解決嵌入模型訓練中存在的若干問題,包括優化方向易被簡單樣本主導、難負樣本信息量隨訓練衰減、hard標簽信號過于粗粒度。研究團隊系統性地設計了一系列訓練優化技術,它們是KaLM-Embedding-V2性能騰飛的關鍵:

  • 焦點式重加權機制:借鑒Focal Loss的精髓,持續聚焦于那些“困難”和“易錯”的難樣本,從訓練原理上保證了模型的邊界判別能力能夠對標工業級檢索器的要求。

  • 在線困難負樣本混合:針對離線挖掘的難負樣本隨著訓練進行提供的信息量不足的問題,模型在訓練過程中動態混合現有難負樣本的特征,在極低計算成本下,實時合成信息量更多、難度更高的難負樣本。

  • 對比蒸餾:從更強的教師模型中學習“細粒度語義差異”,實現語義區分力的飛躍。這使得模型實現了從“粗語義理解”到“精語義對齊”的質變。

  • 套娃式嵌入:對比學習和對比蒸餾訓練目標引入套娃表示學習,實現更魯棒的多維靈活嵌入,低維度依然穩健的高性能。


高質量數據為王

“好模型,離不開好數據”。KaLM-Embedding 團隊建立了一個系統化的高質量訓練數據構建體系。預訓練覆蓋 20+類弱監督語料(約470M樣本),精調與蒸餾階段覆蓋100+類高質量監督數據(約6M樣本)。數據覆蓋多語言,多領域,多任務,長短文本。主要來源于公開數據集。引入任務指令、難負例挖掘、基于樣例的多類別標注樣本、Persona數據生成等策略,極大豐富任務多樣性和數據的質量:

  • 任務指令:在輸入到模型進行編碼之前,會將特定的任務指令(task instruction)前置于查詢文本(query)之前。



  • 難負例挖掘:在對比學習中,模型的目標是最大化查詢與其正樣本之間的相似度,同時最小化與負樣本,尤其是難以區分的負樣本之間的相似度。難負例挖掘用于提供具有挑戰性的訓練樣本,以增強模型細粒度的區分能力。實現方式包括離線挖掘以及本工作提出的在線困難負樣本混合。

  • 基于樣例的多類別標注樣本:針對分類和聚類數據集,構建基于樣例的雙端分類樣本;對同類別聚類的樣本視作正樣本,將其他類別或聚類里面的樣本是做負樣本。

  • Persona數據生成:通過引入具有不同角色(Persona)設定的合成數據,進一步增強訓練數據的多樣性,并擴大模型的領域覆蓋范圍。



Spark-Chemistry-X1-13B能夠助力化學相關科研工作的高效推進與深遠探索,使得開發者能夠高效便捷搭建化學性質預測、化學知識檢索問答等相關應用,同時也激發了更多跨領域創新可能,例如計算機科學與化學、生物學與化學等。

02.

實驗性能表現


主要結果

在MTEB英文和中文benchmark上,KaLM-Embedding-V2系列取得了雙料冠軍(< 1B parameters);對比更大的嵌入模型,比如bge-multilingual-gemma2,在參數量僅有1/18的情況下,KaLM-Embedding-V2性能表現也絲毫不遜色。在具體子任務上,KaLM-Embedding-V2.5在10/13 cases中,取得了最優或次優的表現。

值得一提的是KaLM-Embedding-V2系列微調數據量僅6M,同時僅使用2-4 GPUs,Qwen3-Embedding-0.6B則使用了19M的微調數據量,充分說明精湛的訓練技術和卓越的數據工程的有效性





OOD評估

為評估模型在真實工業場景下的魯棒性與泛化能力,我們在兩個中文域外檢索任務中進行測試:客服FAQ檢索與游戲文檔搜索。所有數據均來自真實用戶,且未用于模型訓練。結果顯示,KaLM-Embedding-V2.5在相似規模下取得SOTA性能,并在僅為Qwen3-Embedding-8B 參數量約1/15的情況下在8/12項上表現更優,體現出了強大的泛化與魯棒性。



可視化分析

為分析嵌入質量與下游任務性能的關系,我們在多種中英文聚類與分類數據上進行可視化。結果顯示,KaLM-Embedding-V2.5的嵌入分布更緊湊、類別更分離,相比V1和Qwen3-Embedding-0.6B,能更好區分細粒度語義。在RedditClustering和CLSClusteringP2P等任務中,V2.5的語義聚類更清晰,進一步驗證了其優越的語義表示能力。


KaLM-Embedding-V2系列由KaLM-Embedding團隊聯合推出,通過高質量數據與精湛訓練技巧,在僅0.5B參數下實現跨語言、多任務SOTA表現,性能媲美3-26x大的模型;其全開源、可商用、可復現的設計,旨在推動通用文本嵌入的開放,打造高效、透明、可持續的語義表示。

----- END -----


wisemodel相關:

系列模型:

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高??蒲性核?、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普:與伊朗“可能”很快達成?;饏f議

特朗普:與伊朗“可能”很快達成?;饏f議

新華社
2026-03-30 08:38:09
1952年,打了大敗仗的王近山,對彭德懷怒拍桌子:你這是什么打法

1952年,打了大敗仗的王近山,對彭德懷怒拍桌子:你這是什么打法

浩渺青史
2026-03-30 13:22:44
當不成總統了?美國迎三大噩耗,百萬人逼宮,他承認對中國上頭了

當不成總統了?美國迎三大噩耗,百萬人逼宮,他承認對中國上頭了

知法而形
2026-03-29 11:53:37
媽媽肺癌晚期5年,我用80萬買來的教訓,希望你千萬別踩

媽媽肺癌晚期5年,我用80萬買來的教訓,希望你千萬別踩

千秋文化
2026-03-30 20:49:24
“沉睡”的10萬億元公積金

“沉睡”的10萬億元公積金

吳曉波頻道
2026-03-28 08:33:28
男人的生理需求能有多難忍?網友:我對我老公只有動物本能

男人的生理需求能有多難忍?網友:我對我老公只有動物本能

帶你感受人間冷暖
2026-02-07 03:58:56
中國將在長江水下開高鐵,沿江高鐵總投資超5000億元

中國將在長江水下開高鐵,沿江高鐵總投資超5000億元

界面新聞
2026-03-30 11:58:26
離譜!阿森納11人集體退出本期國家隊 球迷質疑詐傷:為3冠王蓄力

離譜!阿森納11人集體退出本期國家隊 球迷質疑詐傷:為3冠王蓄力

我愛英超
2026-03-29 23:07:36
兄弟倆聯手創辦蘇寧,如今弟弟千億資產清零,哥哥卻走上另一條路

兄弟倆聯手創辦蘇寧,如今弟弟千億資產清零,哥哥卻走上另一條路

鯨探所長
2026-03-24 14:38:04
轟動全美!杜克大學被絕殺!三大狀元熱門全部淘汰

轟動全美!杜克大學被絕殺!三大狀元熱門全部淘汰

籃球教學論壇
2026-03-30 09:32:08
人老了,想多活幾年,先管住自己這10點:1、不摔倒,2、不勞累…

人老了,想多活幾年,先管住自己這10點:1、不摔倒,2、不勞累…

荷蘭豆愛健康
2026-03-28 09:28:48
杉杉集團家族內斗失控

杉杉集團家族內斗失控

地產微資訊
2026-03-27 10:10:55
為什么有個漂亮老婆還是想要分 網友講出自身經歷真是一言難盡

為什么有個漂亮老婆還是想要分 網友講出自身經歷真是一言難盡

侃神評故事
2026-03-10 18:50:04
果然越不體面小生意往往悶聲發大財!網友:一年不低于50萬

果然越不體面小生意往往悶聲發大財!網友:一年不低于50萬

夜深愛雜談
2026-03-23 20:05:31
在中東損兵折將的美軍,在亞太還有什么資格談“震懾”?

在中東損兵折將的美軍,在亞太還有什么資格談“震懾”?

溫讀史
2026-03-30 20:53:34
里子面子都丟了,森林北自曝身體出了問題,汪峰的體面被撕碎

里子面子都丟了,森林北自曝身體出了問題,汪峰的體面被撕碎

素衣讀史
2025-11-19 16:09:14
韓媒:洪明甫年薪約20億韓元,0-4慘敗后在國內引發激烈批評

韓媒:洪明甫年薪約20億韓元,0-4慘敗后在國內引發激烈批評

懂球帝
2026-03-30 12:52:38
博主曝光西安328元自助餐,備餐不足卻甩鍋客人吃得多,網友炸鍋

博主曝光西安328元自助餐,備餐不足卻甩鍋客人吃得多,網友炸鍋

潮鹿逐夢
2026-03-30 14:37:13
再傳噩耗?蔡磊病情惡化,時常窒息、4人攙扶無法行走

再傳噩耗?蔡磊病情惡化,時常窒息、4人攙扶無法行走

攬星河的筆記
2026-03-30 15:53:33
新型出軌正在蔓延,啥也不干,比婚外情更傷人

新型出軌正在蔓延,啥也不干,比婚外情更傷人

十點讀書
2026-03-29 18:36:35
2026-03-30 21:32:49
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

一句謊言引發的硅谷血案

頭條要聞

中國向能源緊缺的東南亞國家出口柴油等燃料 官方回應

頭條要聞

中國向能源緊缺的東南亞國家出口柴油等燃料 官方回應

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

財經要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

限時12.58萬起 銀河星耀8遠航家系列上市

態度原創

教育
藝術
家居
數碼
時尚

教育要聞

媽媽不要怕,有我在,你的兒子女兒會平安快樂長大!

藝術要聞

600 年前的「產亡孤魂」,藏著中國女性最痛的記憶

家居要聞

東方法式美學 現代簡約

數碼要聞

三星Buds4 Pro評測:全能交互+沉浸式音質,安卓旗艦耳機新標桿

衣服買對不買貴,有氣質的女性都愛這些穿搭,簡單又顯身材

無障礙瀏覽 進入關懷版