337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

優(yōu)化LoRA目標(biāo)模塊選擇實(shí)現(xiàn)高效微調(diào)

0
分享至


在特定任務(wù)上微調(diào)大語言模型需要更新數(shù)十億個(gè)參數(shù),跨越萬億個(gè)Token,這帶來了巨大的GPU資源和時(shí)間成本。

低秩自適應(yīng)(LoRA)是一種更高效的替代方案,它凍結(jié)原始模型權(quán)重,但在特定模型子層或"模塊"中引入輕量級矩陣。這些矩陣(通常稱為"適配器")修改模塊權(quán)重,不僅實(shí)現(xiàn)了高效微調(diào),還支持按需模型服務(wù),大幅降低推理成本;支持跨GPU共享基礎(chǔ)模型,減少內(nèi)存需求;降低下載開銷;以及支持多個(gè)適配器的并行推理。

關(guān)鍵問題在于在模型中何處插入這些適配器。從經(jīng)驗(yàn)上看,針對更多更大的模塊往往能提升性能,因?yàn)檫@允許更多的定制化靈活性;但也會增加訓(xùn)練和推理成本。使用精心選擇的較小子集可以在顯著提高效率的同時(shí)保持大部分收益。

使用亞馬遜的Nova 2.0 Lite多模態(tài)推理大語言模型作為基礎(chǔ)模型,我們設(shè)定了一個(gè)目標(biāo):識別一套在絕大多數(shù)客戶用例中有效工作的標(biāo)準(zhǔn)化目標(biāo)模塊配置子集。通過消融研究,我們確定了一個(gè)名為o_proj的模塊,作為添加適配器時(shí)在效率和準(zhǔn)確性之間實(shí)現(xiàn)最佳平衡的單一模塊(o_proj是一個(gè)線性變換,它將注意力頭的表示混合成一個(gè)單一、連貫的形式,供模型的其余部分理解)。

Transformer架構(gòu)解析

Transformer模型——負(fù)責(zé)AI所有顯著進(jìn)展的模型——主要由多次重復(fù)的塊組成。每個(gè)塊又有兩個(gè)主要組件:注意力機(jī)制,它確定先前看到的Token對當(dāng)前處理Token的相關(guān)性;以及前饋網(wǎng)絡(luò),一個(gè)對注意力機(jī)制輸出進(jìn)行額外處理的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)。

注意力機(jī)制涉及三個(gè)不同的矩陣,它們的名稱來自數(shù)據(jù)庫設(shè)計(jì):查詢矩陣表示當(dāng)前Token與輸入序列中其他Token的相關(guān)性;鍵矩陣表示其他Token彼此之間的相關(guān)性;值矩陣表示這些其他Token的原始內(nèi)容。將三個(gè)矩陣相乘基本上創(chuàng)建了Transformer下一個(gè)輸出的配方。

為了減少計(jì)算復(fù)雜性,這些乘法在降維空間中進(jìn)行。矩陣本身及其乘法結(jié)果然后必須投影回輸入的原始維度。

LoRA使用兩個(gè)較小矩陣的乘積來近似權(quán)重更新,大幅減少了可訓(xùn)練參數(shù)的數(shù)量。該技術(shù)通常應(yīng)用于注意力投影層和前饋網(wǎng)絡(luò)層。這些模塊是理想的候選者,因?yàn)樗鼈儤?gòu)成了Transformer參數(shù)的大部分,直接管理表示學(xué)習(xí),并與低秩近似自然對齊。經(jīng)驗(yàn)證據(jù)表明,這些層中的權(quán)重變化在微調(diào)過程中通常位于低維子空間內(nèi)。

目標(biāo)模塊選擇策略

選擇正確的目標(biāo)模塊直接影響準(zhǔn)確性、延遲和計(jì)算效率。目標(biāo)模塊的最優(yōu)選擇主要是以下因素的函數(shù):(a)被微調(diào)的基礎(chǔ)模型(即其架構(gòu)、預(yù)訓(xùn)練和后訓(xùn)練數(shù)據(jù)分布等)和(b)定制化領(lǐng)域/模態(tài)。

在微調(diào)Nova 2.0 Lite時(shí),我們平衡了兩個(gè)相互競爭的目標(biāo):在多樣化任務(wù)和模態(tài)中最大化準(zhǔn)確性;最小化延遲以保持LoRA的效率優(yōu)勢。

我們研究了LoRA在每個(gè)Transformer塊中四個(gè)不同模塊的應(yīng)用:查詢、鍵和值投影層(qkv);o_proj層;以及前饋網(wǎng)絡(luò)中的兩個(gè)不同全連接層gate_up_proj和gate_down_proj(稱為fc1和fc2)。以下是基于文獻(xiàn)發(fā)表結(jié)果和經(jīng)驗(yàn)研究,這些模塊單獨(dú)和組合使用的權(quán)衡:

qkv單獨(dú)使用:準(zhǔn)確性良好(基線),延遲最低,適用于資源受限環(huán)境;o_proj單獨(dú)使用:準(zhǔn)確性中等,延遲最低,適用于超低延遲場景;qkv + o_proj:準(zhǔn)確性高,延遲低到中等,適用于注意力聚焦任務(wù);qkv + fc1/fc2:準(zhǔn)確性非常高,延遲中等,適用于復(fù)雜生成任務(wù);qkv + o_proj + fc1/fc2:準(zhǔn)確性最高,延遲高,適用于關(guān)鍵任務(wù)的最大準(zhǔn)確性。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果

我們進(jìn)行了全面的消融研究,在涵蓋文本和視覺數(shù)據(jù)的七個(gè)數(shù)據(jù)集上訓(xùn)練多個(gè)監(jiān)督微調(diào)LoRA變體,跨越推理和非推理任務(wù)。數(shù)據(jù)集涵蓋了從簡單問答到長上下文摘要和結(jié)構(gòu)化JSON提取的多樣化挑戰(zhàn)。

實(shí)驗(yàn)數(shù)據(jù)集包括:FinCOT(金融推理)、GovReport(政府文檔摘要)、MedMCQA(醫(yī)學(xué)多選題)、MedReason(醫(yī)學(xué)推理)、CoCoHD(政治文檔復(fù)雜基準(zhǔn))、Llava-COT(多模態(tài)圖像理解)、Invoice OCR(發(fā)票光學(xué)字符識別)。

所有實(shí)驗(yàn)都使用Nova 2.0 Lite通用可用性檢查點(diǎn),在目標(biāo)模塊間使用一致的超參數(shù),包括學(xué)習(xí)率比例和alpha值。

核心發(fā)現(xiàn)

通過詳細(xì)的實(shí)驗(yàn)分析,我們得出了幾個(gè)重要發(fā)現(xiàn):

o_proj是最穩(wěn)健的單一目標(biāo)。o_proj單獨(dú)配置表現(xiàn)出了卓越的一致性,在任何任務(wù)上都從未完全失敗,通常在最佳配置(即使用所有目標(biāo)模塊)的幾個(gè)百分點(diǎn)內(nèi)表現(xiàn)。在MedMCQA、CoCoHD、GovReport、LLaVA-CoT和Invoice OCR上,o_proj單獨(dú)配置要么匹配要么非常接近最優(yōu)性能,使其成為平衡性能和簡單性的有吸引力的默認(rèn)選擇。

qkv單獨(dú)顯示不穩(wěn)定性。雖然qkv單獨(dú)在MedMCQA上表現(xiàn)良好,但它表現(xiàn)出極端的可變性,在CoCoHD上表現(xiàn)低于基線,在其他地方顯示平庸的結(jié)果。這與假設(shè)一致,即僅注意力LoRA可能在需要來自前饋網(wǎng)絡(luò)的更豐富特征的任務(wù)上欠擬合。

模塊組合提供適度收益。像o_proj + fc2或"所有目標(biāo)模塊"這樣的組合通常實(shí)現(xiàn)了最高的每數(shù)據(jù)集分?jǐn)?shù)。然而,相比最佳單一模塊的改進(jìn)通常是適度的,通常為1-3個(gè)百分點(diǎn)。

任務(wù)難度放大配置影響。在基礎(chǔ)模型表現(xiàn)不佳的挑戰(zhàn)性基準(zhǔn)上,目標(biāo)模塊的選擇產(chǎn)生了更大的影響。例如,在CoCoHD(長上下文、復(fù)雜JSON生成)上,o_proj + fc2相比基礎(chǔ)模型實(shí)現(xiàn)了+15%的絕對改進(jìn),而o_proj單獨(dú)只有+3%。

推薦配置

基于我們的研究結(jié)果,我們提出以下推薦:

對于優(yōu)先考慮準(zhǔn)確性的場景,我們推薦o_proj + fc2作為文本和多模態(tài)任務(wù)的最優(yōu)配置,在各基準(zhǔn)上相比o_proj單獨(dú)顯示2-12%的改進(jìn)。

對于平衡效率和性能,o_proj單獨(dú)提供了優(yōu)秀的默認(rèn)選擇,以最小的延遲開銷提供穩(wěn)健的性能——在服務(wù)多個(gè)適配器或在資源約束下操作時(shí)特別有價(jià)值。

對于挑戰(zhàn)性任務(wù),如長上下文或復(fù)雜生成要求的基準(zhǔn)或基礎(chǔ)模型困難的其他任務(wù),o_proj + fc2的額外準(zhǔn)確性證明了適度的延遲增加是合理的。

我們的綜合研究表明,在LoRA微調(diào)中經(jīng)過深思熟慮的目標(biāo)模塊選擇可以在保持LoRA對生產(chǎn)部署有吸引力的效率優(yōu)勢的同時(shí)提高準(zhǔn)確性。o_proj層作為一個(gè)非常穩(wěn)健的單一目標(biāo)出現(xiàn),而o_proj + fc2組合為挑戰(zhàn)性任務(wù)提供了最佳準(zhǔn)確性。平均而言,o_proj LoRA在準(zhǔn)確性方面與o_proj + fc2相差2%以內(nèi),但延遲降低了22.6%。這些發(fā)現(xiàn)為跨多樣化客戶用例標(biāo)準(zhǔn)化LoRA配置提供了原則性基礎(chǔ),平衡了模型性能和計(jì)算效率的競爭需求。

Q&A

Q1:LoRA是什么?為什么要使用LoRA進(jìn)行大語言模型微調(diào)?

A:LoRA(低秩自適應(yīng))是一種高效的模型微調(diào)技術(shù),它凍結(jié)原始模型權(quán)重,在特定模塊中引入輕量級矩陣(適配器)來修改權(quán)重。相比傳統(tǒng)微調(diào)需要更新數(shù)十億參數(shù),LoRA大幅減少了可訓(xùn)練參數(shù)數(shù)量,降低GPU資源和時(shí)間成本,同時(shí)支持按需模型服務(wù)、跨GPU共享基礎(chǔ)模型,并實(shí)現(xiàn)多個(gè)適配器的并行推理。

Q2:o_proj模塊為什么在LoRA微調(diào)中表現(xiàn)最好?

A:o_proj是一個(gè)線性變換模塊,將注意力頭的表示混合成連貫形式供模型理解。研究發(fā)現(xiàn)o_proj在所有測試任務(wù)中表現(xiàn)出卓越的一致性,從未完全失敗,通常在最佳配置的幾個(gè)百分點(diǎn)內(nèi)表現(xiàn)。有證據(jù)表明該模塊在推理中發(fā)揮關(guān)鍵作用,這可能解釋了它的有效性。作為單一目標(biāo),它提供了性能和簡單性的最佳平衡。

Q3:在什么情況下應(yīng)該選擇o_proj + fc2組合而不是單獨(dú)使用o_proj?

A:當(dāng)任務(wù)對準(zhǔn)確性要求較高,特別是在長上下文、復(fù)雜生成要求或基礎(chǔ)模型表現(xiàn)困難的挑戰(zhàn)性任務(wù)中,應(yīng)選擇o_proj + fc2組合。雖然這種組合比單獨(dú)使用o_proj延遲增加約22.6%,但在各基準(zhǔn)測試中可提供2-12%的準(zhǔn)確性改進(jìn)。對于平衡效率和性能的常規(guī)場景,o_proj單獨(dú)使用仍是最佳選擇。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
終止上市!并被證監(jiān)會立案

終止上市!并被證監(jiān)會立案

新浪財(cái)經(jīng)
2026-03-20 23:06:50
比謝霆鋒還猛!張柏芝大兒子戀情疑曝光,46歲阿姨,辣妹都不放過

比謝霆鋒還猛!張柏芝大兒子戀情疑曝光,46歲阿姨,辣妹都不放過

漫婷侃娛樂
2026-03-18 22:17:27
0-1 上海海港不敵大連英博 媒體人熱議:輸球正常 三輪轉(zhuǎn)正樂觀了

0-1 上海海港不敵大連英博 媒體人熱議:輸球正常 三輪轉(zhuǎn)正樂觀了

球場新視角1號
2026-03-20 21:27:05
伊朗逮捕45名涉嫌“叛國”及間諜人員,向以色列泄露伊朗軍事基地及安全部隊(duì)集結(jié)地點(diǎn)的坐標(biāo)信息,企圖在西阿塞拜疆省實(shí)施武裝襲擊

伊朗逮捕45名涉嫌“叛國”及間諜人員,向以色列泄露伊朗軍事基地及安全部隊(duì)集結(jié)地點(diǎn)的坐標(biāo)信息,企圖在西阿塞拜疆省實(shí)施武裝襲擊

大象新聞
2026-03-20 22:45:08
亞足聯(lián)正式同意中國足協(xié)連辦2028、2030兩屆U20女足亞洲杯

亞足聯(lián)正式同意中國足協(xié)連辦2028、2030兩屆U20女足亞洲杯

北青網(wǎng)-北京青年報(bào)
2026-03-20 12:05:18
2020年女子當(dāng)眾扇兒子耳光,兒子直接跳樓,如今女子已自殺身亡

2020年女子當(dāng)眾扇兒子耳光,兒子直接跳樓,如今女子已自殺身亡

觀察鑒娛
2026-03-18 09:09:10
4-1!1-0!中超一夜:浙江逆轉(zhuǎn),大連首勝,海港兩負(fù)

4-1!1-0!中超一夜:浙江逆轉(zhuǎn),大連首勝,海港兩負(fù)

阿嚼影視評論
2026-03-20 22:00:01
王勵(lì)勤揮淚斬馬謖?國乒開啟“衡水模式”封訓(xùn),背后真相不簡單

王勵(lì)勤揮淚斬馬謖?國乒開啟“衡水模式”封訓(xùn),背后真相不簡單

李絙在北漂
2026-03-20 08:57:38
中東戰(zhàn)火未停,賴清德公然宣布臺島已獨(dú)立,解放軍大軍出動(dòng)

中東戰(zhàn)火未停,賴清德公然宣布臺島已獨(dú)立,解放軍大軍出動(dòng)

阿七說史
2026-03-18 15:26:00
央行發(fā)聲強(qiáng)調(diào)堅(jiān)定股市維穩(wěn),國家隊(duì)4000點(diǎn)下方反復(fù)吸籌拉起

央行發(fā)聲強(qiáng)調(diào)堅(jiān)定股市維穩(wěn),國家隊(duì)4000點(diǎn)下方反復(fù)吸籌拉起

李志林
2026-03-20 12:36:03
男子蹭飯后續(xù):被同學(xué)認(rèn)出“社死”,網(wǎng)友預(yù)言成真,這下麻煩大了

男子蹭飯后續(xù):被同學(xué)認(rèn)出“社死”,網(wǎng)友預(yù)言成真,這下麻煩大了

觀察鑒娛
2026-03-20 09:44:15
暴漲2000元,預(yù)言成真,普通人買不起國產(chǎn)手機(jī),只能買iPhone了!

暴漲2000元,預(yù)言成真,普通人買不起國產(chǎn)手機(jī),只能買iPhone了!

柏銘銳談
2026-03-20 15:11:42
這次網(wǎng)紅“吃瓜蒙主”的號真沒了,或因其傳播的歷史虛無主義言論

這次網(wǎng)紅“吃瓜蒙主”的號真沒了,或因其傳播的歷史虛無主義言論

總在茶余后
2026-03-20 02:14:25
50歲趙薇:女兒發(fā)照片為她慶生,她離異后無心婚戀,心疼白發(fā)父母

50歲趙薇:女兒發(fā)照片為她慶生,她離異后無心婚戀,心疼白發(fā)父母

細(xì)品名人
2026-03-18 06:54:16
俄羅斯光刻機(jī)破冰!已搞定自研350nm光刻機(jī)

俄羅斯光刻機(jī)破冰!已搞定自研350nm光刻機(jī)

快科技
2026-03-19 17:02:05
山東省政府參事徐景顏被查:37歲任臨沂副市長,半生仕途毀于僥幸

山東省政府參事徐景顏被查:37歲任臨沂副市長,半生仕途毀于僥幸

十為先生
2026-03-20 16:14:27
首個(gè)特朗普金卡中國買家曝光,系全球WiFi之王,正被美商務(wù)部調(diào)查

首個(gè)特朗普金卡中國買家曝光,系全球WiFi之王,正被美商務(wù)部調(diào)查

肖茲探秘說
2026-03-20 17:15:27
特朗普宣布!60天內(nèi),允許石油、天然氣、化肥和煤炭等自由流向美國港口

特朗普宣布!60天內(nèi),允許石油、天然氣、化肥和煤炭等自由流向美國港口

南方都市報(bào)
2026-03-19 12:57:03
逃到亞茲德也沒用!伊朗最后兩架C-130被摧毀

逃到亞茲德也沒用!伊朗最后兩架C-130被摧毀

老馬拉車莫少裝
2026-03-19 19:00:31
馬筱梅稱在臺辦滿月宴,由姥爺包辦,兒子姓氏要商量,張?zhí)m不參加

馬筱梅稱在臺辦滿月宴,由姥爺包辦,兒子姓氏要商量,張?zhí)m不參加

念得小柔
2026-03-20 22:05:12
2026-03-20 23:39:00
至頂頭條 incentive-icons
至頂頭條
記錄和推動(dòng)數(shù)字化創(chuàng)新
17025文章數(shù) 49695關(guān)注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機(jī)器人出貨量第一!

頭條要聞

向特朗普提問日記者遭瘋狂網(wǎng)暴 被罵幫中國讓高市難堪

頭條要聞

向特朗普提問日記者遭瘋狂網(wǎng)暴 被罵幫中國讓高市難堪

體育要聞

6年前的一場悲劇,造就了“法國瓦爾迪”

娛樂要聞

總臺首屆電影盛典,“沈馬”CP再合體

財(cái)經(jīng)要聞

金融法草案向社會公開征求意見

汽車要聞

何小鵬坦白局:每月3億的“慌”與通向L4的堅(jiān)定

態(tài)度原創(chuàng)

本地
手機(jī)
時(shí)尚
房產(chǎn)
游戲

本地新聞

春色滿城關(guān)不住|紹興春日頂流,這片櫻花海藏不住了

手機(jī)要聞

華為春季新品發(fā)布會陣容豪華:3款新機(jī)+4款穿戴 還有顯示器、智慧屏

推廣中獎(jiǎng)名單-更新至2026年3月4日推廣

房產(chǎn)要聞

全城狂送1000杯咖啡!網(wǎng)易房產(chǎn)【早C計(jì)劃】,即刻啟動(dòng)!

日媒爆料任天堂將推Switch 2新版本!可更換電池

無障礙瀏覽 進(jìn)入關(guān)懷版