337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

生成式推理再排序,可能會(huì)是LLM4RecSys的新突破口嗎?

0
分享至



大模型(LLM)的世界知識(shí)和推理能力是實(shí)現(xiàn)下一代推薦系統(tǒng),即基于大模型的推薦系統(tǒng)(LLM4Recsys)的重要基石。來自meta ai的研究者們嘗試將推理模型引入再排序階段,推薦系統(tǒng)的最后一環(huán)。

推薦系統(tǒng)需要推理模型嗎?

深度學(xué)習(xí)成為推薦系統(tǒng)的標(biāo)準(zhǔn)范式已經(jīng)有十年左右的歷史。RNN/Transformer/GNN等模型在用戶交互數(shù)據(jù)上的性能已經(jīng)被開發(fā)得非常接近飽和。正如近些年大語言模型,尤其是推理模型在通用任務(wù)上的優(yōu)異性能所揭示得,讓推薦系統(tǒng)先思考再做出決定或許可以再次突破現(xiàn)有框架的性能上限;同時(shí),還能為推薦的結(jié)果提供一定的可解釋性。

論文通過監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)來賦予通用推理模型在序列推薦任務(wù)上的推理能力。提出的訓(xùn)練策略最終超過了LLM4Recsys標(biāo)桿,OneRec-Think;提升了約2.4%Recall@5和約1.3%NDCG@5。





●論文標(biāo)題:

Generative Reasoning Re-ranker

●論文地址:

https://arxiv.org/pdf/2602.07774

中期訓(xùn)練,內(nèi)化物品的語意ID

語意ID(semantic ID,SID)已經(jīng)成為基于序列模型的推薦系統(tǒng)的標(biāo)準(zhǔn)技術(shù)之一,它的核心想法是通過多層次的聚類來賦予物品從粗到細(xì)粒度的標(biāo)簽。常用的模型一般有Residual-Quantized Variational Autoencoder(RQ-VAE)和RQ-Kmeans;這篇論文使用的是RQ-VAE,并且基于常規(guī)的對(duì)比學(xué)習(xí)損失函數(shù)。同時(shí),為了防止碼本坍縮,即有多個(gè)物品會(huì)被同時(shí)映射到一個(gè)SID的情況,本文采用了成熟的處理方案,用RQ-Kmeans先做初始化,結(jié)合EMA平滑更新字典,重置死碼本,加入多樣性損失函數(shù),并且對(duì)最后一至兩位SID賦予隨機(jī)整數(shù)。

本文的中期訓(xùn)練采用的策略和OneRec-Think保持一致,將生成的SID混入自然語言組成的物品描述、物品預(yù)測(cè)等一系列任務(wù)中,去最小化next token prediction loss以優(yōu)化SID的embedding來內(nèi)化物品的本身語意。

推理路徑的生成

推理路徑(Reasoning trace)的生成是本文的核心技術(shù)之一。預(yù)訓(xùn)練的推理模型并不具有(很強(qiáng)的)對(duì)物品序列的推理和解釋能力,尤其是考慮到在現(xiàn)實(shí)場(chǎng)景中需要實(shí)際部署時(shí)受限于延遲限制,LLM的體量有限,例如僅僅能支持最大8B。

論文的核心想法是將大體量的LLM(比如32B模型)的推理能力蒸餾給小體量的LLM:即大LLM產(chǎn)生高質(zhì)量的推理路徑,再讓小LLM去學(xué)習(xí)以增強(qiáng)其在推薦場(chǎng)景下的推理能力。目標(biāo)采樣(target sampling)和拒絕采樣(reject sampling)兩種技術(shù)被使用了:



目標(biāo)采樣的核心想法就是把交互歷史和下一個(gè)真實(shí)交互物品的信息都交給LLM以生成解釋。該解釋就被作為reasoning trace。



拒絕采樣則是只將交互歷史提供給LLM以預(yù)測(cè)下一個(gè)交互的物品以及生成解釋。一旦預(yù)測(cè)的結(jié)果和數(shù)據(jù)集的標(biāo)準(zhǔn)答案(ground truth)不一致,則繼續(xù)重復(fù)推理直到答對(duì)或者達(dá)到設(shè)定的最多重復(fù)推理次數(shù)。

這兩種推理路徑的生成方式各有優(yōu)劣:

  • 目標(biāo)采樣對(duì)每一個(gè)樣本只需要推理一次,但是LLM可能會(huì)“牽強(qiáng)附會(huì)”,做“馬后炮”式的解釋。
  • 拒絕采樣生成的reasoning trace一般質(zhì)量更高,因?yàn)殄e(cuò)誤的reasoning trace很可能沒法引導(dǎo)出正確的答案,而采樣過程又會(huì)一直持續(xù)到得到正確的答案為止。缺點(diǎn)也很顯然,對(duì)單一樣本需要多次推理,尤其是一些難的樣本。

推理賦能的再排序階段

開頭提過,論文重點(diǎn)關(guān)注再排序(re-ranking)階段。該階段在常規(guī)業(yè)界推薦漏斗中位于最后一環(huán),以檢索(retrieval)和排序(ranking)階段的輸出作為輸入。作為學(xué)術(shù)研究,為了保持整個(gè)pipeline簡(jiǎn)潔,論文將LLM本身預(yù)先作為retriever,輸入交互歷史,預(yù)測(cè)下一個(gè)最有可能的物品,采用beam search生成排序過的候選列表。再將該候選列表和交互歷史一同輸入LLM去做重排序。

為了賦于小體量LLM(比如8B)完整的貼合推薦場(chǎng)景的推理能力,上一步生成的推理路徑先通過SFT手把手教給模型,這一步可以保證LLM的推理能力的下限。



為了進(jìn)一步提高模型的推理能力,強(qiáng)化學(xué)習(xí)配合推薦場(chǎng)景設(shè)計(jì)的reward在本文中被使用。在再排序場(chǎng)景下,顯然,目標(biāo)物品的排序被模型提升的越多,模型的表現(xiàn)越好;這就是排序獎(jiǎng)勵(lì)



它測(cè)量的是經(jīng)過模型重排序以后目標(biāo)物品的排位變化。

另一種常見的獎(jiǎng)勵(lì)則是格式獎(jiǎng)勵(lì),即LLM的輸出還是保持著reasoning trace加最終答案,即排序過的列表,的理想格式。然而,簡(jiǎn)單地將格式獎(jiǎng)勵(lì)和任務(wù)相關(guān)的排序獎(jiǎng)勵(lì)加和成最終獎(jiǎng)勵(lì)在再排序任務(wù)中不可行,原因是預(yù)排序的候選列表是作為模型輸入的,模型可以通過完全不改變候選列表來放棄排序獎(jiǎng)勵(lì),而單純hack格式獎(jiǎng)勵(lì)?;诖?,最終的格式獎(jiǎng)勵(lì)被設(shè)計(jì)成只有排序獎(jiǎng)勵(lì)為正的時(shí)候才會(huì)被考慮。該獎(jiǎng)勵(lì)被嵌入在DAPO優(yōu)化框架中去更新LLM的參數(shù)。



重排序的提升空間

論文的最重要實(shí)驗(yàn)結(jié)果披露出,重排序階段引入推理能力,尤其是通過強(qiáng)化學(xué)習(xí)增強(qiáng),可以進(jìn)一步提升性能上限。具體實(shí)驗(yàn)對(duì)比了(1)該模型的預(yù)排序結(jié)果(Pre-rank),(2)僅依靠SFT訓(xùn)練過得排序結(jié)果,和(3)強(qiáng)化學(xué)習(xí)進(jìn)一步增強(qiáng)過的排序結(jié)果:



有一些有趣的發(fā)現(xiàn):

  • SFT可以給模型一定的推理能力,但是單單依靠SFT可能會(huì)傷害模型最終的準(zhǔn)確度。
  • 沒有SFT直接通過強(qiáng)化學(xué)習(xí)(RL-zeroshot)并不能直接帶來顯著性能提升。
  • 拒絕采樣相比目標(biāo)采樣能獲得更高質(zhì)量的推理路徑。

下一步?

這篇論文的有趣之處在于,它不僅僅提供了~2%的Recall性能提升,而是提供了一種新的范式:模型不再是去單純擬合交互的概率分布,而是去擬合推理路徑和交互的聯(lián)合分布。

同時(shí)也不可否認(rèn)的是,重排序階段是應(yīng)用推理模型的好場(chǎng)所,因?yàn)樵撾A段剩下的候選物品是整個(gè)推薦漏斗中最少的了。模型在給予候選集的情況下逐一比較、推理,符合人類的思維流程。

那么,在檢索和排序階段,候選集大小成千上萬的情況下,如何有效率地進(jìn)行超大規(guī)模的候選集篩選?如何把海量的候選集有效率地塞入推理模型有限的輸入窗口?如何控制昂貴的推理成本?如何滿足用戶體驗(yàn)所需要的超低時(shí)限?此外,現(xiàn)有策略也依賴拒絕采樣生成的高質(zhì)量推理路徑,這在候選集超大的情況下所需要的重采樣次數(shù)將完全不可接受,樣本的效率將成為訓(xùn)練成敗的關(guān)鍵因素。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
西北大學(xué)要和賈淺淺同歸于盡了?

西北大學(xué)要和賈淺淺同歸于盡了?

智識(shí)漂流
2026-04-08 14:59:26
霸凌全紅嬋群已解散,多個(gè)知名人士名單曝光,全是隊(duì)友和朋友!

霸凌全紅嬋群已解散,多個(gè)知名人士名單曝光,全是隊(duì)友和朋友!

眼光很亮
2026-04-08 12:25:48
大風(fēng)315 | 在淘寶買卡薩帝冰箱,店家限時(shí)優(yōu)惠又送高檔電器,保溫杯頂替冰箱發(fā)了貨,冰箱沒收到店鋪已關(guān)閉

大風(fēng)315 | 在淘寶買卡薩帝冰箱,店家限時(shí)優(yōu)惠又送高檔電器,保溫杯頂替冰箱發(fā)了貨,冰箱沒收到店鋪已關(guān)閉

大風(fēng)新聞
2026-04-08 18:45:10
致13人死亡,西成鐵路“8·22”重大垮塌事故調(diào)查報(bào)告公布

致13人死亡,西成鐵路“8·22”重大垮塌事故調(diào)查報(bào)告公布

界面新聞
2026-04-08 19:18:18
隨著馬競(jìng)2-0掀翻巴薩,利物浦潰敗,歐冠四強(qiáng)席位基本浮出水面

隨著馬競(jìng)2-0掀翻巴薩,利物浦潰敗,歐冠四強(qiáng)席位基本浮出水面

越嶺尋蹤
2026-04-09 05:55:50
厲害了!鄭麗文參訪美團(tuán),驚叫連連,這波行程安排,太懂人心

厲害了!鄭麗文參訪美團(tuán),驚叫連連,這波行程安排,太懂人心

魔都姐姐雜談
2026-04-08 22:44:10
身價(jià)千億的陳麗華走了她不是死于高齡也不是死于貧窮

身價(jià)千億的陳麗華走了她不是死于高齡也不是死于貧窮

游戲收藏指南
2026-04-09 02:05:08
山東旋轉(zhuǎn)門事件升級(jí)!官媒怒批,知情人曝猛料,不止道歉這么簡(jiǎn)單

山東旋轉(zhuǎn)門事件升級(jí)!官媒怒批,知情人曝猛料,不止道歉這么簡(jiǎn)單

奇思妙想草葉君
2026-04-07 20:12:16
網(wǎng)友好奇:網(wǎng)暴全紅嬋的群主是誰?群內(nèi)真有現(xiàn)役運(yùn)動(dòng)員嗎?

網(wǎng)友好奇:網(wǎng)暴全紅嬋的群主是誰?群內(nèi)真有現(xiàn)役運(yùn)動(dòng)員嗎?

羅納爾說個(gè)球
2026-04-08 23:08:09
全網(wǎng)淚目!張雪峰團(tuán)隊(duì)正式復(fù)播,人氣爆棚

全網(wǎng)淚目!張雪峰團(tuán)隊(duì)正式復(fù)播,人氣爆棚

雷科技
2026-04-08 10:36:59
令人驚訝!那些喜歡嫖娼的男性,竟在某些方面存在這幾個(gè)共同特征

令人驚訝!那些喜歡嫖娼的男性,竟在某些方面存在這幾個(gè)共同特征

皓皓情感說
2026-04-07 23:33:28
比亞迪被巴西列入“恥辱名單”:中國(guó)車企出海,踩了最狠的坑

比亞迪被巴西列入“恥辱名單”:中國(guó)車企出海,踩了最狠的坑

戧詞奪理
2026-04-08 16:09:00
做了連戰(zhàn)馬英九沒敢做的事,鄭麗文專機(jī)將飛進(jìn)北京,島內(nèi)風(fēng)向要變

做了連戰(zhàn)馬英九沒敢做的事,鄭麗文專機(jī)將飛進(jìn)北京,島內(nèi)風(fēng)向要變

涵豆說娛
2026-04-08 21:40:01
謀女郎劉浩存太絕了,這灰衣黑褲下的逆天長(zhǎng)腿,誰看了不迷糊?

謀女郎劉浩存太絕了,這灰衣黑褲下的逆天長(zhǎng)腿,誰看了不迷糊?

娛樂領(lǐng)航家
2026-04-08 22:00:03
伊朗發(fā)現(xiàn)一個(gè)重大驚喜,打向以色列的導(dǎo)彈,竟然一顆都沒有被攔截

伊朗發(fā)現(xiàn)一個(gè)重大驚喜,打向以色列的導(dǎo)彈,竟然一顆都沒有被攔截

書紀(jì)文譚
2026-04-08 18:04:34
此人屠殺百萬民眾,卻被專家吹捧為千古完人、民族英雄,實(shí)在可笑

此人屠殺百萬民眾,卻被專家吹捧為千古完人、民族英雄,實(shí)在可笑

長(zhǎng)風(fēng)文史
2026-04-07 20:53:07
研究斑馬100年,生物學(xué)家尷尬了,原來這身?xiàng)l紋根本不是為了偽裝

研究斑馬100年,生物學(xué)家尷尬了,原來這身?xiàng)l紋根本不是為了偽裝

貍貓之一的動(dòng)物圈
2026-04-06 09:43:06
伊朗總統(tǒng),“言死明志”

伊朗總統(tǒng),“言死明志”

中國(guó)新聞周刊
2026-04-08 20:14:05
美伊同意停火后,首批船只通過霍爾木茲海峽

美伊同意停火后,首批船只通過霍爾木茲海峽

界面新聞
2026-04-08 18:09:20
鄭麗文抵達(dá)上海受高規(guī)格接待!蔣萬安發(fā)聲:反對(duì)統(tǒng)一,要對(duì)等尊嚴(yán)

鄭麗文抵達(dá)上海受高規(guī)格接待!蔣萬安發(fā)聲:反對(duì)統(tǒng)一,要對(duì)等尊嚴(yán)

混沌錄
2026-04-08 19:31:04
2026-04-09 06:19:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12712文章數(shù) 142619關(guān)注度
往期回顧 全部

科技要聞

造出地表最強(qiáng)AI,卻死活不給你用!

頭條要聞

特朗普認(rèn)為北約未通過“考驗(yàn)” 將考慮“退群”

頭條要聞

特朗普認(rèn)為北約未通過“考驗(yàn)” 將考慮“退群”

體育要聞

40歲,但實(shí)力倒退12年

娛樂要聞

侯佩岑全家悉尼度假,一家四口幸福滿溢

財(cái)經(jīng)要聞

天津海河乳業(yè)回應(yīng)直播間涉黃

汽車要聞

20萬級(jí)滿配華為全家桶 華境S是懂家庭的大六座

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
房產(chǎn)
本地
公開課

藝術(shù)要聞

陸儼少大氣山水手卷18幅

數(shù)碼要聞

小米多款新品本月發(fā),看看你期待哪款?

房產(chǎn)要聞

正式動(dòng)工!珠城馬場(chǎng)地塊,簽約華爾道夫!

本地新聞

跟著歌聲游安徽,聽古村回響

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版