337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

快手廣告邁入生成式推薦時(shí)代!GR4AD:Token到Revenue全鏈路重構(gòu)

0
分享至



機(jī)器之心發(fā)布

當(dāng)推薦系統(tǒng)遇上大模型范式,廣告變現(xiàn)的天花板被再次打破。快手提出 GR4AD,作為國內(nèi)生成式推薦在大規(guī)模廣告場(chǎng)景下的首次全量落地,實(shí)現(xiàn)廣告收入提升 4.2%,服務(wù) 4 億 + 用戶。



論文鏈接:https://arxiv.org/pdf/2602.22732

一、引言:"推薦該怎么做" 的新范式

過去十年,深度學(xué)習(xí)推薦模型(DLRM)幾乎統(tǒng)治了整個(gè)工業(yè)界的推薦系統(tǒng) —— 從召回到排序,從特征交叉到序列建模,它們構(gòu)建了一套成熟而穩(wěn)固的技術(shù)棧。然而,當(dāng)大語言模型(LLM)的浪潮席卷而來,一個(gè)大膽的問題被拋了出來:

能不能像生成文本一樣,直接 "生成" 推薦結(jié)果?

這就是生成式推薦(Generative Recommendation)的核心思想。以 TIGER、OneRec 為代表的一系列工作,已經(jīng)在自然推薦場(chǎng)景中驗(yàn)證了這一范式的可行性。但當(dāng)戰(zhàn)場(chǎng)轉(zhuǎn)移到大規(guī)模廣告系統(tǒng)—— 這個(gè)對(duì)時(shí)延、收益、商業(yè)價(jià)值都有極致要求的領(lǐng)域 —— 事情變得遠(yuǎn)沒有那么直接。

快手的這篇論文,正是對(duì)這一問題交出的一份沉甸甸的工業(yè)級(jí)答卷。他們提出了GR4AD(Generative Recommendation for ADvertising),一個(gè)橫跨表征、學(xué)習(xí)、服務(wù)三大層面協(xié)同設(shè)計(jì)的生成式廣告推薦系統(tǒng),并已全量部署于快手廣告平臺(tái),服務(wù)超過 4 億用戶

二、問題與挑戰(zhàn):廣告場(chǎng)景下的三大挑戰(zhàn)

論文開篇就旗幟鮮明地指出:直接把 LLM 那套訓(xùn)練和推理范式搬到廣告推薦上,是行不通的。 具體來說,廣告場(chǎng)景存在三個(gè)獨(dú)有的核心挑戰(zhàn):

挑戰(zhàn)一:廣告物料的 Token 化 —— 多元信息的統(tǒng)一編碼

廣告不是普通的短視頻。一條廣告背后融合了視頻創(chuàng)意、商品詳情、廣告主 B 端元數(shù)據(jù)等多模態(tài)、多粒度信息。更棘手的是,平臺(tái)還提供了轉(zhuǎn)化類型、廣告賬戶等關(guān)鍵業(yè)務(wù)信號(hào),這些信號(hào)具備強(qiáng)烈的商業(yè)價(jià)值但幾乎沒有 "語義內(nèi)容" 可言。如何為廣告物料打造一套既能捕獲語義內(nèi)容、又能編碼業(yè)務(wù)信息的統(tǒng)一 Token 體系

挑戰(zhàn)二:學(xué)習(xí)范式 —— 面向商業(yè)價(jià)值的列表級(jí)優(yōu)化

廣告推薦的優(yōu)化目標(biāo)不是 "猜中用戶會(huì)點(diǎn)哪個(gè)" 那么簡單,而是要在eCPM 排序、NDCG 等列表級(jí)指標(biāo)下最大化商業(yè)價(jià)值。現(xiàn)有的生成式推薦方法大多沿用 LLM 的分階段訓(xùn)練方式,不完全適配大規(guī)模推薦場(chǎng)景的持續(xù)在線學(xué)習(xí),且缺乏面向排序的、列表級(jí)的學(xué)習(xí)設(shè)計(jì)。

挑戰(zhàn)三:實(shí)時(shí)服務(wù) —— 多候選生成的算力困局

不同于 LLM 聊天場(chǎng)景中 "解碼一條回復(fù)、容忍較長延遲" 的模式,廣告系統(tǒng)需要在極高 QPS 和極低延遲(<100ms)下,通過 Beam Search同時(shí)生成大量高質(zhì)量候選。這是一個(gè)與 LLM 不同的推理優(yōu)化問題。

三、方法:全鏈路協(xié)同設(shè)計(jì)的破局之道

GR4AD 的方法論可以用一句話概括:"表征 - 學(xué)習(xí) - 推理" 三位一體的推薦原生設(shè)計(jì)。 下面逐一拆解。



3.1 統(tǒng)一廣告語義 ID(UA-SID):給廣告一個(gè) "身份證"

核心思想:用一個(gè)端到端微調(diào)的多模態(tài)大模型(MLLM)為每條廣告生成統(tǒng)一嵌入,再通過精心設(shè)計(jì)的量化方法將其編碼為離散 Semantic ID。



第一步:統(tǒng)一廣告嵌入(UAE)

  • 指令微調(diào)(Instruction Tuning):針對(duì)快手廣告的 6 種典型形態(tài)(直播、商品、達(dá)人等),設(shè)計(jì)了 6 套提示模板,引導(dǎo) MLLM 從不同視角理解廣告內(nèi)容。比如對(duì)直播類廣告,引導(dǎo)模型分析主播畫像和地域特征;對(duì)外部投放廣告,則聚焦產(chǎn)品行業(yè)和品牌信息。
  • 共現(xiàn)學(xué)習(xí)(Co-occurrence Learning):用戶行為中的共現(xiàn)關(guān)系蘊(yùn)含了豐富的協(xié)同信號(hào)。論文使用 Swing 方法估計(jì)物料共現(xiàn)強(qiáng)度,并采用 InfoNCE 對(duì)比學(xué)習(xí)目標(biāo)將其注入表征:



第二步:MGMR RQ-Kmeans 量化

這是 UA-SID 的 "殺手锏"。論文提出了多粒度 - 多分辨率(Multi-Granularity-Multi-Resolution)的 RQ-Kmeans 量化策略:

  • 多分辨率(MR):低層級(jí)使用更大的碼本捕獲主導(dǎo)語義因子,高層級(jí)用較小碼本建模低熵殘差,有效提升碼本利用率。
  • 多粒度(MG):在最后一層用基于非語義特征的哈希映射替代向量量化 —— 將轉(zhuǎn)化類型、賬戶 ID 等業(yè)務(wù)信號(hào)直接編碼進(jìn) SID,一舉解決 "相同內(nèi)容、不同投放策略" 導(dǎo)致的 SID 碰撞問題。

最終每個(gè)廣告物料被映射為一個(gè)離散 UA-SID 序列:



3.2 LazyAR:懶惰解碼器的大智慧

生成式推薦在推理時(shí)需要通過 Beam Search 生成多個(gè)候選 SID 序列。標(biāo)準(zhǔn)自回歸解碼要求每一層都依賴上一步的輸出,這在 Beam 數(shù)很大時(shí)造成了巨大的計(jì)算瓶頸。

論文的一個(gè)關(guān)鍵觀察是:第一層 SID 最難學(xué)、損失最大,但它的 Beam 只有 1(從 BOS 開始);后續(xù)層級(jí)更容易,Beam 卻呈指數(shù)級(jí)膨脹。 大部分計(jì)算被浪費(fèi)在了 "簡單的事情" 上。



LazyAR 的核心操作: 將對(duì)上一步 token 的依賴 "延遲" 到中間某一層(第 K 層)注入:

  • 前 K 層(并行層):不依賴上一步 token,僅基于位置編碼和上下文 X 進(jìn)行計(jì)算,所有層級(jí)和所有 Beam 可以并行計(jì)算并共享
  • 后 L-K 層(自回歸層):注入上一步 SID 嵌入后進(jìn)行標(biāo)準(zhǔn)自回歸解碼。

為什么 LazyAR 有效?

1. 第一層 SID 的解碼過程完全不受影響(從 BOS 經(jīng)過全部 L 層)。

2. 前 K 層在潛空間中進(jìn)行推理,能編碼關(guān)于候選 token 的有用信號(hào)。

3. 引入 MTP 輔助損失,強(qiáng)制前 K 層即使沒有上一步 token 也能學(xué)到足夠信息。



論文特別指出:這個(gè)設(shè)計(jì)是推薦原生的,不適用于標(biāo)準(zhǔn) LLM 解碼 —— 因?yàn)?LLM 解碼通常不用 Beam Search,且后續(xù) token 的預(yù)測(cè)難度不一定下降。

3.3 價(jià)值感知的監(jiān)督學(xué)習(xí)(VSL)

在廣告場(chǎng)景中,不同樣本的商業(yè)價(jià)值天差地別。VSL 圍繞 "價(jià)值感知" 做了三件事:

SID + eCPM 聯(lián)合預(yù)測(cè): 在標(biāo)準(zhǔn) SID 交叉熵?fù)p失之外,將 eCPM 離散化為桶并追加為額外的預(yù)測(cè) token:



價(jià)值感知樣本加權(quán): 每個(gè)樣本的權(quán)重 ,高廣告價(jià)值用戶和深度交互行為(如購買)獲得更高權(quán)重。



MTP 輔助損失: 配合 LazyAR,強(qiáng)制前 K 層并行解碼的表征質(zhì)量。

最終 VSL 目標(biāo):



3.4 排序引導(dǎo)的強(qiáng)化學(xué)習(xí)(RSPO):從 "學(xué)分布" 到 "優(yōu)排序"

VSL 能擬合歷史數(shù)據(jù)分布,但它不直接優(yōu)化下游排序目標(biāo),也不支持對(duì)未知標(biāo)簽分布的探索。論文因此引入了 RSPO(Ranking-Guided Softmax Preference Optimization),一個(gè)面向列表級(jí) NDCG 優(yōu)化的 RL 算法

RSPO 的核心 loss





幾個(gè)精妙的工程設(shè)計(jì):



  • VSL 與 RSPO 的統(tǒng)一在線訓(xùn)練:通過樣本級(jí)對(duì)齊分?jǐn)?shù)動(dòng)態(tài)調(diào)整兩個(gè)目標(biāo)的權(quán)重 —— 模型排序與獎(jiǎng)勵(lì)排序偏差大時(shí)加重 VSL(學(xué)好基礎(chǔ)分布),偏差小時(shí)加重 RSPO(精細(xì)化價(jià)值優(yōu)化)。

四、線上部署:工業(yè)級(jí)系統(tǒng)的全閉環(huán)設(shè)計(jì)

GR4AD(0.16B 參數(shù))已全量部署于快手廣告系統(tǒng),實(shí)現(xiàn)了一套 “獎(jiǎng)勵(lì)估計(jì) → 在線學(xué)習(xí) → 實(shí)時(shí)索引 → 實(shí)時(shí)服務(wù)” 的完整閉環(huán)。



4.1 四大核心模塊

  • 獎(jiǎng)勵(lì)系統(tǒng)(Reward System):訓(xùn)練獨(dú)立的 Reward Model 對(duì) GR4AD 生成的候選集進(jìn)行 eCPM 評(píng)分,在放松延遲約束的環(huán)境下進(jìn)行更大 Beam 的探索,為 RL 訓(xùn)練提供高質(zhì)量信號(hào)。
  • 在線學(xué)習(xí)模塊:實(shí)時(shí)構(gòu)建 VSL 和 RL 兩種訓(xùn)練信號(hào),持續(xù)進(jìn)行 mini-batch 更新,實(shí)時(shí)推送參數(shù)到推理服務(wù)。
  • 實(shí)時(shí)索引模塊:用 SID 替代傳統(tǒng)嵌入索引。新物料到達(dá)時(shí)只需計(jì)算 UA-SID 并更新雙向索引(UA-SID ? Item ID),秒級(jí)生效,大幅改善冷啟動(dòng)覆蓋和時(shí)效性。
  • 實(shí)時(shí)服務(wù)引擎:處理用戶請(qǐng)求并返回排序廣告列表。

4.2 推理效率優(yōu)化:把算力用在刀刃上

動(dòng)態(tài) Beam 服務(wù)(DBS)是本文的又一亮點(diǎn),包含兩個(gè)子機(jī)制:

  • 動(dòng)態(tài) Beam 寬度(DBW):用遞增的 Beam 調(diào)度(如 128→256→512)替代固定寬度(512→512→512),在不損失最終候選質(zhì)量的前提下大幅削減中間層計(jì)算。
  • 流量感知自適應(yīng) Beam 搜索(TABS):根據(jù)實(shí)時(shí) QPS 自動(dòng)調(diào)整 Beam 規(guī)模 ——低峰期加大 Beam 提升推薦質(zhì)量,高峰期收縮 Beam 保障延遲和吞吐

此外還有一系列工程優(yōu)化:Beam 共享 KV Cache:將 Beam 從 batch 維度轉(zhuǎn)移至序列維度進(jìn)行組織,實(shí)現(xiàn) KV Cache 的共享,顯著提升內(nèi)存訪問效率(+212.5% QPS)、TopK 預(yù)裁剪:先并行選取每個(gè) Beam 的 K 個(gè)候選結(jié)果,再對(duì)聚合候選集進(jìn)行全局 Top-K 選擇,在有效縮減搜索空間的同時(shí)保證準(zhǔn)確性(+184.8% QPS)、FP8 低精度推理(+50.3% QPS)、短 TTL 結(jié)果緩存(+27.8% QPS)。

最終效果:<100ms 延遲,500+ QPS/L20 GPU

五、實(shí)驗(yàn)效果:廣告收入和推理性能的雙贏

5.1 總體性能與消融實(shí)驗(yàn)



幾個(gè)關(guān)鍵發(fā)現(xiàn):

  • RSPO 是所有優(yōu)化中增益最大的單一組件,顯著優(yōu)于 DPO 和 GRPO,驗(yàn)證了列表級(jí) RL 在廣告場(chǎng)景的不可替代性。
  • LazyAR 以極微小的精度代價(jià)換來了吞吐量翻倍,是實(shí)際部署的關(guān)鍵使能技術(shù),優(yōu)于 DeepSeek-MTP。
  • DBS 在不損失收益的前提下進(jìn)一步提升了效率,TABS 機(jī)制在低峰期還能反向提升收入。

5.2 Scaling Law



模型規(guī)模方向:從 0.03B 到 0.32B,收入提升從 + 2.13% 單調(diào)增長到 + 4.43%,訓(xùn)練損失也持續(xù)下降。生成式廣告推薦的 Scaling Law 是成立的

推理規(guī)模方向:Beam 寬度從 128 增加到 1024,收入從 + 2.33% 提升到 + 4.21%。這意味著更強(qiáng)的推理時(shí)搜索能進(jìn)一步釋放模型潛力—— 這與當(dāng)前 LLM 領(lǐng)域 Test-time Scaling 的趨勢(shì)遙相呼應(yīng)。

5.3 UA-SID 質(zhì)量



在嵌入質(zhì)量評(píng)估(photo-to-photo recall)中,經(jīng)過指令微調(diào)和共現(xiàn)學(xué)習(xí)的 UAE 達(dá)到了 R@1=0.896,遠(yuǎn)超基線 QARM(0.541)和原始 Qwen3-VL-7B(0.769)。MGMR 量化將 SID 碰撞率從 85.44% 降至 18.26%,碼本利用率提升 3 倍以上。

5.4 商業(yè)指標(biāo)的全面勝利

  • 商業(yè)化廣告收入4.2%+
  • 中小廣告主投放量提升17.5%
  • 廣告轉(zhuǎn)化率提升10.17%
  • 低活用戶轉(zhuǎn)化率提升7.28%

基于內(nèi)容的 SID 帶來的更強(qiáng)泛化能力和更實(shí)時(shí)的索引對(duì)冷啟動(dòng)物料的更好支持,實(shí)現(xiàn)了平臺(tái)、廣告主、用戶的三贏

六、總結(jié)與思考

GR4AD 這篇論文的價(jià)值,不僅在于它達(dá)成了 4.2% 的收入提升這個(gè)數(shù)字,更在于它系統(tǒng)性地回答了一個(gè)關(guān)鍵問題:生成式推薦在廣告這個(gè)最 "硬核" 的工業(yè)場(chǎng)景中,到底應(yīng)該怎么做?

它的答案是:不要照搬 LLM,要做推薦原生的設(shè)計(jì)

  • Token 化不能只看內(nèi)容語義,要把業(yè)務(wù)信號(hào)編碼進(jìn)去(UA-SID + MGMR)。
  • 訓(xùn)練不能只做單點(diǎn)概率生成,要做價(jià)值感知的列表級(jí)優(yōu)化(VSL + RSPO)。
  • 推理不能只套用 LLM 加速技巧,要針對(duì) "短序列、多候選、Beam Search" 的推薦特性做專門設(shè)計(jì)(LazyAR + DBS)。
  • 系統(tǒng)不能離線批處理,要做實(shí)時(shí)索引、在線學(xué)習(xí)、閉環(huán)反饋的全鏈路打通。

GR4AD 是生成式推薦走向廣告工業(yè)核心場(chǎng)景的一個(gè)重要里程碑。 快手用超過 4 億用戶的真實(shí)流量驗(yàn)證了這條路徑的可行性。可以預(yù)見,接下來會(huì)有更多廣告平臺(tái)跟進(jìn)這一范式。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
白銀連環(huán)殺人兇手高承勇:為兒子前途收手,被捕后兒子被單位辭退

白銀連環(huán)殺人兇手高承勇:為兒子前途收手,被捕后兒子被單位辭退

就一點(diǎn)
2026-03-17 16:10:56
中國不記隔夜仇!巴拿馬接到通知,美國終于下場(chǎng),巴政府自食惡果

中國不記隔夜仇!巴拿馬接到通知,美國終于下場(chǎng),巴政府自食惡果

影孖看世界
2026-04-06 14:09:23
24小時(shí)內(nèi),可能全球巨震

24小時(shí)內(nèi),可能全球巨震

隔壁老投
2026-04-07 14:27:54
業(yè)內(nèi)人士談上海二手房大幅跳價(jià):此時(shí)漲價(jià),未必是最優(yōu)解

業(yè)內(nèi)人士談上海二手房大幅跳價(jià):此時(shí)漲價(jià),未必是最優(yōu)解

中國能源網(wǎng)
2026-04-07 11:47:05
伊朗宣布決定,霍爾木茲海峽通航,高人指點(diǎn),打起石油持久戰(zhàn)

伊朗宣布決定,霍爾木茲海峽通航,高人指點(diǎn),打起石油持久戰(zhàn)

諦聽骨語本尊
2026-04-07 12:19:22
強(qiáng)陣沖頭名!U20女足VS泰國首發(fā):更換3人,18歲周欣怡首次先發(fā)

強(qiáng)陣沖頭名!U20女足VS泰國首發(fā):更換3人,18歲周欣怡首次先發(fā)

我愛英超
2026-04-07 19:56:18
真實(shí)的座山雕有多兇殘?比電影殘暴百倍,連日本人都拿他沒辦法!

真實(shí)的座山雕有多兇殘?比電影殘暴百倍,連日本人都拿他沒辦法!

史之銘
2026-04-07 18:39:39
張本美和奪冠,三十多年前何智麗的回旋鏢打回中國乒乓球隊(duì)

張本美和奪冠,三十多年前何智麗的回旋鏢打回中國乒乓球隊(duì)

羅納爾說個(gè)球
2026-03-17 21:33:29
伊朗搜捕人員距飛行員藏身地不到3公里!美軍營救代價(jià)慘烈,損失飛機(jī)價(jià)值超4億美元

伊朗搜捕人員距飛行員藏身地不到3公里!美軍營救代價(jià)慘烈,損失飛機(jī)價(jià)值超4億美元

紅星新聞
2026-04-05 18:49:42
李澤楷被她迷得瘋狂,林丹為她不顧孕妻,她有什么魅力?

李澤楷被她迷得瘋狂,林丹為她不顧孕妻,她有什么魅力?

觀察鑒娛
2026-04-05 21:26:05
官媒為張雪鳴不平!他贏了全世界,卻要栽在關(guān)系戶這?

官媒為張雪鳴不平!他贏了全世界,卻要栽在關(guān)系戶這?

娛樂故事
2026-04-06 20:01:36
連燒30小時(shí)!百億航母變廢鐵?5700人全被扣押,福建艦成全球唯一

連燒30小時(shí)!百億航母變廢鐵?5700人全被扣押,福建艦成全球唯一

小熊侃史
2026-04-07 10:29:19
緊急突發(fā)!奪島大戰(zhàn)!還是開始了!

緊急突發(fā)!奪島大戰(zhàn)!還是開始了!

大嘴說天下
2026-04-07 21:14:37
阿爾忒彌斯2號(hào)任務(wù)拍攝的月球背面

阿爾忒彌斯2號(hào)任務(wù)拍攝的月球背面

NASA航天愛好者
2026-04-07 13:55:10
“打開臺(tái)灣的眼睛”,島內(nèi)期待鄭麗文訪陸

“打開臺(tái)灣的眼睛”,島內(nèi)期待鄭麗文訪陸

環(huán)球網(wǎng)資訊
2026-04-07 06:56:17
早有預(yù)兆!喬任梁父母首度公開細(xì)節(jié),兒子死因復(fù)雜,別墅里全是藥

早有預(yù)兆!喬任梁父母首度公開細(xì)節(jié),兒子死因復(fù)雜,別墅里全是藥

仙味少女心
2026-04-06 23:01:04
Woc!5年6200萬,老鷹找到了自己的“亞歷山大”

Woc!5年6200萬,老鷹找到了自己的“亞歷山大”

體育新角度
2026-04-07 18:49:23
里夫斯+東契奇都去歐洲,湖人:這就有點(diǎn)離譜

里夫斯+東契奇都去歐洲,湖人:這就有點(diǎn)離譜

體育新角度
2026-04-07 18:53:49
9塊9的"美女"買家秀,正在嚇跑真實(shí)消費(fèi)者

9塊9的"美女"買家秀,正在嚇跑真實(shí)消費(fèi)者

字節(jié)漫游指南
2026-04-07 19:15:14
特朗普威脅伊朗:“今晚,整個(gè)文明將消亡”

特朗普威脅伊朗:“今晚,整個(gè)文明將消亡”

新華社
2026-04-07 21:41:33
2026-04-07 23:11:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12701文章數(shù) 142616關(guān)注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

特朗普恐嚇4小時(shí)摧毀伊朗 伊朗稱"打穿"海法未見攔截

頭條要聞

特朗普恐嚇4小時(shí)摧毀伊朗 伊朗稱"打穿"海法未見攔截

體育要聞

官宣簽約“AI球員”,這支球隊(duì)被罵慘了...

娛樂要聞

女首富陳麗華離世 被曝生前已分好遺產(chǎn)

財(cái)經(jīng)要聞

10萬億財(cái)政轉(zhuǎn)移支付,被誰拿走了?

汽車要聞

不止是大 極狐首款MPV問道V9靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

游戲
旅游
房產(chǎn)
公開課
軍事航空

重磅!寶可夢(mèng)系列最新作本周登陸Switch平臺(tái) 正式開玩

旅游要聞

春日限定持續(xù)上新,乘開往春天的列車賞春日勝景

房產(chǎn)要聞

重磅!三亞擬出安居房新政!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍營救飛行員出動(dòng)155架飛機(jī)

無障礙瀏覽 進(jìn)入關(guān)懷版