網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

快手廣告邁入生成式推薦時(shí)代！GR4AD：Token到Revenue全鏈路重構(gòu)

2026-04-02 21:45:27　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心發(fā)布

當(dāng)推薦系統(tǒng)遇上大模型范式，廣告變現(xiàn)的天花板被再次打破。快手提出 GR4AD，作為國內(nèi)生成式推薦在大規(guī)模廣告場(chǎng)景下的首次全量落地，實(shí)現(xiàn)廣告收入提升 4.2%，服務(wù) 4 億 + 用戶。

論文鏈接：https://arxiv.org/pdf/2602.22732

一、引言："推薦該怎么做" 的新范式

過去十年，深度學(xué)習(xí)推薦模型（DLRM）幾乎統(tǒng)治了整個(gè)工業(yè)界的推薦系統(tǒng) —— 從召回到排序，從特征交叉到序列建模，它們構(gòu)建了一套成熟而穩(wěn)固的技術(shù)棧。然而，當(dāng)大語言模型（LLM）的浪潮席卷而來，一個(gè)大膽的問題被拋了出來：

能不能像生成文本一樣，直接 "生成" 推薦結(jié)果？

這就是生成式推薦（Generative Recommendation）的核心思想。以 TIGER、OneRec 為代表的一系列工作，已經(jīng)在自然推薦場(chǎng)景中驗(yàn)證了這一范式的可行性。但當(dāng)戰(zhàn)場(chǎng)轉(zhuǎn)移到大規(guī)模廣告系統(tǒng)—— 這個(gè)對(duì)時(shí)延、收益、商業(yè)價(jià)值都有極致要求的領(lǐng)域 —— 事情變得遠(yuǎn)沒有那么直接。

快手的這篇論文，正是對(duì)這一問題交出的一份沉甸甸的工業(yè)級(jí)答卷。他們提出了GR4AD（Generative Recommendation for ADvertising），一個(gè)橫跨表征、學(xué)習(xí)、服務(wù)三大層面協(xié)同設(shè)計(jì)的生成式廣告推薦系統(tǒng)，并已全量部署于快手廣告平臺(tái)，服務(wù)超過 4 億用戶

二、問題與挑戰(zhàn)：廣告場(chǎng)景下的三大挑戰(zhàn)

論文開篇就旗幟鮮明地指出：直接把 LLM 那套訓(xùn)練和推理范式搬到廣告推薦上，是行不通的。具體來說，廣告場(chǎng)景存在三個(gè)獨(dú)有的核心挑戰(zhàn)：

挑戰(zhàn)一：廣告物料的 Token 化 —— 多元信息的統(tǒng)一編碼

廣告不是普通的短視頻。一條廣告背后融合了視頻創(chuàng)意、商品詳情、廣告主 B 端元數(shù)據(jù)等多模態(tài)、多粒度信息。更棘手的是，平臺(tái)還提供了轉(zhuǎn)化類型、廣告賬戶等關(guān)鍵業(yè)務(wù)信號(hào)，這些信號(hào)具備強(qiáng)烈的商業(yè)價(jià)值但幾乎沒有 "語義內(nèi)容" 可言。如何為廣告物料打造一套既能捕獲語義內(nèi)容、又能編碼業(yè)務(wù)信息的統(tǒng)一 Token 體系

挑戰(zhàn)二：學(xué)習(xí)范式 —— 面向商業(yè)價(jià)值的列表級(jí)優(yōu)化

廣告推薦的優(yōu)化目標(biāo)不是 "猜中用戶會(huì)點(diǎn)哪個(gè)" 那么簡單，而是要在eCPM 排序、NDCG 等列表級(jí)指標(biāo)下最大化商業(yè)價(jià)值。現(xiàn)有的生成式推薦方法大多沿用 LLM 的分階段訓(xùn)練方式，不完全適配大規(guī)模推薦場(chǎng)景的持續(xù)在線學(xué)習(xí)，且缺乏面向排序的、列表級(jí)的學(xué)習(xí)設(shè)計(jì)。

挑戰(zhàn)三：實(shí)時(shí)服務(wù) —— 多候選生成的算力困局

不同于 LLM 聊天場(chǎng)景中 "解碼一條回復(fù)、容忍較長延遲" 的模式，廣告系統(tǒng)需要在極高 QPS 和極低延遲（<100ms）下，通過 Beam Search同時(shí)生成大量高質(zhì)量候選。這是一個(gè)與 LLM 不同的推理優(yōu)化問題。

三、方法：全鏈路協(xié)同設(shè)計(jì)的破局之道

GR4AD 的方法論可以用一句話概括:"表征 - 學(xué)習(xí) - 推理" 三位一體的推薦原生設(shè)計(jì)。下面逐一拆解。

3.1 統(tǒng)一廣告語義 ID（UA-SID）：給廣告一個(gè) "身份證"

核心思想：用一個(gè)端到端微調(diào)的多模態(tài)大模型（MLLM）為每條廣告生成統(tǒng)一嵌入，再通過精心設(shè)計(jì)的量化方法將其編碼為離散 Semantic ID。

第一步：統(tǒng)一廣告嵌入（UAE）

指令微調(diào)（Instruction Tuning）：針對(duì)快手廣告的 6 種典型形態(tài)（直播、商品、達(dá)人等），設(shè)計(jì)了 6 套提示模板，引導(dǎo) MLLM 從不同視角理解廣告內(nèi)容。比如對(duì)直播類廣告，引導(dǎo)模型分析主播畫像和地域特征；對(duì)外部投放廣告，則聚焦產(chǎn)品行業(yè)和品牌信息。
共現(xiàn)學(xué)習(xí)（Co-occurrence Learning）：用戶行為中的共現(xiàn)關(guān)系蘊(yùn)含了豐富的協(xié)同信號(hào)。論文使用 Swing 方法估計(jì)物料共現(xiàn)強(qiáng)度，并采用 InfoNCE 對(duì)比學(xué)習(xí)目標(biāo)將其注入表征：

第二步：MGMR RQ-Kmeans 量化

這是 UA-SID 的 "殺手锏"。論文提出了多粒度 - 多分辨率（Multi-Granularity-Multi-Resolution）的 RQ-Kmeans 量化策略：

多分辨率（MR）：低層級(jí)使用更大的碼本捕獲主導(dǎo)語義因子，高層級(jí)用較小碼本建模低熵殘差，有效提升碼本利用率。
多粒度（MG）：在最后一層用基于非語義特征的哈希映射替代向量量化 —— 將轉(zhuǎn)化類型、賬戶 ID 等業(yè)務(wù)信號(hào)直接編碼進(jìn) SID，一舉解決 "相同內(nèi)容、不同投放策略" 導(dǎo)致的 SID 碰撞問題。

最終每個(gè)廣告物料被映射為一個(gè)離散 UA-SID 序列：

3.2 LazyAR：懶惰解碼器的大智慧

生成式推薦在推理時(shí)需要通過 Beam Search 生成多個(gè)候選 SID 序列。標(biāo)準(zhǔn)自回歸解碼要求每一層都依賴上一步的輸出，這在 Beam 數(shù)很大時(shí)造成了巨大的計(jì)算瓶頸。

論文的一個(gè)關(guān)鍵觀察是：第一層 SID 最難學(xué)、損失最大，但它的 Beam 只有 1（從 BOS 開始）；后續(xù)層級(jí)更容易，Beam 卻呈指數(shù)級(jí)膨脹。大部分計(jì)算被浪費(fèi)在了 "簡單的事情" 上。

LazyAR 的核心操作：將對(duì)上一步 token 的依賴 "延遲" 到中間某一層（第 K 層）注入：

前 K 層（并行層）：不依賴上一步 token，僅基于位置編碼和上下文 X 進(jìn)行計(jì)算，所有層級(jí)和所有 Beam 可以并行計(jì)算并共享
后 L-K 層（自回歸層）：注入上一步 SID 嵌入后進(jìn)行標(biāo)準(zhǔn)自回歸解碼。

為什么 LazyAR 有效？

1. 第一層 SID 的解碼過程完全不受影響（從 BOS 經(jīng)過全部 L 層）。

2. 前 K 層在潛空間中進(jìn)行推理，能編碼關(guān)于候選 token 的有用信號(hào)。

3. 引入 MTP 輔助損失，強(qiáng)制前 K 層即使沒有上一步 token 也能學(xué)到足夠信息。

論文特別指出：這個(gè)設(shè)計(jì)是推薦原生的，不適用于標(biāo)準(zhǔn) LLM 解碼 —— 因?yàn)?LLM 解碼通常不用 Beam Search，且后續(xù) token 的預(yù)測(cè)難度不一定下降。

3.3 價(jià)值感知的監(jiān)督學(xué)習(xí)（VSL）

在廣告場(chǎng)景中，不同樣本的商業(yè)價(jià)值天差地別。VSL 圍繞 "價(jià)值感知" 做了三件事：

①SID + eCPM 聯(lián)合預(yù)測(cè)：在標(biāo)準(zhǔn) SID 交叉熵?fù)p失之外，將 eCPM 離散化為桶并追加為額外的預(yù)測(cè) token：

②價(jià)值感知樣本加權(quán)：每個(gè)樣本的權(quán)重，高廣告價(jià)值用戶和深度交互行為（如購買）獲得更高權(quán)重。

③MTP 輔助損失：配合 LazyAR，強(qiáng)制前 K 層并行解碼的表征質(zhì)量。

最終 VSL 目標(biāo)：

3.4 排序引導(dǎo)的強(qiáng)化學(xué)習(xí)（RSPO）：從 "學(xué)分布" 到 "優(yōu)排序"

VSL 能擬合歷史數(shù)據(jù)分布，但它不直接優(yōu)化下游排序目標(biāo)，也不支持對(duì)未知標(biāo)簽分布的探索。論文因此引入了 RSPO（Ranking-Guided Softmax Preference Optimization），一個(gè)面向列表級(jí) NDCG 優(yōu)化的 RL 算法

RSPO 的核心 loss

幾個(gè)精妙的工程設(shè)計(jì)：

VSL 與 RSPO 的統(tǒng)一在線訓(xùn)練：通過樣本級(jí)對(duì)齊分?jǐn)?shù)動(dòng)態(tài)調(diào)整兩個(gè)目標(biāo)的權(quán)重 —— 模型排序與獎(jiǎng)勵(lì)排序偏差大時(shí)加重 VSL（學(xué)好基礎(chǔ)分布），偏差小時(shí)加重 RSPO（精細(xì)化價(jià)值優(yōu)化）。

四、線上部署：工業(yè)級(jí)系統(tǒng)的全閉環(huán)設(shè)計(jì)

GR4AD（0.16B 參數(shù)）已全量部署于快手廣告系統(tǒng)，實(shí)現(xiàn)了一套 “獎(jiǎng)勵(lì)估計(jì) → 在線學(xué)習(xí) → 實(shí)時(shí)索引 → 實(shí)時(shí)服務(wù)” 的完整閉環(huán)。

4.1 四大核心模塊

獎(jiǎng)勵(lì)系統(tǒng)（Reward System）：訓(xùn)練獨(dú)立的 Reward Model 對(duì) GR4AD 生成的候選集進(jìn)行 eCPM 評(píng)分，在放松延遲約束的環(huán)境下進(jìn)行更大 Beam 的探索，為 RL 訓(xùn)練提供高質(zhì)量信號(hào)。
在線學(xué)習(xí)模塊：實(shí)時(shí)構(gòu)建 VSL 和 RL 兩種訓(xùn)練信號(hào)，持續(xù)進(jìn)行 mini-batch 更新，實(shí)時(shí)推送參數(shù)到推理服務(wù)。
實(shí)時(shí)索引模塊：用 SID 替代傳統(tǒng)嵌入索引。新物料到達(dá)時(shí)只需計(jì)算 UA-SID 并更新雙向索引（UA-SID ? Item ID），秒級(jí)生效，大幅改善冷啟動(dòng)覆蓋和時(shí)效性。
實(shí)時(shí)服務(wù)引擎：處理用戶請(qǐng)求并返回排序廣告列表。

4.2 推理效率優(yōu)化：把算力用在刀刃上

動(dòng)態(tài) Beam 服務(wù)（DBS）是本文的又一亮點(diǎn)，包含兩個(gè)子機(jī)制：

動(dòng)態(tài) Beam 寬度（DBW）：用遞增的 Beam 調(diào)度（如 128→256→512）替代固定寬度（512→512→512），在不損失最終候選質(zhì)量的前提下大幅削減中間層計(jì)算。
流量感知自適應(yīng) Beam 搜索（TABS）：根據(jù)實(shí)時(shí) QPS 自動(dòng)調(diào)整 Beam 規(guī)模 ——低峰期加大 Beam 提升推薦質(zhì)量，高峰期收縮 Beam 保障延遲和吞吐

此外還有一系列工程優(yōu)化：Beam 共享 KV Cache：將 Beam 從 batch 維度轉(zhuǎn)移至序列維度進(jìn)行組織，實(shí)現(xiàn) KV Cache 的共享，顯著提升內(nèi)存訪問效率（+212.5% QPS）、TopK 預(yù)裁剪：先并行選取每個(gè) Beam 的 K 個(gè)候選結(jié)果，再對(duì)聚合候選集進(jìn)行全局 Top-K 選擇，在有效縮減搜索空間的同時(shí)保證準(zhǔn)確性（+184.8% QPS）、FP8 低精度推理（+50.3% QPS）、短 TTL 結(jié)果緩存（+27.8% QPS）。

最終效果:<100ms 延遲，500+ QPS/L20 GPU

五、實(shí)驗(yàn)效果：廣告收入和推理性能的雙贏

5.1 總體性能與消融實(shí)驗(yàn)

幾個(gè)關(guān)鍵發(fā)現(xiàn)：

RSPO 是所有優(yōu)化中增益最大的單一組件，顯著優(yōu)于 DPO 和 GRPO，驗(yàn)證了列表級(jí) RL 在廣告場(chǎng)景的不可替代性。
LazyAR 以極微小的精度代價(jià)換來了吞吐量翻倍，是實(shí)際部署的關(guān)鍵使能技術(shù)，優(yōu)于 DeepSeek-MTP。
DBS 在不損失收益的前提下進(jìn)一步提升了效率，TABS 機(jī)制在低峰期還能反向提升收入。

5.2 Scaling Law

模型規(guī)模方向：從 0.03B 到 0.32B，收入提升從 + 2.13% 單調(diào)增長到 + 4.43%，訓(xùn)練損失也持續(xù)下降。生成式廣告推薦的 Scaling Law 是成立的

推理規(guī)模方向：Beam 寬度從 128 增加到 1024，收入從 + 2.33% 提升到 + 4.21%。這意味著更強(qiáng)的推理時(shí)搜索能進(jìn)一步釋放模型潛力—— 這與當(dāng)前 LLM 領(lǐng)域 Test-time Scaling 的趨勢(shì)遙相呼應(yīng)。

5.3 UA-SID 質(zhì)量

在嵌入質(zhì)量評(píng)估（photo-to-photo recall）中，經(jīng)過指令微調(diào)和共現(xiàn)學(xué)習(xí)的 UAE 達(dá)到了 R@1=0.896，遠(yuǎn)超基線 QARM（0.541）和原始 Qwen3-VL-7B（0.769）。MGMR 量化將 SID 碰撞率從 85.44% 降至 18.26%，碼本利用率提升 3 倍以上。

5.4 商業(yè)指標(biāo)的全面勝利

商業(yè)化廣告收入4.2%+
中小廣告主投放量提升17.5%
廣告轉(zhuǎn)化率提升10.17%
低活用戶轉(zhuǎn)化率提升7.28%

基于內(nèi)容的 SID 帶來的更強(qiáng)泛化能力和更實(shí)時(shí)的索引對(duì)冷啟動(dòng)物料的更好支持，實(shí)現(xiàn)了平臺(tái)、廣告主、用戶的三贏

六、總結(jié)與思考

GR4AD 這篇論文的價(jià)值，不僅在于它達(dá)成了 4.2% 的收入提升這個(gè)數(shù)字，更在于它系統(tǒng)性地回答了一個(gè)關(guān)鍵問題：生成式推薦在廣告這個(gè)最 "硬核" 的工業(yè)場(chǎng)景中，到底應(yīng)該怎么做？

它的答案是：不要照搬 LLM，要做推薦原生的設(shè)計(jì)

Token 化不能只看內(nèi)容語義，要把業(yè)務(wù)信號(hào)編碼進(jìn)去（UA-SID + MGMR）。
訓(xùn)練不能只做單點(diǎn)概率生成，要做價(jià)值感知的列表級(jí)優(yōu)化（VSL + RSPO）。
推理不能只套用 LLM 加速技巧，要針對(duì) "短序列、多候選、Beam Search" 的推薦特性做專門設(shè)計(jì)（LazyAR + DBS）。
系統(tǒng)不能離線批處理，要做實(shí)時(shí)索引、在線學(xué)習(xí)、閉環(huán)反饋的全鏈路打通。

GR4AD 是生成式推薦走向廣告工業(yè)核心場(chǎng)景的一個(gè)重要里程碑。快手用超過 4 億用戶的真實(shí)流量驗(yàn)證了這條路徑的可行性。可以預(yù)見，接下來會(huì)有更多廣告平臺(tái)跟進(jìn)這一范式。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.