網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

快手廣告邁入生成式推薦時代！GR4AD：Token到Revenue全鏈路重構

2026-04-02 21:45:27　來源: 機器之心Pro

北京舉報

分享至

機器之心發(fā)布

當推薦系統(tǒng)遇上大模型范式，廣告變現(xiàn)的天花板被再次打破。快手提出 GR4AD，作為國內(nèi)生成式推薦在大規(guī)模廣告場景下的首次全量落地，實現(xiàn)廣告收入提升 4.2%，服務 4 億 + 用戶。

論文鏈接：https://arxiv.org/pdf/2602.22732

一、引言："推薦該怎么做" 的新范式

過去十年，深度學習推薦模型（DLRM）幾乎統(tǒng)治了整個工業(yè)界的推薦系統(tǒng) —— 從召回到排序，從特征交叉到序列建模，它們構建了一套成熟而穩(wěn)固的技術棧。然而，當大語言模型（LLM）的浪潮席卷而來，一個大膽的問題被拋了出來：

能不能像生成文本一樣，直接 "生成" 推薦結果？

這就是生成式推薦（Generative Recommendation）的核心思想。以 TIGER、OneRec 為代表的一系列工作，已經(jīng)在自然推薦場景中驗證了這一范式的可行性。但當戰(zhàn)場轉移到大規(guī)模廣告系統(tǒng)—— 這個對時延、收益、商業(yè)價值都有極致要求的領域 —— 事情變得遠沒有那么直接。

快手的這篇論文，正是對這一問題交出的一份沉甸甸的工業(yè)級答卷。他們提出了GR4AD（Generative Recommendation for ADvertising），一個橫跨表征、學習、服務三大層面協(xié)同設計的生成式廣告推薦系統(tǒng)，并已全量部署于快手廣告平臺，服務超過 4 億用戶

二、問題與挑戰(zhàn)：廣告場景下的三大挑戰(zhàn)

論文開篇就旗幟鮮明地指出：直接把 LLM 那套訓練和推理范式搬到廣告推薦上，是行不通的。具體來說，廣告場景存在三個獨有的核心挑戰(zhàn)：

挑戰(zhàn)一：廣告物料的 Token 化 —— 多元信息的統(tǒng)一編碼

廣告不是普通的短視頻。一條廣告背后融合了視頻創(chuàng)意、商品詳情、廣告主 B 端元數(shù)據(jù)等多模態(tài)、多粒度信息。更棘手的是，平臺還提供了轉化類型、廣告賬戶等關鍵業(yè)務信號，這些信號具備強烈的商業(yè)價值但幾乎沒有 "語義內(nèi)容" 可言。如何為廣告物料打造一套既能捕獲語義內(nèi)容、又能編碼業(yè)務信息的統(tǒng)一 Token 體系

挑戰(zhàn)二：學習范式 —— 面向商業(yè)價值的列表級優(yōu)化

廣告推薦的優(yōu)化目標不是 "猜中用戶會點哪個" 那么簡單，而是要在eCPM 排序、NDCG 等列表級指標下最大化商業(yè)價值。現(xiàn)有的生成式推薦方法大多沿用 LLM 的分階段訓練方式，不完全適配大規(guī)模推薦場景的持續(xù)在線學習，且缺乏面向排序的、列表級的學習設計。

挑戰(zhàn)三：實時服務 —— 多候選生成的算力困局

不同于 LLM 聊天場景中 "解碼一條回復、容忍較長延遲" 的模式，廣告系統(tǒng)需要在極高 QPS 和極低延遲（<100ms）下，通過 Beam Search同時生成大量高質量候選。這是一個與 LLM 不同的推理優(yōu)化問題。

三、方法：全鏈路協(xié)同設計的破局之道

GR4AD 的方法論可以用一句話概括:"表征 - 學習 - 推理" 三位一體的推薦原生設計。下面逐一拆解。

3.1 統(tǒng)一廣告語義 ID（UA-SID）：給廣告一個 "身份證"

核心思想：用一個端到端微調(diào)的多模態(tài)大模型（MLLM）為每條廣告生成統(tǒng)一嵌入，再通過精心設計的量化方法將其編碼為離散 Semantic ID。

第一步：統(tǒng)一廣告嵌入（UAE）

指令微調(diào)（Instruction Tuning）：針對快手廣告的 6 種典型形態(tài)（直播、商品、達人等），設計了 6 套提示模板，引導 MLLM 從不同視角理解廣告內(nèi)容。比如對直播類廣告，引導模型分析主播畫像和地域特征；對外部投放廣告，則聚焦產(chǎn)品行業(yè)和品牌信息。
共現(xiàn)學習（Co-occurrence Learning）：用戶行為中的共現(xiàn)關系蘊含了豐富的協(xié)同信號。論文使用 Swing 方法估計物料共現(xiàn)強度，并采用 InfoNCE 對比學習目標將其注入表征：

第二步：MGMR RQ-Kmeans 量化

這是 UA-SID 的 "殺手锏"。論文提出了多粒度 - 多分辨率（Multi-Granularity-Multi-Resolution）的 RQ-Kmeans 量化策略：

多分辨率（MR）：低層級使用更大的碼本捕獲主導語義因子，高層級用較小碼本建模低熵殘差，有效提升碼本利用率。
多粒度（MG）：在最后一層用基于非語義特征的哈希映射替代向量量化 —— 將轉化類型、賬戶 ID 等業(yè)務信號直接編碼進 SID，一舉解決 "相同內(nèi)容、不同投放策略" 導致的 SID 碰撞問題。

最終每個廣告物料被映射為一個離散 UA-SID 序列：

3.2 LazyAR：懶惰解碼器的大智慧

生成式推薦在推理時需要通過 Beam Search 生成多個候選 SID 序列。標準自回歸解碼要求每一層都依賴上一步的輸出，這在 Beam 數(shù)很大時造成了巨大的計算瓶頸。

論文的一個關鍵觀察是：第一層 SID 最難學、損失最大，但它的 Beam 只有 1（從 BOS 開始）；后續(xù)層級更容易，Beam 卻呈指數(shù)級膨脹。大部分計算被浪費在了 "簡單的事情" 上。

LazyAR 的核心操作：將對上一步 token 的依賴 "延遲" 到中間某一層（第 K 層）注入：

前 K 層（并行層）：不依賴上一步 token，僅基于位置編碼和上下文 X 進行計算，所有層級和所有 Beam 可以并行計算并共享
后 L-K 層（自回歸層）：注入上一步 SID 嵌入后進行標準自回歸解碼。

為什么 LazyAR 有效？

1. 第一層 SID 的解碼過程完全不受影響（從 BOS 經(jīng)過全部 L 層）。

2. 前 K 層在潛空間中進行推理，能編碼關于候選 token 的有用信號。

3. 引入 MTP 輔助損失，強制前 K 層即使沒有上一步 token 也能學到足夠信息。

論文特別指出：這個設計是推薦原生的，不適用于標準 LLM 解碼 —— 因為 LLM 解碼通常不用 Beam Search，且后續(xù) token 的預測難度不一定下降。

3.3 價值感知的監(jiān)督學習（VSL）

在廣告場景中，不同樣本的商業(yè)價值天差地別。VSL 圍繞 "價值感知" 做了三件事：

①SID + eCPM 聯(lián)合預測：在標準 SID 交叉熵損失之外，將 eCPM 離散化為桶并追加為額外的預測 token：

②價值感知樣本加權：每個樣本的權重，高廣告價值用戶和深度交互行為（如購買）獲得更高權重。

③MTP 輔助損失：配合 LazyAR，強制前 K 層并行解碼的表征質量。

最終 VSL 目標：

3.4 排序引導的強化學習（RSPO）：從 "學分布" 到 "優(yōu)排序"

VSL 能擬合歷史數(shù)據(jù)分布，但它不直接優(yōu)化下游排序目標，也不支持對未知標簽分布的探索。論文因此引入了 RSPO（Ranking-Guided Softmax Preference Optimization），一個面向列表級 NDCG 優(yōu)化的 RL 算法

RSPO 的核心 loss

幾個精妙的工程設計：

VSL 與 RSPO 的統(tǒng)一在線訓練：通過樣本級對齊分數(shù)動態(tài)調(diào)整兩個目標的權重 —— 模型排序與獎勵排序偏差大時加重 VSL（學好基礎分布），偏差小時加重 RSPO（精細化價值優(yōu)化）。

四、線上部署：工業(yè)級系統(tǒng)的全閉環(huán)設計

GR4AD（0.16B 參數(shù)）已全量部署于快手廣告系統(tǒng)，實現(xiàn)了一套 “獎勵估計 → 在線學習 → 實時索引 → 實時服務” 的完整閉環(huán)。

4.1 四大核心模塊

獎勵系統(tǒng)（Reward System）：訓練獨立的 Reward Model 對 GR4AD 生成的候選集進行 eCPM 評分，在放松延遲約束的環(huán)境下進行更大 Beam 的探索，為 RL 訓練提供高質量信號。
在線學習模塊：實時構建 VSL 和 RL 兩種訓練信號，持續(xù)進行 mini-batch 更新，實時推送參數(shù)到推理服務。
實時索引模塊：用 SID 替代傳統(tǒng)嵌入索引。新物料到達時只需計算 UA-SID 并更新雙向索引（UA-SID ? Item ID），秒級生效，大幅改善冷啟動覆蓋和時效性。
實時服務引擎：處理用戶請求并返回排序廣告列表。

4.2 推理效率優(yōu)化：把算力用在刀刃上

動態(tài) Beam 服務（DBS）是本文的又一亮點，包含兩個子機制：

動態(tài) Beam 寬度（DBW）：用遞增的 Beam 調(diào)度（如 128→256→512）替代固定寬度（512→512→512），在不損失最終候選質量的前提下大幅削減中間層計算。
流量感知自適應 Beam 搜索（TABS）：根據(jù)實時 QPS 自動調(diào)整 Beam 規(guī)模 ——低峰期加大 Beam 提升推薦質量，高峰期收縮 Beam 保障延遲和吞吐

此外還有一系列工程優(yōu)化：Beam 共享 KV Cache：將 Beam 從 batch 維度轉移至序列維度進行組織，實現(xiàn) KV Cache 的共享，顯著提升內(nèi)存訪問效率（+212.5% QPS）、TopK 預裁剪：先并行選取每個 Beam 的 K 個候選結果，再對聚合候選集進行全局 Top-K 選擇，在有效縮減搜索空間的同時保證準確性（+184.8% QPS）、FP8 低精度推理（+50.3% QPS）、短 TTL 結果緩存（+27.8% QPS）。

最終效果:<100ms 延遲，500+ QPS/L20 GPU

五、實驗效果：廣告收入和推理性能的雙贏

5.1 總體性能與消融實驗

幾個關鍵發(fā)現(xiàn)：

RSPO 是所有優(yōu)化中增益最大的單一組件，顯著優(yōu)于 DPO 和 GRPO，驗證了列表級 RL 在廣告場景的不可替代性。
LazyAR 以極微小的精度代價換來了吞吐量翻倍，是實際部署的關鍵使能技術，優(yōu)于 DeepSeek-MTP。
DBS 在不損失收益的前提下進一步提升了效率，TABS 機制在低峰期還能反向提升收入。

5.2 Scaling Law

模型規(guī)模方向：從 0.03B 到 0.32B，收入提升從 + 2.13% 單調(diào)增長到 + 4.43%，訓練損失也持續(xù)下降。生成式廣告推薦的 Scaling Law 是成立的

推理規(guī)模方向：Beam 寬度從 128 增加到 1024，收入從 + 2.33% 提升到 + 4.21%。這意味著更強的推理時搜索能進一步釋放模型潛力—— 這與當前 LLM 領域 Test-time Scaling 的趨勢遙相呼應。

5.3 UA-SID 質量

在嵌入質量評估（photo-to-photo recall）中，經(jīng)過指令微調(diào)和共現(xiàn)學習的 UAE 達到了 R@1=0.896，遠超基線 QARM（0.541）和原始 Qwen3-VL-7B（0.769）。MGMR 量化將 SID 碰撞率從 85.44% 降至 18.26%，碼本利用率提升 3 倍以上。

5.4 商業(yè)指標的全面勝利

商業(yè)化廣告收入4.2%+
中小廣告主投放量提升17.5%
廣告轉化率提升10.17%
低活用戶轉化率提升7.28%

基于內(nèi)容的 SID 帶來的更強泛化能力和更實時的索引對冷啟動物料的更好支持，實現(xiàn)了平臺、廣告主、用戶的三贏

六、總結與思考

GR4AD 這篇論文的價值，不僅在于它達成了 4.2% 的收入提升這個數(shù)字，更在于它系統(tǒng)性地回答了一個關鍵問題：生成式推薦在廣告這個最 "硬核" 的工業(yè)場景中，到底應該怎么做？

它的答案是：不要照搬 LLM，要做推薦原生的設計

Token 化不能只看內(nèi)容語義，要把業(yè)務信號編碼進去（UA-SID + MGMR）。
訓練不能只做單點概率生成，要做價值感知的列表級優(yōu)化（VSL + RSPO）。
推理不能只套用 LLM 加速技巧，要針對 "短序列、多候選、Beam Search" 的推薦特性做專門設計（LazyAR + DBS）。
系統(tǒng)不能離線批處理，要做實時索引、在線學習、閉環(huán)反饋的全鏈路打通。

GR4AD 是生成式推薦走向廣告工業(yè)核心場景的一個重要里程碑。快手用超過 4 億用戶的真實流量驗證了這條路徑的可行性。可以預見，接下來會有更多廣告平臺跟進這一范式。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.