![]()
機(jī)器之心發(fā)布
當(dāng)推薦系統(tǒng)遇上大模型范式,廣告變現(xiàn)的天花板被再次打破。快手提出 GR4AD,作為國內(nèi)生成式推薦在大規(guī)模廣告場(chǎng)景下的首次全量落地,實(shí)現(xiàn)廣告收入提升 4.2%,服務(wù) 4 億 + 用戶。
![]()
論文鏈接:https://arxiv.org/pdf/2602.22732
一、引言:"推薦該怎么做" 的新范式
過去十年,深度學(xué)習(xí)推薦模型(DLRM)幾乎統(tǒng)治了整個(gè)工業(yè)界的推薦系統(tǒng) —— 從召回到排序,從特征交叉到序列建模,它們構(gòu)建了一套成熟而穩(wěn)固的技術(shù)棧。然而,當(dāng)大語言模型(LLM)的浪潮席卷而來,一個(gè)大膽的問題被拋了出來:
能不能像生成文本一樣,直接 "生成" 推薦結(jié)果?
這就是生成式推薦(Generative Recommendation)的核心思想。以 TIGER、OneRec 為代表的一系列工作,已經(jīng)在自然推薦場(chǎng)景中驗(yàn)證了這一范式的可行性。但當(dāng)戰(zhàn)場(chǎng)轉(zhuǎn)移到大規(guī)模廣告系統(tǒng)—— 這個(gè)對(duì)時(shí)延、收益、商業(yè)價(jià)值都有極致要求的領(lǐng)域 —— 事情變得遠(yuǎn)沒有那么直接。
快手的這篇論文,正是對(duì)這一問題交出的一份沉甸甸的工業(yè)級(jí)答卷。他們提出了GR4AD(Generative Recommendation for ADvertising),一個(gè)橫跨表征、學(xué)習(xí)、服務(wù)三大層面協(xié)同設(shè)計(jì)的生成式廣告推薦系統(tǒng),并已全量部署于快手廣告平臺(tái),服務(wù)超過 4 億用戶
二、問題與挑戰(zhàn):廣告場(chǎng)景下的三大挑戰(zhàn)
論文開篇就旗幟鮮明地指出:直接把 LLM 那套訓(xùn)練和推理范式搬到廣告推薦上,是行不通的。 具體來說,廣告場(chǎng)景存在三個(gè)獨(dú)有的核心挑戰(zhàn):
挑戰(zhàn)一:廣告物料的 Token 化 —— 多元信息的統(tǒng)一編碼
廣告不是普通的短視頻。一條廣告背后融合了視頻創(chuàng)意、商品詳情、廣告主 B 端元數(shù)據(jù)等多模態(tài)、多粒度信息。更棘手的是,平臺(tái)還提供了轉(zhuǎn)化類型、廣告賬戶等關(guān)鍵業(yè)務(wù)信號(hào),這些信號(hào)具備強(qiáng)烈的商業(yè)價(jià)值但幾乎沒有 "語義內(nèi)容" 可言。如何為廣告物料打造一套既能捕獲語義內(nèi)容、又能編碼業(yè)務(wù)信息的統(tǒng)一 Token 體系
挑戰(zhàn)二:學(xué)習(xí)范式 —— 面向商業(yè)價(jià)值的列表級(jí)優(yōu)化
廣告推薦的優(yōu)化目標(biāo)不是 "猜中用戶會(huì)點(diǎn)哪個(gè)" 那么簡單,而是要在eCPM 排序、NDCG 等列表級(jí)指標(biāo)下最大化商業(yè)價(jià)值。現(xiàn)有的生成式推薦方法大多沿用 LLM 的分階段訓(xùn)練方式,不完全適配大規(guī)模推薦場(chǎng)景的持續(xù)在線學(xué)習(xí),且缺乏面向排序的、列表級(jí)的學(xué)習(xí)設(shè)計(jì)。
挑戰(zhàn)三:實(shí)時(shí)服務(wù) —— 多候選生成的算力困局
不同于 LLM 聊天場(chǎng)景中 "解碼一條回復(fù)、容忍較長延遲" 的模式,廣告系統(tǒng)需要在極高 QPS 和極低延遲(<100ms)下,通過 Beam Search同時(shí)生成大量高質(zhì)量候選。這是一個(gè)與 LLM 不同的推理優(yōu)化問題。
三、方法:全鏈路協(xié)同設(shè)計(jì)的破局之道
GR4AD 的方法論可以用一句話概括:"表征 - 學(xué)習(xí) - 推理" 三位一體的推薦原生設(shè)計(jì)。 下面逐一拆解。
![]()
3.1 統(tǒng)一廣告語義 ID(UA-SID):給廣告一個(gè) "身份證"
核心思想:用一個(gè)端到端微調(diào)的多模態(tài)大模型(MLLM)為每條廣告生成統(tǒng)一嵌入,再通過精心設(shè)計(jì)的量化方法將其編碼為離散 Semantic ID。
![]()
第一步:統(tǒng)一廣告嵌入(UAE)
- 指令微調(diào)(Instruction Tuning):針對(duì)快手廣告的 6 種典型形態(tài)(直播、商品、達(dá)人等),設(shè)計(jì)了 6 套提示模板,引導(dǎo) MLLM 從不同視角理解廣告內(nèi)容。比如對(duì)直播類廣告,引導(dǎo)模型分析主播畫像和地域特征;對(duì)外部投放廣告,則聚焦產(chǎn)品行業(yè)和品牌信息。
- 共現(xiàn)學(xué)習(xí)(Co-occurrence Learning):用戶行為中的共現(xiàn)關(guān)系蘊(yùn)含了豐富的協(xié)同信號(hào)。論文使用 Swing 方法估計(jì)物料共現(xiàn)強(qiáng)度,并采用 InfoNCE 對(duì)比學(xué)習(xí)目標(biāo)將其注入表征:
![]()
第二步:MGMR RQ-Kmeans 量化
這是 UA-SID 的 "殺手锏"。論文提出了多粒度 - 多分辨率(Multi-Granularity-Multi-Resolution)的 RQ-Kmeans 量化策略:
- 多分辨率(MR):低層級(jí)使用更大的碼本捕獲主導(dǎo)語義因子,高層級(jí)用較小碼本建模低熵殘差,有效提升碼本利用率。
- 多粒度(MG):在最后一層用基于非語義特征的哈希映射替代向量量化 —— 將轉(zhuǎn)化類型、賬戶 ID 等業(yè)務(wù)信號(hào)直接編碼進(jìn) SID,一舉解決 "相同內(nèi)容、不同投放策略" 導(dǎo)致的 SID 碰撞問題。
最終每個(gè)廣告物料被映射為一個(gè)離散 UA-SID 序列:
![]()
3.2 LazyAR:懶惰解碼器的大智慧
生成式推薦在推理時(shí)需要通過 Beam Search 生成多個(gè)候選 SID 序列。標(biāo)準(zhǔn)自回歸解碼要求每一層都依賴上一步的輸出,這在 Beam 數(shù)很大時(shí)造成了巨大的計(jì)算瓶頸。
論文的一個(gè)關(guān)鍵觀察是:第一層 SID 最難學(xué)、損失最大,但它的 Beam 只有 1(從 BOS 開始);后續(xù)層級(jí)更容易,Beam 卻呈指數(shù)級(jí)膨脹。 大部分計(jì)算被浪費(fèi)在了 "簡單的事情" 上。
![]()
LazyAR 的核心操作: 將對(duì)上一步 token 的依賴 "延遲" 到中間某一層(第 K 層)注入:
- 前 K 層(并行層):不依賴上一步 token,僅基于位置編碼和上下文 X 進(jìn)行計(jì)算,所有層級(jí)和所有 Beam 可以并行計(jì)算并共享
- 后 L-K 層(自回歸層):注入上一步 SID 嵌入后進(jìn)行標(biāo)準(zhǔn)自回歸解碼。
為什么 LazyAR 有效?
1. 第一層 SID 的解碼過程完全不受影響(從 BOS 經(jīng)過全部 L 層)。
2. 前 K 層在潛空間中進(jìn)行推理,能編碼關(guān)于候選 token 的有用信號(hào)。
3. 引入 MTP 輔助損失,強(qiáng)制前 K 層即使沒有上一步 token 也能學(xué)到足夠信息。
![]()
論文特別指出:這個(gè)設(shè)計(jì)是推薦原生的,不適用于標(biāo)準(zhǔn) LLM 解碼 —— 因?yàn)?LLM 解碼通常不用 Beam Search,且后續(xù) token 的預(yù)測(cè)難度不一定下降。
3.3 價(jià)值感知的監(jiān)督學(xué)習(xí)(VSL)
在廣告場(chǎng)景中,不同樣本的商業(yè)價(jià)值天差地別。VSL 圍繞 "價(jià)值感知" 做了三件事:
①SID + eCPM 聯(lián)合預(yù)測(cè): 在標(biāo)準(zhǔn) SID 交叉熵?fù)p失之外,將 eCPM 離散化為桶并追加為額外的預(yù)測(cè) token:
![]()
②價(jià)值感知樣本加權(quán): 每個(gè)樣本的權(quán)重 ,高廣告價(jià)值用戶和深度交互行為(如購買)獲得更高權(quán)重。
![]()
③MTP 輔助損失: 配合 LazyAR,強(qiáng)制前 K 層并行解碼的表征質(zhì)量。
最終 VSL 目標(biāo):
![]()
3.4 排序引導(dǎo)的強(qiáng)化學(xué)習(xí)(RSPO):從 "學(xué)分布" 到 "優(yōu)排序"
VSL 能擬合歷史數(shù)據(jù)分布,但它不直接優(yōu)化下游排序目標(biāo),也不支持對(duì)未知標(biāo)簽分布的探索。論文因此引入了 RSPO(Ranking-Guided Softmax Preference Optimization),一個(gè)面向列表級(jí) NDCG 優(yōu)化的 RL 算法
RSPO 的核心 loss
![]()
![]()
幾個(gè)精妙的工程設(shè)計(jì):
![]()
- VSL 與 RSPO 的統(tǒng)一在線訓(xùn)練:通過樣本級(jí)對(duì)齊分?jǐn)?shù)動(dòng)態(tài)調(diào)整兩個(gè)目標(biāo)的權(quán)重 —— 模型排序與獎(jiǎng)勵(lì)排序偏差大時(shí)加重 VSL(學(xué)好基礎(chǔ)分布),偏差小時(shí)加重 RSPO(精細(xì)化價(jià)值優(yōu)化)。
四、線上部署:工業(yè)級(jí)系統(tǒng)的全閉環(huán)設(shè)計(jì)
GR4AD(0.16B 參數(shù))已全量部署于快手廣告系統(tǒng),實(shí)現(xiàn)了一套 “獎(jiǎng)勵(lì)估計(jì) → 在線學(xué)習(xí) → 實(shí)時(shí)索引 → 實(shí)時(shí)服務(wù)” 的完整閉環(huán)。
![]()
4.1 四大核心模塊
- 獎(jiǎng)勵(lì)系統(tǒng)(Reward System):訓(xùn)練獨(dú)立的 Reward Model 對(duì) GR4AD 生成的候選集進(jìn)行 eCPM 評(píng)分,在放松延遲約束的環(huán)境下進(jìn)行更大 Beam 的探索,為 RL 訓(xùn)練提供高質(zhì)量信號(hào)。
- 在線學(xué)習(xí)模塊:實(shí)時(shí)構(gòu)建 VSL 和 RL 兩種訓(xùn)練信號(hào),持續(xù)進(jìn)行 mini-batch 更新,實(shí)時(shí)推送參數(shù)到推理服務(wù)。
- 實(shí)時(shí)索引模塊:用 SID 替代傳統(tǒng)嵌入索引。新物料到達(dá)時(shí)只需計(jì)算 UA-SID 并更新雙向索引(UA-SID ? Item ID),秒級(jí)生效,大幅改善冷啟動(dòng)覆蓋和時(shí)效性。
- 實(shí)時(shí)服務(wù)引擎:處理用戶請(qǐng)求并返回排序廣告列表。
4.2 推理效率優(yōu)化:把算力用在刀刃上
動(dòng)態(tài) Beam 服務(wù)(DBS)是本文的又一亮點(diǎn),包含兩個(gè)子機(jī)制:
- 動(dòng)態(tài) Beam 寬度(DBW):用遞增的 Beam 調(diào)度(如 128→256→512)替代固定寬度(512→512→512),在不損失最終候選質(zhì)量的前提下大幅削減中間層計(jì)算。
- 流量感知自適應(yīng) Beam 搜索(TABS):根據(jù)實(shí)時(shí) QPS 自動(dòng)調(diào)整 Beam 規(guī)模 ——低峰期加大 Beam 提升推薦質(zhì)量,高峰期收縮 Beam 保障延遲和吞吐
此外還有一系列工程優(yōu)化:Beam 共享 KV Cache:將 Beam 從 batch 維度轉(zhuǎn)移至序列維度進(jìn)行組織,實(shí)現(xiàn) KV Cache 的共享,顯著提升內(nèi)存訪問效率(+212.5% QPS)、TopK 預(yù)裁剪:先并行選取每個(gè) Beam 的 K 個(gè)候選結(jié)果,再對(duì)聚合候選集進(jìn)行全局 Top-K 選擇,在有效縮減搜索空間的同時(shí)保證準(zhǔn)確性(+184.8% QPS)、FP8 低精度推理(+50.3% QPS)、短 TTL 結(jié)果緩存(+27.8% QPS)。
最終效果:<100ms 延遲,500+ QPS/L20 GPU
五、實(shí)驗(yàn)效果:廣告收入和推理性能的雙贏
5.1 總體性能與消融實(shí)驗(yàn)
![]()
幾個(gè)關(guān)鍵發(fā)現(xiàn):
- RSPO 是所有優(yōu)化中增益最大的單一組件,顯著優(yōu)于 DPO 和 GRPO,驗(yàn)證了列表級(jí) RL 在廣告場(chǎng)景的不可替代性。
- LazyAR 以極微小的精度代價(jià)換來了吞吐量翻倍,是實(shí)際部署的關(guān)鍵使能技術(shù),優(yōu)于 DeepSeek-MTP。
- DBS 在不損失收益的前提下進(jìn)一步提升了效率,TABS 機(jī)制在低峰期還能反向提升收入。
5.2 Scaling Law
![]()
模型規(guī)模方向:從 0.03B 到 0.32B,收入提升從 + 2.13% 單調(diào)增長到 + 4.43%,訓(xùn)練損失也持續(xù)下降。生成式廣告推薦的 Scaling Law 是成立的
推理規(guī)模方向:Beam 寬度從 128 增加到 1024,收入從 + 2.33% 提升到 + 4.21%。這意味著更強(qiáng)的推理時(shí)搜索能進(jìn)一步釋放模型潛力—— 這與當(dāng)前 LLM 領(lǐng)域 Test-time Scaling 的趨勢(shì)遙相呼應(yīng)。
5.3 UA-SID 質(zhì)量
![]()
在嵌入質(zhì)量評(píng)估(photo-to-photo recall)中,經(jīng)過指令微調(diào)和共現(xiàn)學(xué)習(xí)的 UAE 達(dá)到了 R@1=0.896,遠(yuǎn)超基線 QARM(0.541)和原始 Qwen3-VL-7B(0.769)。MGMR 量化將 SID 碰撞率從 85.44% 降至 18.26%,碼本利用率提升 3 倍以上。
5.4 商業(yè)指標(biāo)的全面勝利
- 商業(yè)化廣告收入4.2%+
- 中小廣告主投放量提升17.5%
- 廣告轉(zhuǎn)化率提升10.17%
- 低活用戶轉(zhuǎn)化率提升7.28%
基于內(nèi)容的 SID 帶來的更強(qiáng)泛化能力和更實(shí)時(shí)的索引對(duì)冷啟動(dòng)物料的更好支持,實(shí)現(xiàn)了平臺(tái)、廣告主、用戶的三贏
六、總結(jié)與思考
GR4AD 這篇論文的價(jià)值,不僅在于它達(dá)成了 4.2% 的收入提升這個(gè)數(shù)字,更在于它系統(tǒng)性地回答了一個(gè)關(guān)鍵問題:生成式推薦在廣告這個(gè)最 "硬核" 的工業(yè)場(chǎng)景中,到底應(yīng)該怎么做?
它的答案是:不要照搬 LLM,要做推薦原生的設(shè)計(jì)
- Token 化不能只看內(nèi)容語義,要把業(yè)務(wù)信號(hào)編碼進(jìn)去(UA-SID + MGMR)。
- 訓(xùn)練不能只做單點(diǎn)概率生成,要做價(jià)值感知的列表級(jí)優(yōu)化(VSL + RSPO)。
- 推理不能只套用 LLM 加速技巧,要針對(duì) "短序列、多候選、Beam Search" 的推薦特性做專門設(shè)計(jì)(LazyAR + DBS)。
- 系統(tǒng)不能離線批處理,要做實(shí)時(shí)索引、在線學(xué)習(xí)、閉環(huán)反饋的全鏈路打通。
GR4AD 是生成式推薦走向廣告工業(yè)核心場(chǎng)景的一個(gè)重要里程碑。 快手用超過 4 億用戶的真實(shí)流量驗(yàn)證了這條路徑的可行性。可以預(yù)見,接下來會(huì)有更多廣告平臺(tái)跟進(jìn)這一范式。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.