網易首頁 > 網易號 > 正文申請入駐

ICLR 2026 |?越推越快!?首個面向「Test-Time Scaling」的投機解碼基準

2026-03-06 19:22:45　來源: AI科技評論

廣東舉報

分享至

SpecTTS-Bench：首個面向「Test-Time Scaling」的投機解碼基準，收割冗余紅利，越推越快！

本文由來自香港城市大學、華為的多位研究者共同完成。第一作者為來自香港城市大學的博士生孫圣印和來自華為的研究員李一鳴，通信作者為來自香港城市大學的助理教授馬辰。

在推理大模型的應用里，一個樸素但有效的策略正在成為共識：推理階段擴展（Test-Time Scaling, TTS）—— 在推理階段額外分配計算（例如反復思考，多輪推理），往往能顯著提升推理大模型解決復雜問題的正確率與穩健性。但TTS應用于推理大模型的代價也同樣明顯：大量冗余、重復的推理軌跡被生成出來，吞噬了推理時延與算力預算，讓模型的“更聰明”變得“不夠劃算”。

基于此，本文提出了首個面向TTS的投機解碼（Speculative Decoding）加速綜合基準。評測結果顯示，在結構化且重復密集的 TTS 場景里，樸素的N-gram方法更能精準“吃到”重復帶來的紅利，釋放出不容忽視的加速潛力。

論文標題：Scaling Up, Speeding Up: A Benchmark of Speculative Decoding for Efficient LLM Test-Time Scaling

論文地址：

https://arxiv.org/abs/2509.04474

論文代碼：

https://github.com/sunshy-1/SpecTTS-Bench

圖1 TTS的過程中大量冗余和重復的推理軌跡示例。

1. 「疊床架屋」為什么 TTS 會“慢得不劃算”？

隨著大模型能力的持續提升，業界逐漸意識到一個重要現象——即所謂的 Scaling Law 在推理階段同樣成立。簡單來說，只要在推理階段投入更多的計算資源，就能夠在一定程度上換取更強的復雜推理能力。換句話說，即便模型參數規模固定，通過擴大推理時的“思考深度”或“思考廣度”，同樣可能獲得更高質量的輸出。典型方式包括：

? Best-of-N：針對同一個問題，模型生成多條不同的推理路徑或候選答案，然后再通過評分機制或后驗判斷，選出最優方案；

? Multi-round Thinking：讓模型以多輪“想—寫—再想—再寫”的形式進行自我復審和反思，不斷修正先前的推理錯誤或補充遺漏的邏輯。

然而，這種范式并非沒有代價。它的核心問題在于推理效率極低，往往會出現所謂的“疊床架屋式冗余計算”。在多輪或多樣采樣的過程中，模型往往會反復生成類似的分析開頭、重復的中間結論、固定化的檢查步驟，甚至對前文內容進行機械式重述。這些內容雖然表面上增加了推理“長度”，但實際信息增益有限。結果就是，TTS的推理過程不可避免地充斥著大量重復和無效的計算軌跡——算力在自說自話的過程里被浪費掉了。這也帶來了一個頗為尷尬的現實：我們確實找到了提升大模型上限、激發其潛在推理能力的有效路徑，但同時必須付出極高的計算代價與延遲成本。換言之，TTS 在質量與效率之間形成了難以調和的矛盾——它能讓模型“更聰明”，卻讓推理過程“慢得不劃算”。

2. 「以小博大」：投機解碼如何破解“慢思考”困局？

面對TTS帶來的巨大算力消耗，投機解碼提供了一種高效的計算范式，旨在緩解大模型推理過程中的訪存瓶頸。其核心機制在于解耦了“生成”與“驗證”兩個過程：系統首先利用一個參數量較小、推理速度極快的“草稿模型”（Draft Model）預先生成一系列候選 Token，隨后由參數量龐大的“目標模型”（Target Model）以并行計算的方式對這些候選序列進行批量驗證。由于大模型在處理單個 Token 和并行處理多個 Token 時的延遲差異較小，這種“預測-驗證”機制能夠顯著減少目標模型昂貴的串行前向傳播次數，從而在保證輸出分布與目標模型完全一致（即無損加速）的前提下，大幅提升整體推理吞吐量。

在TTS的具體實踐中，無論是通過Best-of-N尋找最優解，還是通過多輪迭代進行自我修正，其計算過程本質上都伴隨著大量的文本重復。例如，在生成多個推理路徑時，不同樣本間往往共享著長段的公共前綴或標準化的思維模板；而在迭代修正過程中，模型又不可避免地需要復述上下文或對既有文本進行微調。這種由采樣策略和迭代機制直接導致的重復性，恰恰是投機解碼能夠利用的最大紅利。內容的高頻重復顯著降低了預測難度，使得草稿模型能夠以極高的命中率通過驗證。因此，TTS 場景下算力擴張所帶來的文本冗余，反而在投機解碼的機制下轉化為加速推理的關鍵杠桿。

圖2 針對高效TTS的投機解碼方法框架。

3. 「SpecTTS-Bench」首個面向 TTS 的投機解碼評測基準

為了系統性地量化投機解碼在TTS推理場景下的效能，本文構建了首個面向 TTS 的投機解碼評測基準。該基準不僅制定了統一且嚴格的實驗協議，更全面覆蓋了當前最具代表性的兩大 TTS 范式：旨在通過廣度搜索尋找最優解的 Best-of-N 采樣，以及通過深度迭代提升推理質量的多輪思考。在投機解碼方法論的維度上，本文涵蓋了多樣化的技術路徑，包含如下四大類：

? 基于模型（Model-based）的方法，即經典的利用同源小模型生成候選序列、再由目標模型驗證的范式；

? 基于訓練（Training-based）的方法，側重于通過特定訓練優化推測器或策略，使其更緊密地貼合目標模型的分布特征；

? 基于 N-gram（N-gram-based）的方法，直接利用文本統計規律中的重復模式進行極低成本的快速預測。

4. 「群雄逐鹿」九種投機解碼方法在兩類主流TTS框架中的統一評測

本基準對九種投機解碼方法在兩類主流 TTS框架中進行了統一評測，涵蓋 Best-of-N（圖3）與多輪思考（圖4）兩大典型場景。實驗選取了DeepSeek-R1-Distill-Llama-8B（DSL-8B）和 Qwen3-8B（QW3-8B）模型，在 AIME24/25、MATH500 及GPQA 等高難度推理基準上對比了各方法的平均接受Token數（MAT）與端到端加速比（Speed）。

評測結果揭示了一個關鍵發現：在結構化且重復密集的 TTS 場景中，能夠利用歷史信息的非訓練N-gram方法展現出驚人的適應性。如圖3所示，在 DSL-8B (T=0) 的貪婪解碼設定下，SAM方法表現尤為亮眼，其在 GPQA 任務上取得了3.57的MAT和3.20×的加速比，整體評測中也保持了平均2.66×的穩健加速。這表明，TTS 推理過程中產生的思維鏈包含大量重復的推理步驟和格式化表達，樸素的N-gram或基于歷史匹配的機制（如SAM）能夠精準利用這些重復模式帶來的紅利。

基于這一洞察，我們進一步驗證了將N-gram機制與基于訓練的投機解碼方法相結合的混合策略。實驗數據顯示，SAM[EAGLE-3]這種混合策略集兩者之長，在各類設定下均實現了性能突破。特別是在圖3的DSL-8B (T=0) 貪婪解碼場景中，SAM[EAGLE-3]在GPQA任務上的MAT達到了驚人的7.00，并在整體評測中實現了最高3.97×的加速比。同樣，在QW3-8B 的多輪思考場景（圖4）中，該混合策略依然保持領先，穩定提供約2.7×至3.5×的加速收益。

圖3 不同投機解碼方法在Best-of-N場景中的性能。

圖4 不同投機解碼方法在多輪思考場景中的性能。

5. 「以簡馭繁」：重塑大模型推理的效率邊界

圖5 Scaling Up, Speeding Up！N-gram投機解碼方法（SAM，PIA，SAM[EAGLE-3]）在TTS中越推越快。(a) Best-of-N（T=0）。(b) Best-of-N（T=0.6）。(c) 多輪思考（T=0.6）。

本基準不僅為TTS場景中的大模型推理提供了標準化的度量衡，更揭示了“重復即紅利”這一關鍵洞察。在追求模型“深思熟慮”的道路上，簡單的 N-gram 機制與混合策略展現出了“四兩撥千斤”的潛力，有效緩解了長思維鏈帶來的推理時延。我們期待這一基準能推動社區進一步挖掘推理結構中的加速潛力，讓“越推越快”成為TTS的新常態。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.