337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

ICLR 2026 |?越推越快!?首個面向「Test-Time Scaling」的投機解碼基準

0
分享至


SpecTTS-Bench:首個面向「Test-Time Scaling」的投機解碼基準,收割冗余紅利,越推越快!

本文由來自香港城市大學、華為的多位研究者共同完成。第一作者為來自香港城市大學的博士生孫圣印和來自華為的研究員李一鳴,通信作者為來自香港城市大學的助理教授馬辰。

在推理大模型的應用里,一個樸素但有效的策略正在成為共識:推理階段擴展(Test-Time Scaling, TTS)—— 在推理階段額外分配計算(例如反復思考,多輪推理),往往能顯著提升推理大模型解決復雜問題的正確率與穩健性。但TTS應用于推理大模型的代價也同樣明顯:大量冗余、重復的推理軌跡被生成出來,吞噬了推理時延與算力預算,讓模型的“更聰明”變得“不夠劃算”。

基于此,本文提出了首個面向TTS的投機解碼(Speculative Decoding)加速綜合基準。評測結果顯示,在結構化且重復密集的 TTS 場景里,樸素的N-gram方法更能精準“吃到”重復帶來的紅利,釋放出不容忽視的加速潛力。

論文標題:Scaling Up, Speeding Up: A Benchmark of Speculative Decoding for Efficient LLM Test-Time Scaling


論文地址:
https://arxiv.org/abs/2509.04474

論文代碼:
https://github.com/sunshy-1/SpecTTS-Bench


圖1 TTS的過程中大量冗余和重復的推理軌跡示例。

1. 「疊床架屋」為什么 TTS 會“慢得不劃算”?

隨著大模型能力的持續提升,業界逐漸意識到一個重要現象——即所謂的 Scaling Law 在推理階段同樣成立。簡單來說,只要在推理階段投入更多的計算資源,就能夠在一定程度上換取更強的復雜推理能力。換句話說,即便模型參數規模固定,通過擴大推理時的“思考深度”或“思考廣度”,同樣可能獲得更高質量的輸出。典型方式包括:

? Best-of-N:針對同一個問題,模型生成多條不同的推理路徑或候選答案,然后再通過評分機制或后驗判斷,選出最優方案;

? Multi-round Thinking:讓模型以多輪“想—寫—再想—再寫”的形式進行自我復審和反思,不斷修正先前的推理錯誤或補充遺漏的邏輯。

然而,這種范式并非沒有代價。它的核心問題在于推理效率極低,往往會出現所謂的“疊床架屋式冗余計算”。在多輪或多樣采樣的過程中,模型往往會反復生成類似的分析開頭、重復的中間結論、固定化的檢查步驟,甚至對前文內容進行機械式重述。這些內容雖然表面上增加了推理“長度”,但實際信息增益有限。結果就是,TTS的推理過程不可避免地充斥著大量重復和無效的計算軌跡——算力在自說自話的過程里被浪費掉了。這也帶來了一個頗為尷尬的現實:我們確實找到了提升大模型上限、激發其潛在推理能力的有效路徑,但同時必須付出極高的計算代價與延遲成本。換言之,TTS 在質量與效率之間形成了難以調和的矛盾——它能讓模型“更聰明”,卻讓推理過程“慢得不劃算”。

2. 「以小博大」:投機解碼如何破解“慢思考”困局?

面對TTS帶來的巨大算力消耗,投機解碼提供了一種高效的計算范式,旨在緩解大模型推理過程中的訪存瓶頸。其核心機制在于解耦了“生成”與“驗證”兩個過程:系統首先利用一個參數量較小、推理速度極快的“草稿模型”(Draft Model)預先生成一系列候選 Token,隨后由參數量龐大的“目標模型”(Target Model)以并行計算的方式對這些候選序列進行批量驗證。由于大模型在處理單個 Token 和并行處理多個 Token 時的延遲差異較小,這種“預測-驗證”機制能夠顯著減少目標模型昂貴的串行前向傳播次數,從而在保證輸出分布與目標模型完全一致(即無損加速)的前提下,大幅提升整體推理吞吐量。

在TTS的具體實踐中,無論是通過Best-of-N尋找最優解,還是通過多輪迭代進行自我修正,其計算過程本質上都伴隨著大量的文本重復。例如,在生成多個推理路徑時,不同樣本間往往共享著長段的公共前綴或標準化的思維模板;而在迭代修正過程中,模型又不可避免地需要復述上下文或對既有文本進行微調。這種由采樣策略和迭代機制直接導致的重復性,恰恰是投機解碼能夠利用的最大紅利。內容的高頻重復顯著降低了預測難度,使得草稿模型能夠以極高的命中率通過驗證。因此,TTS 場景下算力擴張所帶來的文本冗余,反而在投機解碼的機制下轉化為加速推理的關鍵杠桿。


圖2 針對高效TTS的投機解碼方法框架。

3. 「SpecTTS-Bench」首個面向 TTS 的投機解碼評測基準

為了系統性地量化投機解碼在TTS推理場景下的效能,本文構建了首個面向 TTS 的投機解碼評測基準。該基準不僅制定了統一且嚴格的實驗協議,更全面覆蓋了當前最具代表性的兩大 TTS 范式:旨在通過廣度搜索尋找最優解的 Best-of-N 采樣,以及通過深度迭代提升推理質量的多輪思考。在投機解碼方法論的維度上,本文涵蓋了多樣化的技術路徑,包含如下四大類:

? 基于模型(Model-based)的方法,即經典的利用同源小模型生成候選序列、再由目標模型驗證的范式;

? 基于訓練(Training-based)的方法,側重于通過特定訓練優化推測器或策略,使其更緊密地貼合目標模型的分布特征;

? 基于 N-gram(N-gram-based)的方法,直接利用文本統計規律中的重復模式進行極低成本的快速預測。

4. 「群雄逐鹿」九種投機解碼方法在兩類主流TTS框架中的統一評測

本基準對九種投機解碼方法在兩類主流 TTS框架中進行了統一評測,涵蓋 Best-of-N(圖3)與多輪思考(圖4)兩大典型場景。實驗選取了DeepSeek-R1-Distill-Llama-8B(DSL-8B)和 Qwen3-8B(QW3-8B)模型,在 AIME24/25、MATH500 及GPQA 等高難度推理基準上對比了各方法的平均接受Token數(MAT)與端到端加速比(Speed)。

評測結果揭示了一個關鍵發現:在結構化且重復密集的 TTS 場景中,能夠利用歷史信息的非訓練N-gram方法展現出驚人的適應性。如圖3所示,在 DSL-8B (T=0) 的貪婪解碼設定下,SAM方法表現尤為亮眼,其在 GPQA 任務上取得了3.57的MAT和3.20×的加速比,整體評測中也保持了平均2.66×的穩健加速。這表明,TTS 推理過程中產生的思維鏈包含大量重復的推理步驟和格式化表達,樸素的N-gram或基于歷史匹配的機制(如SAM)能夠精準利用這些重復模式帶來的紅利。

基于這一洞察,我們進一步驗證了將N-gram機制與基于訓練的投機解碼方法相結合的混合策略。實驗數據顯示,SAM[EAGLE-3]這種混合策略集兩者之長,在各類設定下均實現了性能突破。特別是在圖3的DSL-8B (T=0) 貪婪解碼場景中,SAM[EAGLE-3]在GPQA任務上的MAT達到了驚人的7.00,并在整體評測中實現了最高3.97×的加速比。同樣,在QW3-8B 的多輪思考場景(圖4)中,該混合策略依然保持領先,穩定提供約2.7×至3.5×的加速收益。


圖3 不同投機解碼方法在Best-of-N場景中的性能。


圖4 不同投機解碼方法在多輪思考場景中的性能。

5. 「以簡馭繁」:重塑大模型推理的效率邊界


圖5 Scaling Up, Speeding Up!N-gram投機解碼方法(SAM,PIA,SAM[EAGLE-3])在TTS中越推越快。(a) Best-of-N(T=0)。(b) Best-of-N(T=0.6)。(c) 多輪思考(T=0.6)。

本基準不僅為TTS場景中的大模型推理提供了標準化的度量衡,更揭示了“重復即紅利”這一關鍵洞察。在追求模型“深思熟慮”的道路上,簡單的 N-gram 機制與混合策略展現出了“四兩撥千斤”的潛力,有效緩解了長思維鏈帶來的推理時延。我們期待這一基準能推動社區進一步挖掘推理結構中的加速潛力,讓“越推越快”成為TTS的新常態。

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
陵水縣一輛觀光車發生事故,應急局工作人員:導致2死5傷

陵水縣一輛觀光車發生事故,應急局工作人員:導致2死5傷

極目新聞
2026-03-21 10:48:57
上海德云社開業首日,楊議老毛病又犯,郭麒麟選擇明智

上海德云社開業首日,楊議老毛病又犯,郭麒麟選擇明智

老屬科普
2026-03-21 20:36:16
丟人!超微創始人走私25億英偉達GPU,美股直接嚇崩12%

丟人!超微創始人走私25億英偉達GPU,美股直接嚇崩12%

老馬拉車莫少裝
2026-03-21 13:57:44
美日簽完字,高市離開鴻門宴,登機前已通告中方,特朗普笑里藏刀

美日簽完字,高市離開鴻門宴,登機前已通告中方,特朗普笑里藏刀

花顏蘊韻
2026-03-21 22:00:58
馬化騰深夜發朋友圈,大佬集體瘋狂?

馬化騰深夜發朋友圈,大佬集體瘋狂?

中國新聞周刊
2026-03-20 07:29:04
金價真的一夜變天了!3月21日最新報價,全國金價竟然差這么多?

金價真的一夜變天了!3月21日最新報價,全國金價竟然差這么多?

次元君情感
2026-03-21 14:19:47
越南教科書:廣東,廣西是越南故土,至今未收復,兩千年抗北歷史

越南教科書:廣東,廣西是越南故土,至今未收復,兩千年抗北歷史

長風文史
2026-03-19 20:48:02
98歲祖母離世!多年不來往的娘家來了十幾個人,網友:娘死等舅來

98歲祖母離世!多年不來往的娘家來了十幾個人,網友:娘死等舅來

火山詩話
2026-03-21 10:20:37
“梅姨”照片流出!其同居男友爆料兩人相處細節,曾計劃與她結婚

“梅姨”照片流出!其同居男友爆料兩人相處細節,曾計劃與她結婚

火山詩話
2026-03-21 20:34:04
22:00啟動暴跌,世界在交易最壞情況

22:00啟動暴跌,世界在交易最壞情況

新浪財經
2026-03-21 06:31:47
突然暴跌!黃金創下1983年以來最大單周跌幅!90后男子買多根金條

突然暴跌!黃金創下1983年以來最大單周跌幅!90后男子買多根金條

新浪財經
2026-03-21 15:16:11
曝“成吉思汗”扮演者巴森移民蒙古!妻子發文回應,已被授予博士

曝“成吉思汗”扮演者巴森移民蒙古!妻子發文回應,已被授予博士

裕豐娛間說
2026-03-21 15:27:34
馬筱梅給兒子開號!正式帶兒子賺錢,旅行點曝光,張蘭提防是對的

馬筱梅給兒子開號!正式帶兒子賺錢,旅行點曝光,張蘭提防是對的

潮鹿逐夢
2026-03-21 13:50:32
拒演?活該!他瞧不上的“男3號”被鄧凱演成了全劇王炸

拒演?活該!他瞧不上的“男3號”被鄧凱演成了全劇王炸

東方不敗然多多
2026-03-21 19:07:50
爽,公司全員裁撤,就地解散!

爽,公司全員裁撤,就地解散!

黯泉
2026-03-21 12:20:16
駱家輝警告中國,最好不要自主生產尖端芯片,這不是美國想看到的

駱家輝警告中國,最好不要自主生產尖端芯片,這不是美國想看到的

離離言幾許
2026-03-21 20:10:48
維密內衣拿下單依純!網友:太頂了!

維密內衣拿下單依純!網友:太頂了!

品牌營銷報
2026-03-21 16:49:03
上將被查、院士被除名,這背后釋放的信號,比你想的更不簡單

上將被查、院士被除名,這背后釋放的信號,比你想的更不簡單

李昕言溫度空間
2026-03-19 22:56:18
路虎車主被抓!奔馳男信息卻被泄露,人民日報社發聲,律師都急了

路虎車主被抓!奔馳男信息卻被泄露,人民日報社發聲,律師都急了

大魚簡科
2026-03-20 19:28:29
黃景瑜新戀情實錘?素人女友同回豪宅,穩定交往近一年沉默不否認

黃景瑜新戀情實錘?素人女友同回豪宅,穩定交往近一年沉默不否認

夢仙境
2026-03-21 11:03:26
2026-03-22 00:03:00
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7134文章數 20742關注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機器人出貨量第一!

頭條要聞

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

頭條要聞

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

體育要聞

誰在決定字母哥未來?

娛樂要聞

田栩寧終于涼了?出軌風波影響惡劣

財經要聞

通脹警報拉響,加息潮要來了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態度原創

數碼
游戲
本地
親子
公開課

數碼要聞

炸鍋!國產存儲芯片再突破!手機固態價格大跳水,內存自由要來了

《戰艦世界》15.2版本隨機禮包上線,能放空襲的10級潛艇來了!

本地新聞

春色滿城關不住|紹興春日頂流,這片櫻花海藏不住了

親子要聞

寶媽必學,讓孩子警惕這種視覺和言語侵犯!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版