337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

全球最強推理引擎還快2倍,斯坦福、普林斯頓破解大模型串行魔咒

0
分享至

機器之心編輯部


在大語言模型推理領域,雖然「推測解碼」(Speculative Decoding,SD)已成為加速生成的標準配置,但它依然存在一個致命弱點: drafting(草擬)和 verification(驗證)之間必須串行進行。

近日,來自斯坦福、普林斯頓大學和 Together AI 的研究團隊提出SSD 框架及其優化算法 SAGUARO,成功實現了草擬和驗證的并行化。



  • 論文鏈接:https://arxiv.org/pdf/2603.03251
  • GitHub 鏈接:https://github.com/tanishqkumar/ssd

據介紹,該算法推理速度比世界上最強大的推理引擎都快 2 倍。



「推測性推測解碼」(Speculative Speculative Decoding,簡稱 SSD),是一種新型的推測性解碼 (SD)。在傳統的 SD 中,一個小且快速的模型會先猜測大且慢的模型可能生成的下幾個 token,然后大模型通過一次前向傳播驗證這些猜測,草擬和驗證是依次進行的。

而在 SSD 中,這兩個過程是并行發生的,完全消除了運行小模型的開銷。



并行執行草擬和驗證是很棘手的,因為你無法在某事物存在之前對其進行驗證,也無法推測你不知道的前綴之外的內容。在 SSD 中,研究者預先設定驗證結果,并在獨立硬件上進行驗證的同時進行推測。這樣一來,如果其中一種驗證結果出現,推測就能立即生效。

雖然論文對算法進行了詳盡的理論描述,但在實踐中,研究者大部分時間都花在如何讓它與現代推理引擎中各種優化技術(Paged Attention、Prefix Caching、CUDAGraphs 等)協同工作上。

作者 Tanishq Kumar 表示,「真的,我花在了解 CPU/GPU 同步問題上的時間遠遠超過了我的預期」。



要使新算法達到 SOTA 水平,需要精心設計系統和算法。總的來說,SSD 推動了延遲 - 吞吐量帕累托前沿的發展,其方式與普通推測解碼推進標準自回歸算法的發展非常相似。



Tanishq Kumar 稱:「我對快速推理感到興奮,因為我非常關注的一個人工智能工作負載是超長時域推理。想象一下,一個擁有大量 B200 的數據中心完全用于運行一個模型,該模型需要處理數十億個 token 來證明 P 與 NP 的區別。在這種情況下,延遲減半就意味著可以進行雙倍深度的思考!」



SSD 如何實現草擬與驗證并行?

現代 AI 對推理速度有著極高的要求。然而,標準的語言模型解碼是按順序生成單個 token,未能利用現代硬件上可用的大規模并行計算。

推測性解碼(SD)是一種為了解決這個問題而引入的技術。它使用一個快速的「草擬模型」來預測目標模型可能將生成的下幾個 token,而不是從目標模型中進行緩慢的自回歸采樣,然后通過目標模型的并行前向傳播驗證這些 token。這一驗證是按照一個算法進行的,確保生成的 token 是從目標模型的分布中采樣的。

在每次驗證中,目標模型決定接受多少個推測的 token,并采樣一個額外的獎勵 token,該 token 跟隨所有已接受的 token。盡管推測性解碼有效,但它本身仍受限于串行依賴:必須等待當前驗證完成后,才能開始下一輪推測。

那么,我們能否消除草擬和驗證之間的順序依賴呢?

研究者引入推測性推測解碼(SSD),這是一個旨在并行化草擬和驗證的統一框架。

在 SD 中,草擬模型必須等待驗證完成,才能開始推測下一輪,而在 SSD 中,草擬模型會預測最可能的驗證結果,并在驗證進行的同時,針對所有可能的結果進行并行的提前推測。如果這些預準備的結果中的任何一個發生,草擬模型可以立即將預推測的 token 發送給驗證器,從而避免草擬階段的開銷。與普通的推測性解碼一樣,SSD 也是無損的。不同之處在于,SSD 的草擬模型部署在與目標模型不同的硬件上。

優化 SSD 算法主要面臨三大挑戰。

首先,草擬模型必須準確預測驗證結果,這不僅包括接受了多少個推測的 Token,還包括采樣的獎勵 token。其次,推測器的接受率與其預測驗證結果的能力之間存在微妙的權衡,必須謹慎處理以最大化加速比。此外,任何 SSD 算法都必須具備處理預測失敗的回退策略,因為在大批處理量和高隨機性(Temperature)下,預測失敗會頻繁發生,若處理不當,即時補救的開銷將抵消異步帶來的收益。

為此,他們推出了Saguaro,這是一個優化的 SSD 算法,針對上述挑戰進行了定向優化。

  • 將預測驗證結果的問題轉化為約束優化問題,并引入了一種技術,利用最可能的草擬 logits 來預測獎勵 token,準確率最高可達 90%。
  • 識別了預測準確性與生成高質量推測之間的張力,并開發了一種能夠平衡二者的采樣算法。
  • 探討了處理預測失敗的多種策略,發現最優回退策略隨批處理大小而異。通過采用這些優化,盡管 Saguaro 在處理每個批次元素時進行了更多計算(同時解碼多種可能的結果),其表現仍比標準 SD 高出 20%。

總的來看,Saguaro 相比優化的推測性解碼實現了高達 2 倍的加速,相比自回歸生成實現了高達 5 倍的加速,并在各種批處理規模下均顯著提升了吞吐量與延遲的帕累托前沿。

不過,該領域仍有許多值得探索的方向。SSD 可以自然地與 EAGLE 技術以及token-tree推測(Token-tree speculation)相結合,但這種聯合設計及其權衡空間在很大程度上尚未被發掘。

此外,通過擴展草擬設備的數量以及推測緩存,延遲可以進一步減少,盡管回報最終會遞減。最后,在集群層面跨多個目標模型部署共享推測端點——類似于預填充-解碼分解)——是另一個自然的研究方向。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
4月1日醫保新規落地!中老年人看病5步走,少說一句多花幾百元

4月1日醫保新規落地!中老年人看病5步走,少說一句多花幾百元

復轉這些年
2026-03-31 19:50:14
CBA正式恢復升降級!倒數后四名或被淘汰,中國籃協終于出手了

CBA正式恢復升降級!倒數后四名或被淘汰,中國籃協終于出手了

老葉評球
2026-03-31 21:34:15
突發!科技大廠大裁員,30000人一夜失業

突發!科技大廠大裁員,30000人一夜失業

智東西
2026-04-01 14:49:51
特朗普批評法國“不合作”:美國會記住的

特朗普批評法國“不合作”:美國會記住的

一種觀點
2026-04-01 20:37:03
特朗普剛表態認輸,不到24小時,美債遭遇大規模拋售,美國失算了

特朗普剛表態認輸,不到24小時,美債遭遇大規模拋售,美國失算了

霽寒飄雪
2026-04-01 11:39:40
波蘭媒體:波蘭近10年來首次無緣大賽,萊萬退役后或淪為二流球隊

波蘭媒體:波蘭近10年來首次無緣大賽,萊萬退役后或淪為二流球隊

懂球帝
2026-04-01 20:01:27
新華社消息|中國和巴基斯坦提出關于恢復海灣和中東地區和平穩定的五點倡議

新華社消息|中國和巴基斯坦提出關于恢復海灣和中東地區和平穩定的五點倡議

新華社
2026-03-31 21:51:33
上市即暴跌的銅師傅沒有穩住資本信心

上市即暴跌的銅師傅沒有穩住資本信心

界面新聞
2026-04-01 18:14:23
靜安新城,終于跌到大家不愿自我安慰了

靜安新城,終于跌到大家不愿自我安慰了

靚仔情感
2026-04-01 12:22:16
唏噓 27歲世界最貴門神至今未踢過世界杯 身價4500萬卻無緣美加墨

唏噓 27歲世界最貴門神至今未踢過世界杯 身價4500萬卻無緣美加墨

我愛英超
2026-04-01 06:16:08
0+0+0!斷崖式下滑!火箭最失敗簽約誕生

0+0+0!斷崖式下滑!火箭最失敗簽約誕生

籃球實戰寶典
2026-04-01 15:45:23
內塔尼亞胡:中俄朝再怎么反美,也沒像伊朗那樣喊“美國去死”!

內塔尼亞胡:中俄朝再怎么反美,也沒像伊朗那樣喊“美國去死”!

阿龍聊軍事
2026-03-31 19:31:00
網傳王石被限制出境,好戲開始了?

網傳王石被限制出境,好戲開始了?

麥杰遜
2026-04-01 11:52:50
金平日:與金正日爭權失敗,駐外30年躲過暗殺,因這件事允許回國

金平日:與金正日爭權失敗,駐外30年躲過暗殺,因這件事允許回國

阿胡
2025-04-03 13:59:42
經中加雙方商定,加拿大財政部部長、中加經濟財金戰略對話加方聯合牽頭人商鵬飛將于4月1日至4月4日訪華

經中加雙方商定,加拿大財政部部長、中加經濟財金戰略對話加方聯合牽頭人商鵬飛將于4月1日至4月4日訪華

瀟湘晨報
2026-04-01 16:52:11
百歲張震將軍與家人溫馨合影,痛失兒子后六十三天安詳辭世

百歲張震將軍與家人溫馨合影,痛失兒子后六十三天安詳辭世

歷史龍元閣
2026-04-01 12:10:12
弘一法師:不急不鬧,安心等待——老天給你的,比你想要的更周到

弘一法師:不急不鬧,安心等待——老天給你的,比你想要的更周到

杏花煙雨江南的碧園
2026-04-01 16:15:03
江宏杰回應前妻福原愛再婚懷孕:我是知道的,但就是祝福

江宏杰回應前妻福原愛再婚懷孕:我是知道的,但就是祝福

懂球帝
2026-03-31 22:59:01
掘金鎖定季后賽:連續8季晉級聯盟現存第二長 僅輸綠軍連續12季

掘金鎖定季后賽:連續8季晉級聯盟現存第二長 僅輸綠軍連續12季

醉臥浮生
2026-04-01 11:02:56
58歲硬擠S碼衣服撐變形,秦昊滿頭白發還緊牽她!

58歲硬擠S碼衣服撐變形,秦昊滿頭白發還緊牽她!

小娛樂悠悠
2026-03-31 10:31:54
2026-04-01 21:23:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12657文章數 142602關注度
往期回顧 全部

科技要聞

甲骨文血洗3萬人,47人團隊僅留3人

頭條要聞

張雪妻子:從同學到夫妻 丈夫為了家哭著去工廠上班

頭條要聞

張雪妻子:從同學到夫妻 丈夫為了家哭著去工廠上班

體育要聞

NBA擴軍,和籃球無關?

娛樂要聞

宋寧峰人設崩塌!帶娃偷情+反向索賠

財經要聞

電商售械三水光針 機構倒貨or假貨猖獗?

汽車要聞

三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

態度原創

藝術
教育
親子
公開課
軍事航空

藝術要聞

Alexandra Manukyan油畫選刊(二)

教育要聞

蘭大刷掉401分錄用318分,復試內容曝光,4個細節注定高分翻車!

親子要聞

自從知道出扶梯要抬腳之后,娃子早早就做好了準備

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

視頻:以空襲黎巴嫩 大樓被炸成廢墟

無障礙瀏覽 進入關懷版