內(nèi)存通脹“終結(jié)者”？谷歌公開最新極限壓縮算法

2026-03-26 14:33:20　來源: 鈦媒體APP

北京舉報(bào)

分享至

破解算力問題，降低模型所需的存算空間，有很多種途徑，是減少訓(xùn)練時算力，還是減少推理時算力？稀疏化、量化、壓縮、蒸餾等手段，都是方法之一。只是當(dāng)前鑒于不同方法的優(yōu)勢特征，各家模型企業(yè)及研究機(jī)構(gòu)都會選擇不同的策略。

以長上下文任務(wù)為例，過去兩年，AI算法團(tuán)隊(duì)曾提出要以鍵值緩存（KV Cache）為中心的分離架構(gòu)設(shè)計(jì)，即根據(jù)不同計(jì)算特性將預(yù)填充服務(wù)器與解碼服務(wù)器分開，在大batch size及隊(duì)列場景下需要更大的系統(tǒng)內(nèi)存帶寬。簡而言之，對于許多推理時任務(wù)來說，瓶頸在于內(nèi)存帶寬。

今日，谷歌發(fā)布了一項(xiàng)名為TurboQuant的算法，這項(xiàng)技術(shù)旨在解決上述提及的問題：大模型運(yùn)行時的內(nèi)存消耗。其核心是讓AI在思考和回答問題時，占用少得多的工作內(nèi)存，同時保持幾乎相同的智力水平，甚至速度更快。

根據(jù)官方描述，TurboQuant的推出預(yù)計(jì)會帶來多項(xiàng)利好：模型推理方面，百萬Token上下文成本會明顯下降；向量數(shù)據(jù)庫領(lǐng)域，更容易做到實(shí)時索引和亞毫秒查詢；邊緣AI領(lǐng)域，手機(jī)和嵌入式設(shè)備的上下文推理更現(xiàn)實(shí)。此外，該思路同樣可擴(kuò)展到多模態(tài)領(lǐng)域的向量壓縮。

事實(shí)上，就在該技術(shù)發(fā)布當(dāng)日，美股存儲板塊如美光科技、閃迪等應(yīng)聲下跌。近年來，內(nèi)存(RAM)、固態(tài)硬盤(SSD)、硬盤驅(qū)動器(HDD)等存儲產(chǎn)品受下游數(shù)據(jù)中心建設(shè)擴(kuò)張需求的激增，出現(xiàn)了一段時間的供應(yīng)短缺及價格推高。該市場反應(yīng)可以理解為，TurboQuant一旦廣泛應(yīng)用，或?qū)@著影響未來對AI推理服務(wù)器中內(nèi)存容量規(guī)格的需求判斷，重塑相關(guān)硬件的成本曲線。

要理解TurboQuant的價值，首先要明白大模型在生成文本時是如何工作的。它們并非一次性處理所有信息，而是像人類閱讀一樣，一個字一個字地生成。在這個過程中，模型需要一個“臨時記事本”來記住之前所有對話的內(nèi)容，以免重復(fù)計(jì)算。這個“記事本”在技術(shù)上被稱為鍵值緩存（KV Cache）。但問題在于，對話越長，這個“記事本”就越厚，占用的內(nèi)存就越多。以長文本為例，在處理超長文檔或復(fù)雜多輪對話時，KV Cache會迅速撐滿昂貴的高性能內(nèi)存，成為制約AI處理速度、推高運(yùn)行成本的主要瓶頸。

TurboQuant運(yùn)用了兩個結(jié)算的核心算法：PolarQuant主壓縮和QJL（量化Johnson-Lindenstrauss變換）殘差校正，目標(biāo)是壓縮KV Cache中的向量。

第一步：PolarQuant——高質(zhì)量壓縮

傳統(tǒng)量化方法類似于用直角坐標(biāo)系（東、北方向）記錄一個點(diǎn)的位置。TurboQuant的第一步，是PolarQuant，改用極坐標(biāo)（角度和距離）來描述。研究發(fā)現(xiàn)，經(jīng)過特定的數(shù)學(xué)變換（隨機(jī)旋轉(zhuǎn)）后，高維向量的數(shù)值分布會變得非常規(guī)律和集中，就像一個固定的圓形網(wǎng)格。這樣一來，系統(tǒng)可以預(yù)先計(jì)算好一套最優(yōu)的壓縮碼本，無需針對每次對話進(jìn)行復(fù)雜的校準(zhǔn)，實(shí)現(xiàn)了在線實(shí)時壓縮。這一步用大部分比特對數(shù)據(jù)主體進(jìn)行了高質(zhì)量壓縮。

第二步：QJL——消除隱藏誤差

第一步壓縮后，會殘留微小的誤差。如果放任不管，在AI計(jì)算注意力（即決定關(guān)注對話中哪部分內(nèi)容）時，這些誤差會累積并導(dǎo)致結(jié)果出現(xiàn)偏差。TurboQuant的第二步創(chuàng)新在于，它用一個名為QJL的方法來處理這些殘差。QJL的特點(diǎn)在于，它僅用1個比特（即一個正負(fù)號）來表征殘差，并與高精度的原始查詢向量結(jié)合，最終能實(shí)現(xiàn)無偏的內(nèi)積估計(jì)。這意味著，盡管數(shù)據(jù)被大幅壓縮，但AI在計(jì)算“哪些信息更重要”時，得到的結(jié)果依然是準(zhǔn)確無誤的。

什么是QJL？簡單說，就是一種把高維向量“投影”到低維空間的方法，且能以數(shù)學(xué)證明保證距離關(guān)系不被破壞太多。QJL把這個投影結(jié)果進(jìn)一步壓縮到1比特，體積極小，但仍能作為無偏估計(jì)器。

根據(jù)谷歌官方博客闡述，TurboQuant帶來了接近理論極限的性能提升：

極致壓縮：可以將KV Cache壓縮到每通道僅3比特，相比傳統(tǒng)的16或32比特存儲，減少了至少6倍的內(nèi)存占用。在長上下文測試中，即使壓縮后，模型依然能找到隱藏的信息，表現(xiàn)滿分。
精度無損：在多個標(biāo)準(zhǔn)長上下文基準(zhǔn)測試（如LongBench、Needle in a Haystack）上，使用3.5比特配置的TurboQuant，模型性能與使用全精度緩存時完全一致，2.5比特配置下也只有輕微的性能下降。
速度提升：由于需要從內(nèi)存中讀取的數(shù)據(jù)量銳減，計(jì)算速度得到極大提升。在H100 GPU上，4比特TurboQuant的注意力核心步驟的速度，比未壓縮的32比特版本快8倍。

TurboQuant能夠以極低的內(nèi)存占用、近乎零預(yù)處理時間和最先進(jìn)的精度構(gòu)建和查詢大型向量索引。這使得谷歌規(guī)模的語義搜索速度更快、效率更高。當(dāng)然，TurboQuant的意義遠(yuǎn)不止于一項(xiàng)實(shí)驗(yàn)室突破。據(jù)博客所述，向量量化雖然目前主要解決的是Gemini等模型中的KV-cash瓶頸，但該技術(shù)同樣適用于需要在高維向量數(shù)據(jù)庫中進(jìn)行海量搜索的場景（如現(xiàn)代語義搜索引擎）。

相關(guān)論文將在ICLR 2026和AISTATS 2026發(fā)表。

相關(guān)鏈接：https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

相關(guān)論文鏈接：https://arxiv.org/pdf/2502.02617

（本文作者 | 楊麗，編輯 | 楊林）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.