夢(mèng)晨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI
學(xué)術(shù)會(huì)議ICLR,居然和美光和西部數(shù)據(jù)大跌扯上關(guān)系了?
兩家存儲(chǔ)芯片巨頭股價(jià)大跌,沒有財(cái)報(bào)暴雷,沒有供應(yīng)鏈斷裂,只是谷歌展示了一篇即將在ICLR 2026正式亮相的論文。
![]()
谷歌研究院推出TurboQuant壓縮算法,把AI推理過程中最吃內(nèi)存的KV cache壓縮至少6倍,精度零損失
市場(chǎng)的解讀簡單粗暴,長上下文AI推理以后不需要那么多內(nèi)存了,利空內(nèi)存。
![]()
網(wǎng)友紛紛表示,這不就是美劇《硅谷》里的Pied Paper?
![]()
Pied Piper是2014年開播的HBO經(jīng)典美劇《硅谷》里的虛構(gòu)創(chuàng)業(yè)公司,核心技術(shù)就是一種“近乎無損的極限壓縮算法”。
2026年,類似的算法在現(xiàn)實(shí)世界居然成真了。
KVCache量化到3 bit
要理解TurboQuant為什么重要,先得理解它解決的是什么問題。
AI大模型推理時(shí)處理過的信息會(huì)臨時(shí)存在KV Cache,方便后續(xù)快速調(diào)用,不用每次從頭算起。
問題是隨著上下文窗口越來越長,內(nèi)存消耗急劇膨脹。KV cache正在成為AI推理的核心瓶頸之一。
![]()
傳統(tǒng)的解決思路是向量量化,把高精度數(shù)據(jù)壓成低精度表示。
但尷尬的是,大部分量化方法本身也需要存儲(chǔ)額外的“量化常數(shù)”,每個(gè)數(shù)字要多占1到2個(gè)bit。
TurboQuant用兩個(gè)改動(dòng)把這個(gè)額外開銷干到了零。
PolarQuant(極坐標(biāo)量化):
不用傳統(tǒng)的X、Y、Z坐標(biāo)描述數(shù)據(jù),轉(zhuǎn)而用極坐標(biāo)”距離+角度”。
谷歌團(tuán)隊(duì)發(fā)現(xiàn),轉(zhuǎn)換后角度的分布非常集中且可預(yù)測(cè),根本不需要額外存儲(chǔ)歸一化常數(shù)。
就像把“往東走3個(gè)路口,往北走4個(gè)路口”壓縮成”朝37度方向走5個(gè)路口”。
信息量不變,描述更緊湊,還省掉了坐標(biāo)系本身的開銷。
![]()
QJL(量化JL變換):
把高維數(shù)據(jù)投影后壓縮成+1或-1的符號(hào)位,完全不需要額外內(nèi)存。TurboQuant用它來消除PolarQuant壓縮后殘留的微小誤差。
![]()
兩者組合后PolarQuant先用大部分bit容量捕捉數(shù)據(jù)的主要信息,QJL再用1個(gè)bit做殘差修正。
最終實(shí)現(xiàn)3-bit量化,無需任何訓(xùn)練或微調(diào),精度零損失。
8倍加速,Benchmark全線拉滿
谷歌團(tuán)隊(duì)在Gemma和Mistral等開源模型上,跑了主流長上下文基準(zhǔn)測(cè)試,覆蓋問答、代碼生成、摘要等多種任務(wù)。
在“大海撈針”任務(wù)上,TurboQuant在所有測(cè)試中拿下完美分?jǐn)?shù),同時(shí)KV cache內(nèi)存占用縮小了至少6倍。
PolarQuant單獨(dú)使用,精度也幾乎無損。
![]()
速度提升同樣顯著。在英偉達(dá)H100 GPU上,4-bit TurboQuant計(jì)算注意力分?jǐn)?shù)的速度,比32-bit未量化版本快了8倍。
不只是省內(nèi)存,還更快了。
在向量搜索領(lǐng)域,TurboQuant同樣超越了現(xiàn)有最優(yōu)量化方法的召回率,而且不需要針對(duì)具體數(shù)據(jù)集做調(diào)優(yōu),也不依賴低效的大碼本。
![]()
AI內(nèi)存的DeepSeek時(shí)刻?
Cloudflare CEO評(píng)價(jià)“這是谷歌的DeepSeek時(shí)刻”。
他認(rèn)為DeepSeek證明了用更少的資源也能訓(xùn)出頂尖模型。
TurboQuant的方向類似,用更少的內(nèi)存,也能跑同樣質(zhì)量的推理。
![]()
谷歌表示,TurboQuant除了可以用在Gemini等大模型上,同時(shí)還能大幅提升語義搜索的效率,讓谷歌級(jí)別的萬億級(jí)向量索引查詢更快、成本更低。
不過TurboQuant目前還只是一個(gè)實(shí)驗(yàn)室成果,尚未大規(guī)模部署。
更關(guān)鍵的是,它只解決推理階段的內(nèi)存問題。而AI訓(xùn)練環(huán)節(jié)完全不受影響。
論文地址:
https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
[1]https://x.com/eastdakota/status/2036827179150168182?s=20
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.