337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌沖破內(nèi)存墻!新算法內(nèi)存占用暴砍83%,速度提升8倍!

0
分享至


智東西
編譯 劉煜
編輯 陳駿達

智東西3月26日報道,昨天,谷歌于發(fā)布了一款針對大語言模型鍵值緩存(KV Cache)的無損極限壓縮算法TurboQuant,它能夠從根本上解決向量量化中內(nèi)存開銷問題。谷歌稱,TurboQuant可將大語言模型鍵值緩存內(nèi)存占用至少降至原來的1/6,推理速度最高提升8倍,同時保持100%精確程度。

Cloudflare的聯(lián)合創(chuàng)始人、CEO兼執(zhí)行主席Matthew Prince稱,谷歌推出TurboQuant堪稱“谷歌的DeepSeek時刻”。


▲Matthew Prince的推文(圖源:X)

向量量化一直是企業(yè)為AI數(shù)據(jù) “瘦身” 的主流技術(shù),主要用于壓縮高維向量、節(jié)省內(nèi)存、提升檢索與推理效率。但傳統(tǒng)壓縮方法通常會引入額外的內(nèi)存開銷(每一小塊數(shù)據(jù)都要單獨算、單獨存一套完整的“壓縮參數(shù)”),這些參數(shù)很占內(nèi)存,每個數(shù)字都要多占1-2 bit,這樣反而會影響向量量化的效果。

谷歌稱,此次推出的TurboQuant借助了谷歌提出的1 bit無偏誤差校正算法QJL極坐標(biāo)量化壓縮技術(shù)PolarQuant,實現(xiàn)了壓縮算法的突破。

谷歌官宣推出TurboQuant后,引發(fā)資本市場短期內(nèi)對該技術(shù)會降低存儲芯片采購需求的擔(dān)憂,導(dǎo)致存儲芯片板塊集體回調(diào)。

當(dāng)天美股盤中,美光股票跌幅超過5%,收盤時下跌3.4%,市值蒸發(fā)約151.6億美元(約合人民幣1047.37億元)。閃迪股票下跌幅度更大,一度超過7%,收盤時下跌3.5%,市值蒸發(fā)約36.44億美元(約合人民幣251.75億元)。韓股收盤時,SK海力士股價下跌了6.23%。


▲美光、閃迪股價圖(圖源:騰訊自選股)SK海力士股價圖(圖源:Investing)

博客鏈接:

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

一、TurboQuant的工作原理:高質(zhì)量壓縮與誤差修正

TurboQuant能夠在零精度損失下實現(xiàn)模型尺寸的大幅縮小,非常適合支持鍵值緩存壓縮和向量搜索。它主要通過兩個關(guān)鍵步驟實現(xiàn)這一目標(biāo)。

TurboQuant首先對數(shù)據(jù)向量進行隨機旋轉(zhuǎn)變換,這樣處理簡化了數(shù)據(jù)的幾何結(jié)構(gòu),使得TurboQuant可以對向量的每個部分單獨應(yīng)用標(biāo)準(zhǔn)的高質(zhì)量量化器(量化器是一種將大量連續(xù)數(shù)值映射為更少并且離散的符號或數(shù)值的工具,比如音頻量化與JPEG壓縮)。

第一階段,PolarQuant利用大部分壓縮算力(絕大多數(shù)比特位)來捕捉原始向量的核心語義與特征強度,完成主體壓縮

PolarQuant不再使用表示各軸距離的標(biāo)準(zhǔn)坐標(biāo)系(即X、Y、Z坐標(biāo))來描述向量,而是通過笛卡爾坐標(biāo)系將向量轉(zhuǎn)換為極坐標(biāo)。這就好比把“向東走3個街區(qū),向北走4個街區(qū)”,替換成“沿37度方向走5個街區(qū)”。

PolarQuant轉(zhuǎn)換后只會保留半徑(代表核心數(shù)據(jù)的強度)和角度(代表數(shù)據(jù)的方向或語義)。由于角度的分布規(guī)律已知且高度集中,模型不再需要執(zhí)行計算代價高昂的數(shù)據(jù)歸一化操作。它將數(shù)據(jù)映射到一個邊界固定、可預(yù)測的圓形網(wǎng)格上,PolarQuant就不用再存那些“用來表示數(shù)據(jù)范圍”的額外信息,從而省下了一大塊內(nèi)存空間。


▲PolarQuant工作概念圖(圖源:谷歌官網(wǎng))

第二階段,TurboQuant僅以1 bit的極小額外內(nèi)存開銷,將QJL作用于第一階段壓縮后殘留的微小誤差上,消除誤差

QJL采用一種名為約翰遜–林登斯特勞斯變換(Johnson-Lindenstrauss Transform)的數(shù)學(xué)方法,在保留數(shù)據(jù)點之間基本距離與關(guān)聯(lián)關(guān)系的前提下,把復(fù)雜的數(shù)據(jù)壓縮成了一種超級簡單、幾乎不占額外內(nèi)存、計算又特別快的格式。

QJL在高精度查詢與低精度簡化數(shù)據(jù)之間進行結(jié)構(gòu)化平衡,相當(dāng)于一個數(shù)學(xué)誤差校正器,能夠消除壓縮帶來的偏差。這使得模型能夠精準(zhǔn)計算注意力分數(shù)(即判斷輸入信息中哪些部分重要、哪些部分可安全忽略的核心過程)。

二、拆解測試:TurboQuant強在哪?

谷歌稱,在實驗中,TurboQuant能在完全不降低AI模型效果、不損失精度的前提下,顯著解決鍵值緩存給模型推理帶來的性能瓶頸。

谷歌拿Meta開源的Llama-3.1-8B模型做測試,將TurboQuant、PolarQuant和KIVI算法相比較,可以看到,與官方基準(zhǔn)線Full Cache相比,TurboQuant能夠?qū)㈡I值緩存量化至僅3.5 bit,并且沒有損失模型精度。同時,PolarQuant也幾乎實現(xiàn)了無損壓縮。


▲TurboQuant的緩存壓縮性能圖(橫軸為性能得分,縱軸為量化方案)(圖源:谷歌官網(wǎng))

谷歌對3種不同量化位寬的TurboQuant進行測試,結(jié)果表明,在下圖的所有序列長度(模型處理的文本token數(shù)量)中,TurboQuant 1 bit版本加速比最高,4 bit版本加速比最低。在1M超長上下文中,TurboQuant 1 bit版本加速比在13倍左右,4 bit版本在7倍左右。

同時,谷歌稱TurboQuant在JAX框架(谷歌的超級加速框架)的基礎(chǔ)上,仍能實現(xiàn)顯著加速。在英偉達的H100 GPU上,TurboQuant 4 bit版本相比不壓縮的32bit原版鍵值緩存,速度最高提升8倍,不僅能加速大模型推理,還能大幅優(yōu)化向量搜索、索引構(gòu)建等關(guān)鍵場景。


▲TurboQuant計算注意力logits的加速效果圖(橫軸為序列長度,縱軸為加速比)(圖源:谷歌官網(wǎng))

在高維向量搜索任務(wù)中,谷歌以1@k召回率(1@k召回率用于衡量算法在其前k個近似結(jié)果中,壓縮后的向量和不壓縮時算出“最相似結(jié)果”一樣的概率。)為指標(biāo),將TurboQuant與當(dāng)前最優(yōu)方法PQ和RabbiQ進行了效果對比。

從下圖可以看到,不管是2 bit還是4 bit版本的TurboQuant,都在召回率指標(biāo)上持續(xù)取得了更優(yōu)表現(xiàn)。這證實了TurboQuant在高維搜索任務(wù)中的穩(wěn)健性與高效性。

同時,谷歌稱,在GloVe數(shù)據(jù)集(維度d=200)(斯坦福大學(xué)發(fā)布的經(jīng)典預(yù)訓(xùn)練詞向量數(shù)據(jù)集)上,TurboQuant在與當(dāng)前多種主流先進量化方法的對比中,展現(xiàn)出穩(wěn)健的檢索性能,并實現(xiàn)了最優(yōu)的1@k召回率。


▲TurboQuant的召回率圖(橫軸是檢索范圍,縱軸是召回率)(圖源:谷歌官網(wǎng))

由此可見,TurboQuant在PolarQuant主體壓縮的基礎(chǔ)上,通過極低比特量化與誤差校正,使鍵值緩存的存儲空間顯著減少,讓模型能夠在相同硬件條件下處理更長的上下文、更大的批量數(shù)據(jù),同時降低推理成本。

此外,TurboQuant的推理速度極快,精度幾乎達到無損效果,即使在超長文本下其推理能力依然穩(wěn)定高效。

結(jié)語:算法博弈下的存儲焦慮,企業(yè)推動大模型“瘦身”革命

TurboQuant在谷歌的測試中表現(xiàn)出了出色的出成績,它能夠以極低的內(nèi)存占用、近乎為零的預(yù)處理耗時,完成大規(guī)模向量索引的構(gòu)建與查詢,這讓“谷歌級別”的語義搜索變得更加快速高效。

早在2025年,英偉達于在arXiv上公開了第一版KVTC,證明它能把大模型的鍵值緩存壓縮到原來的 1/20,同時精度損失不到1%。近期,英偉達更新了實測數(shù)據(jù),稱在H100 GPU上處理8000 Token的長提示時,模型生成第一個詞的時間,從傳統(tǒng)方案的3秒左右,縮短至380毫秒,速度提升8倍。

科技大廠正通過持續(xù)的算法創(chuàng)新與迭代,不斷提升AI大模型的推理效率。在當(dāng)前存儲芯片供應(yīng)緊張的背景下,企業(yè)通過對大模型推理過程中的鍵值緩存進行高效壓縮,來提升大模型自身的推理效率,或許可以在一定程度上緩解存儲芯片產(chǎn)能跟不上AI算力發(fā)展速度的局面。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
張召忠預(yù)言或?qū)⒊烧妫好绹坏┑瓜拢瑏喼捱@2國將會打起來?

張召忠預(yù)言或?qū)⒊烧妫好绹坏┑瓜拢瑏喼捱@2國將會打起來?

魚語昱雨軒
2026-03-28 03:27:51
金價急跌 黃金理財扛住了嗎?

金價急跌 黃金理財扛住了嗎?

中國能源網(wǎng)
2026-03-27 08:38:06
馬丁內(nèi)斯:我們選前鋒很看重功能性,保利尼奧自己掙來了機會

馬丁內(nèi)斯:我們選前鋒很看重功能性,保利尼奧自己掙來了機會

懂球帝
2026-03-28 04:40:03
中東局勢升級!印尼狂砸31億,搶購中國退役導(dǎo)彈艇,西方不解

中東局勢升級!印尼狂砸31億,搶購中國退役導(dǎo)彈艇,西方不解

胖福的小木屋
2026-03-26 23:27:43
美媒:004型航母,全長345米,寬86米,世界噸位第一?

美媒:004型航母,全長345米,寬86米,世界噸位第一?

健身狂人
2026-03-27 20:24:21
大長腿:一種關(guān)于長度的生命詩學(xué)

大長腿:一種關(guān)于長度的生命詩學(xué)

疾跑的小蝸牛
2026-03-27 19:53:04
南京男子回家迫不及待抱住妻子,結(jié)果家中鸚鵡一開口,讓他崩潰!

南京男子回家迫不及待抱住妻子,結(jié)果家中鸚鵡一開口,讓他崩潰!

白云故事
2025-03-14 19:05:07
這就是回家要脫褲子才能上床的原因!網(wǎng)友:看完天都塌了!

這就是回家要脫褲子才能上床的原因!網(wǎng)友:看完天都塌了!

夜深愛雜談
2026-02-07 19:05:55
韋世豪執(zhí)行力強!王鈺棟防守很拼 楊希進步太大了 楊晨怒贊邵佳一

韋世豪執(zhí)行力強!王鈺棟防守很拼 楊希進步太大了 楊晨怒贊邵佳一

刀鋒體育
2026-03-27 22:57:34
溫嶺首次發(fā)現(xiàn)!2022年,浙江村民撈上來一條“鱔王”,將近12斤

溫嶺首次發(fā)現(xiàn)!2022年,浙江村民撈上來一條“鱔王”,將近12斤

萬象硬核本尊
2026-03-27 18:28:35
中央連發(fā)兩文定調(diào)!不出意外的話,一線城市的房價或迎來大變化

中央連發(fā)兩文定調(diào)!不出意外的話,一線城市的房價或迎來大變化

離離言幾許
2026-03-27 13:47:28
強力外援駕到 四川女籃輕取WCBA季后賽首勝

強力外援駕到 四川女籃輕取WCBA季后賽首勝

封面新聞
2026-03-27 23:01:03
這么看,伊朗的戰(zhàn)果還是很驚人的!!!

這么看,伊朗的戰(zhàn)果還是很驚人的!!!

山河路口
2026-03-27 13:40:25
男子自駕游至海南遇美女搭車,同行三天后,他才知道自己逃過死劫

男子自駕游至海南遇美女搭車,同行三天后,他才知道自己逃過死劫

林林故事揭秘
2025-04-10 14:49:38
上海外灘某銀行地下金庫,存了80年從不清點,央行:凍結(jié)所有賬戶

上海外灘某銀行地下金庫,存了80年從不清點,央行:凍結(jié)所有賬戶

小哥很OK
2026-01-28 19:15:53
拜訪百歲道長,臨走時他叮囑我:晨起這三件事最耗陽氣,別再做了

拜訪百歲道長,臨走時他叮囑我:晨起這三件事最耗陽氣,別再做了

千秋文化
2026-03-15 20:27:31
“這次穿得算保守了”,女老師短裙配蕾絲襪,學(xué)生上課頭都不敢抬

“這次穿得算保守了”,女老師短裙配蕾絲襪,學(xué)生上課頭都不敢抬

妍妍教育日記
2026-03-21 10:05:03
高市拿到12年稀土大單就飄了,叫囂反制無效,不料麻煩才開始

高市拿到12年稀土大單就飄了,叫囂反制無效,不料麻煩才開始

瘋狂小菠蘿
2026-03-27 14:46:32
2年前,我朋友非得說黃金漲價,當(dāng)時400一克,他買了60萬黃金

2年前,我朋友非得說黃金漲價,當(dāng)時400一克,他買了60萬黃金

千秋文化
2026-01-21 21:08:57
原來溫瑞博的爸爸是他!曾是乒乓球隊頂梁柱,難怪19歲兒子這么牛

原來溫瑞博的爸爸是他!曾是乒乓球隊頂梁柱,難怪19歲兒子這么牛

好乒乓
2026-03-27 12:29:41
2026-03-28 05:11:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
11460文章數(shù) 117016關(guān)注度
往期回顧 全部

科技要聞

楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

頭條要聞

男醫(yī)生給孕妻做彩超 丈夫崩潰撞墻:不過了 明天就離婚

頭條要聞

男醫(yī)生給孕妻做彩超 丈夫崩潰撞墻:不過了 明天就離婚

體育要聞

邵佳一:足球就像一場馬拉松

娛樂要聞

范瑋琪加盟,官宣《浪姐7》遭全網(wǎng)抵制

財經(jīng)要聞

我在小吃培訓(xùn)機構(gòu)學(xué)習(xí)“科技與狠活”

汽車要聞

與眾08,金標(biāo)大眾不能輸?shù)囊粦?zhàn)

態(tài)度原創(chuàng)

本地
親子
房產(chǎn)
藝術(shù)
公開課

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

親子要聞

天氣暖和了,安排一套孩子自己能玩半天,激發(fā)孩子的動手能力,真的是帶娃省媽啊#太空沙解壓 #太空沙花樣...

房產(chǎn)要聞

6.8萬方!天河員村再征地,金融城西區(qū)開發(fā)全面提速

藝術(shù)要聞

投資9000萬!奶茶巨頭益禾堂的總部大樓,坐標(biāo)武漢!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版