337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Google 新算法,Mac Mini 也能跑 Qwen3.5

0
分享至

RESEARCH

3 月 24 日,Google Research 發(fā)布了一套量化壓縮算法,叫 TurboQuant。核心能力一句話講完:把 LLM 推理時最吃內(nèi)存的 KV cache 壓到極低的 bit 寬度,3.5 bit 精度零損失,2.5 bit 僅有極微小的質(zhì)量下降,內(nèi)存縮小至少 6 倍,attention 計算在 H100 上最高快 8 倍

整個過程免訓(xùn)練、免微調(diào)、免校準(zhǔn),純軟件方案,拿來就能用

32 bit per channel 幾十 GB 內(nèi)存 → TurboQuant → 3.5 bit per channel 零精度損失 內(nèi)存 ÷6 速度 ×8 3.5 bit 零損失

有多直接呢,發(fā)布不到 24 小時,已經(jīng)有人在一臺幾千塊的 Mac Mini 上用它跑通了 Qwen3.5-35B-A3B 的 64K token 長對話,回答質(zhì)量跟不壓縮的時候完全一樣

論文下個月在 ICLR 2026 主會上發(fā)表。作者來自 Google Research、Google DeepMind 和紐約大學(xué)

6 倍壓縮,什么概念

先把這個數(shù)字翻譯成大家能摸到的東西

一個 8B 參數(shù)的模型跑長對話推理的時候,KV cache 可以吃掉幾十 GB 內(nèi)存。一張 80GB 的 H100 顯卡,光 KV cache 就能占掉一大半。壓縮 6 倍 之后,這部分從幾十 GB 降到幾個 GB

直接的效果:同一張顯卡能跑更長的對話,或者同時服務(wù)更多用戶

再換一個更直覺的場景。一臺 Mac Mini M4 Pro,24GB 統(tǒng)一內(nèi)存。之前跑 Qwen3.5-35B 做長對話,KV cache 膨脹到一定程度就撐不住了。TurboQuant 把 KV cache 壓下來之后,這個上限往后推了很多

Mac Mini 上跑 Qwen3.5-35B 的 6 萬字長對話,needle-in-a-haystack 測試全部命中

發(fā)布不到 24 小時,Twitter @Prince_Canuma 已經(jīng)把 TurboQuant 移植到了 Apple Silicon 的 MLX 框架上,用 Qwen3.5-35B 做了驗證。從 8.5K 到 64K token 上下文,2.5 bit 量化,KV cache 縮小近 5 倍,needle-in-a-haystack 測試 6/6 精確命中

第三方模型,第三方硬件,跟 Google 自己的 benchmark 結(jié)果吻合


https://x.com/Prince_Canuma/status/2036611007523512397

KV cache 為什么是瓶頸

你跟 AI 聊天的時候,對話越長,AI 需要記住的「前文」就越多,內(nèi)存占用就越大。這部分專門用來存「前文」的內(nèi)存,叫 KV cache

技術(shù)上:LLM 生成文本的時候,每讀到一個 token,都會算出一組 key 和 value 向量存起來。后面生成新 token 時,模型要回頭查這些 key-value 對,來決定該關(guān)注之前哪些內(nèi)容

對話越長,存的越多,內(nèi)存線性增長。上下文到了 32K、64K、128K token 的時候,KV cache 的內(nèi)存開銷經(jīng)常比模型權(quán)重還大

壓縮 KV cache 是自然的方向。把 32 bit 浮點數(shù)量化成更少的 bit,內(nèi)存就省下來了。但傳統(tǒng)的量化方法有一個很煩的問題

傳統(tǒng)方法在壓縮的同時,需要額外存儲一堆歸一化常數(shù)。這些常數(shù)要用高精度來存(比如 16 bit),每個數(shù)據(jù)塊都配一組。算下來,額外開銷大概 1-2 bit

壓縮省了 3 bit,歸一化常數(shù)吃回去 1-2 bit,凈收益就打折了

TurboQuant 要解決的就是這個問題

TurboQuant 怎么做的

兩步壓縮。第一步把數(shù)據(jù)壓小,第二步把壓縮帶來的誤差修掉。最終效果:32 bit 的數(shù)據(jù)變成 3 bit 多一點,模型該記住的東西一個都沒丟

TurboQuant 兩步壓縮 32 bit 原始向量 Step 1 · PolarQuant 隨機旋轉(zhuǎn) → 極坐標(biāo)變換 歸一化開銷 → 0 消耗 b-1 bit · 捕獲主體信息 微小殘差 ↓ Step 2 · QJL JL 變換 → 符號位 (+1/-1) 消耗 1 bit · 消除內(nèi)積偏差 b bit · 零偏差 · 零額外開銷

第一步:PolarQuant

傳統(tǒng)壓縮方法在壓數(shù)據(jù)的同時,要額外存一堆「輔助參數(shù)」保證精度。這些參數(shù)本身也占內(nèi)存,相當(dāng)于壓縮打了折。PolarQuant 通過一個數(shù)學(xué)技巧,讓這些輔助參數(shù)變得不再需要

具體做法:先對輸入向量施加一個隨機旋轉(zhuǎn)矩陣。旋轉(zhuǎn)之后,每個維度上的數(shù)值分布變得非常集中、非常規(guī)律,跟原始數(shù)據(jù)長什么樣無關(guān)。分布規(guī)律了,就可以用一套事先算好的固定量化表來處理所有數(shù)據(jù)

數(shù)學(xué)上:把向量從笛卡爾坐標(biāo)系轉(zhuǎn)成極坐標(biāo)系。笛卡爾坐標(biāo)是「沿 X 軸走多少、Y 軸走多少」,極坐標(biāo)是「總距離多少、角度多少」。角度的分布在高維空間中是已知的、高度集中的 Beta 分布

歸一化開銷,消掉了

隨機旋轉(zhuǎn)還帶來一個額外好處:高維空間中,旋轉(zhuǎn)后的各個坐標(biāo)之間近似獨立同分布(i.i.d.)。獨立了,就可以把多維的量化問題拆成一堆一維的標(biāo)量量化問題(Max-Lloyd 問題),每個維度單獨求最優(yōu)解。算一次,存好 codebook,之后在線推理直接查表

PolarQuant 單獨作為一篇論文,將在 AISTATS 2026 上發(fā)表

第二步:QJL

第一步壓完之后,數(shù)據(jù)體積大幅縮小了,但會帶一點微小的誤差。這個誤差如果不管,模型在判斷「這段對話里哪些內(nèi)容更重要」的時候會出現(xiàn)系統(tǒng)性偏差。聊幾千字可能看不出來,聊幾萬字就會累積

給一個數(shù)學(xué)直覺:一個 1-bit 的 MSE 最優(yōu)量化器在高維空間中,會引入一個 2/π 的乘性偏差。這個偏差聽起來不大,但在 attention 計算中會被放大

QJL 的做法是:對第一步的殘差向量施加 Johnson-Lindenstrauss 變換,把每個數(shù)值壓成 1 bit 的符號位(+1 或 -1)。然后用一個特殊的估計器,在數(shù)學(xué)上保證內(nèi)積估計無偏

E[?y, Q?1(Q(x))?] = ?y, x?

壓縮后的內(nèi)積期望值,嚴(yán)格等于真實內(nèi)積。偏差消除了,額外開銷只有 1 bit

QJL 這篇論文已經(jīng)在 AAAI 2025 上發(fā)表

合起來

兩步加在一起:b-1 bit 給 PolarQuant 做主體壓縮,1 bit 給 QJL 做殘差糾錯??偽粚?b bit

論文證明,TurboQuant 的 MSE 失真率距離信息論的理論下界只差大約 2.7 倍 的常數(shù)因子。在低 bit 寬度下這個差距更小

3.5 bit,零損失,免重訓(xùn)

傳統(tǒng)方法用 3 bit 壓縮,1-2 bit 被歸一化開銷吃掉,實際有效壓縮可能只有 1-2 bit。TurboQuant 的每一個 bit 都是有效壓縮

Benchmark 數(shù)據(jù)

說了這么多原理,回到大家最關(guān)心的問題:壓完之后模型到底還好不好用

Google 在五個長上下文 benchmark 上做了測試:LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Eval。測試模型用的是開源的 Gemma、Mistral 和 Llama-3.1-8B-Instruct

KV cache 壓縮

論文里的精確表述:3.5 bit 達(dá)到「absolute quality neutrality」(絕對質(zhì)量中性),2.5 bit 只有「marginal quality degradation」

→內(nèi)存縮小至少 6 倍

→LongBench 的 QA、代碼生成、摘要任務(wù)上,匹配或超過 KIVI baseline

→Needle-in-a-Haystack(在海量文本里精確找到一條特定信息):滿分

→PolarQuant 單獨用,這個任務(wù)也近乎無損


論文中 LongBench 各任務(wù)得分對比

速度

壓縮不只省內(nèi)存,還能加速。要讀取和計算的數(shù)據(jù)量變少了,速度自然就快了

在 NVIDIA H100 上,4 bit 模式的 attention logits 計算,比 32 bit 未量化版本最高快 8 倍。測量基線是高度優(yōu)化過的 JAX 實現(xiàn)


論文中 H100 不同 bit 寬度速度對比

向量搜索

TurboQuant 不只能壓 KV cache,在向量搜索場景也好用。向量搜索就是搜索引擎和 RAG 背后的技術(shù):你輸入一個問題,系統(tǒng)要在幾十億條數(shù)據(jù)里找到最相關(guān)的那幾條

Google 在 GloVe 數(shù)據(jù)集(200 維)上跟 Product Quantization 和 RabitQ 做了對比。TurboQuant 的 recall 全面領(lǐng)先,對方用了大 codebook 和數(shù)據(jù)集特定調(diào)優(yōu),TurboQuant 什么都沒調(diào)

索引構(gòu)建時間幾乎為零(1536 維向量只需 0.0013 秒)


論文中 GloVe 數(shù)據(jù)集 recall 對比

四個工程屬性

對部署 LLM 的團隊來說,下面四個屬性可能比壓縮率本身更重要。它們決定了這個東西能不能真的用起來

Training-free 量化表預(yù)先算好,拿到模型直接用
Data-oblivious 數(shù)據(jù)進(jìn)來直接壓,省掉了校準(zhǔn)步驟
加速器友好 用 GPU 擅長的批量向量化運算
純軟件 H100、A100 直接跑,零硬件改造

四個屬性合起來:拿到一個新模型,零準(zhǔn)備,直接壓,直接部署

外部反應(yīng)

這個算法發(fā)出來之后,技術(shù)圈和資本市場同時給了很大的反應(yīng)

Google Research 的官方推文獲得了超過 770 萬 次瀏覽

Twitter @eastdakota 的評價是「Google 的 DeepSeek 時刻」

Matthew Prince,Cloudflare CEO

社區(qū) 24 小時內(nèi)開始移植到 MLX 和 llama.cpp。前面提到的 Qwen3.5-35B 實測就是這么來的

美股內(nèi)存板塊當(dāng)天下跌:SanDisk -5.7%,Micron -3%,Western Digital -4.7%,同期納斯達(dá)克 100 是漲的。市場在擔(dān)心軟件壓縮效率的提升會減少對 HBM 芯片的需求。評論區(qū)也有人搬出 Jevons Paradox 來反駁:效率越高,總消耗可能反而增加,歷史上這種事發(fā)生過很多次

論文和資源

TurboQuant 主論文(ICLR 2026)

arxiv.org/abs/2504.19874

PolarQuant(AISTATS 2026)

arxiv.org/abs/2502.02617

QJL(AAAI 2025)

arxiv.org/abs/2406.03482

Google Research 官方博客

research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
關(guān)于伊朗的十大虛假敘事——你是如何被網(wǎng)軍欺騙的?

關(guān)于伊朗的十大虛假敘事——你是如何被網(wǎng)軍欺騙的?

楓嶺社
2026-03-27 10:49:09
意甲女主播秀腳法驚艷全場,網(wǎng)友:比羅馬球員強多了

意甲女主播秀腳法驚艷全場,網(wǎng)友:比羅馬球員強多了

樂道足球
2026-03-28 12:57:54
美國務(wù)卿:中國正在經(jīng)歷人類最大規(guī)模軍力建設(shè),美國打不過中國

美國務(wù)卿:中國正在經(jīng)歷人類最大規(guī)模軍力建設(shè),美國打不過中國

快看張同學(xué)
2026-03-29 11:34:50
中業(yè)島保不住了!菲律賓登陸艦硬著頭皮沖擊中國054!

中業(yè)島保不住了!菲律賓登陸艦硬著頭皮沖擊中國054!

荷蘭豆愛健康
2026-03-29 00:59:26
美媒發(fā)出靈魂拷問:三任美總統(tǒng)都要對付中國,最后卻全斷送在中東

美媒發(fā)出靈魂拷問:三任美總統(tǒng)都要對付中國,最后卻全斷送在中東

近史閣
2026-03-29 08:24:14
穆帥放棄下賽季重返英超,執(zhí)教紐卡,已本菲卡達(dá)成協(xié)議,繼續(xù)執(zhí)教

穆帥放棄下賽季重返英超,執(zhí)教紐卡,已本菲卡達(dá)成協(xié)議,繼續(xù)執(zhí)教

福醬的小時光
2026-03-28 21:57:23
中東國家突然想到,中國武器再多再先進(jìn),也沒辦法保護(hù)他們!

中東國家突然想到,中國武器再多再先進(jìn),也沒辦法保護(hù)他們!

人間無味啊
2026-03-29 04:37:46
1979年,越南老百姓發(fā)現(xiàn)一怪象:中國軍隊撤軍時,專炸水泥電線桿

1979年,越南老百姓發(fā)現(xiàn)一怪象:中國軍隊撤軍時,專炸水泥電線桿

百年歷史老號
2026-03-29 01:40:42
不婚不育會被親戚惦記財產(chǎn)嗎?網(wǎng)友:我死之前花完,誰也別惦記

不婚不育會被親戚惦記財產(chǎn)嗎?網(wǎng)友:我死之前花完,誰也別惦記

帶你感受人間冷暖
2026-03-14 00:10:08
她曾擔(dān)任中紀(jì)委副書記,離休16年后仍驕傲的說:我辦的案都是鐵案

她曾擔(dān)任中紀(jì)委副書記,離休16年后仍驕傲的說:我辦的案都是鐵案

明月清風(fēng)閣
2026-03-28 13:25:06
《紐約時報》| 牛油果有多健康?

《紐約時報》| 牛油果有多健康?

一半杯
2026-03-27 10:14:14
廣州醫(yī)療圈大變動!頂尖專家跳槽保險系醫(yī)院

廣州醫(yī)療圈大變動!頂尖專家跳槽保險系醫(yī)院

鬼菜生活
2026-03-29 08:49:01
催人淚下!張雪峰常把家鄉(xiāng)高校當(dāng)避坑指南,當(dāng)?shù)厮屯炻?lián)以最高敬意

催人淚下!張雪峰常把家鄉(xiāng)高校當(dāng)避坑指南,當(dāng)?shù)厮屯炻?lián)以最高敬意

火山詩話
2026-03-28 06:26:33
江淮做夢都想不到,自己做成中國的賓利,100萬一輛還供不應(yīng)求

江淮做夢都想不到,自己做成中國的賓利,100萬一輛還供不應(yīng)求

財經(jīng)老莊
2026-03-27 18:40:20
范元甄:與江青齊名的延安四美之一,嫁主席秘書,卻輸?shù)袅艘簧?>
    </a>
        <h3>
      <a href=干史人
2026-03-05 21:06:35
馬英九再提統(tǒng)一條件,島內(nèi)炸鍋大陸沉默,他在幫誰說話?

馬英九再提統(tǒng)一條件,島內(nèi)炸鍋大陸沉默,他在幫誰說話?

娛樂的宅急便
2026-03-28 21:16:56
懷孕傳聞?wù)嫦啻蟀缀?,翁帆突傳“喜訊”,楊振寧終于可以放心了!

懷孕傳聞?wù)嫦啻蟀缀?,翁帆突傳“喜訊”,楊振寧終于可以放心了!

丁丁鯉史紀(jì)
2026-03-25 16:35:13
張凌赫事件持續(xù)升級!官方點名怒批,粉絲正面硬剛,這下恐要涼涼

張凌赫事件持續(xù)升級!官方點名怒批,粉絲正面硬剛,這下恐要涼涼

阿晪美食
2026-03-28 15:03:17
再見,曼聯(lián)!曝“大核”決定離開紅魔!欽點2億新援“空降”加盟

再見,曼聯(lián)!曝“大核”決定離開紅魔!欽點2億新援“空降”加盟

頭狼追球
2026-03-29 10:15:30
鈔能力失靈!日本夜店“名花”在中國被捕,與男友雙雙涉毒

鈔能力失靈!日本夜店“名花”在中國被捕,與男友雙雙涉毒

這里是東京
2026-03-28 16:49:24
2026-03-29 12:15:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
348文章數(shù) 50關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯了",11位創(chuàng)始人均離職

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

體育要聞

全球第二大車企,也救不了這支德甲隊?

娛樂要聞

張凌赫事件持續(xù)升級!官方點名怒批

財經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

時尚
本地
藝術(shù)
游戲
公開課

和田曦薇一樣嫩嘟嘟,這3個變美技巧你一定不能錯過!

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

藝術(shù)要聞

2025江南如畫——中國油畫作品展 | 入選作品選刊(二)

曝PS+價格也將大漲價!玩家直呼“要退坑了”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版