337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

谷歌迎來“DeepSeek時刻”!TurboQuant引爆AI圈、全球開發者瘋狂復現:6倍無損壓縮,內存股集體暴跌

0
分享至


整理 | 華衛

即使你對生成式 AI 模型的內部運作了解不多,也大概率知道它們極其吃內存。正因如此,如今想買一根普通內存條都免不了被狠狠加價。

最近,谷歌研究院發布了 TurboQuant 壓縮算法,能夠在提升運行速度并保持準確性不變的前提下,降低大語言模型(LLM)的內存占用。如果 TurboQuant 成功落地,可將 AI 運行時的 “工作內存”,也就是鍵值緩存(KV cache)壓縮至少 6 倍,并在 H100 顯卡上實現最高 8 倍的速度提升,從而大幅降低 AI 運行成本。

Cloudflare 的 CEO Matthew Prince 等人甚至稱,這是谷歌的 “DeepSeek 時刻”。此前,中國 AI 模型 DeepSeek 實現這樣的效率飛躍:該模型在性能保持競爭力的情況下,訓練成本僅為對手的零頭,且使用的芯片性能較差。


而 TurboQuant 最關鍵的亮點是:精度零損失。無需微調,無需訓練數據。直接接入任意 Transformer 模型,即可讓鍵值緩存壓縮至原體積的一小部分,同時輸出結果完全一致。如果這一效果能在實際生產環境中成立,將一夜之間改變長上下文推理的成本格局。

此外,TurboQuant 發布短短數小時內,內存類股票應聲下跌:美光科技跌 3%,西部數據跌 4.7%,閃迪跌 5.7%。原因是投資者開始重新估算,AI 行業未來實際需要的物理內存可能會大幅減少。

極致無損壓縮 AI 效率,

還革新了向量檢索

在博客中,谷歌研究院將這項技術描述為一種在不影響性能的前提下縮減 AI 運行內存的全新方法。研究人員表示,該壓縮技術采用一種矢量量化方式,解決 AI 處理中的緩存瓶頸問題,本質上能讓 AI 在占用更少空間、保持精度的同時記住更多信息。

TurboQuant 的優化目標是縮減鍵值緩存的體積,谷歌將其比作一張 “數字備忘單”,用于存儲關鍵信息,避免重復計算。這張備忘單必不可少,因為正如我們常說的,大語言模型本身并不 “懂” 任何東西,它們只是通過向量模擬出理解的效果,向量會映射分詞后文本的語義信息。兩個向量相近,就代表它們在概念上相似。高維向量可能包含成百上千個嵌入維度,能夠描述圖像像素、大型數據集等復雜信息,但同時也會占用大量內存,讓鍵值緩存體積暴漲,成為性能瓶頸。

為了讓模型更小、更高效,開發者通常會使用量化技術以更低精度運行模型,缺點則是生成效果會變差,分詞預測的質量下降。而谷歌的早期測試結果顯示,使用 TurboQuant 后,部分場景下性能提升 8 倍、內存占用減少 6 倍,且精度毫無損失。


谷歌表示,他們在 Gemma 和 Mistral 兩款開源模型上,用一系列長上下文基準測試了這套新壓縮算法。結果顯示,TurboQuant 在所有測試中下游任務表現完美,同時將鍵值緩存內存占用降低 6 倍。該算法無需額外訓練,就能將緩存量化至僅 3 比特,可直接應用于現有模型。在英偉達 H100 加速器上,使用 4 比特 TurboQuant 計算注意力分數,速度比 32 比特未量化鍵值快 8 倍。


不過值得注意的是,TurboQuant 目前尚未大規模部署,現階段仍只是實驗室層面的突破。如果正式落地,TurboQuant 有望降低 AI 模型的運行成本,減少內存消耗。研發這類技術的公司也可能利用釋放出的內存運行更復雜的模型。未來大概率會兩種方向并存,而移動端 AI 受益可能最為明顯。受限于手機硬件條件,TurboQuant 這類壓縮技術可以在不上傳數據至云端的前提下,提升本地 AI 的生成質量。

除大語言模型推理外,TurboQuant 也適用于向量檢索場景,在檢索增強生成(RAG)與相似度搜索中,高維向量同樣面臨內存壓力。使用 TurboQuant 后,索引構建時間幾乎降至零(1536 維向量僅需 0.0013 秒,而乘積量化需 239.75 秒);在 GloVe 數據集上的召回率也優于乘積量化與 RabbiQ 基準模型。

技術邏輯大公開:

應用到 AI 模型只需兩步

將 TurboQuant 應用到 AI 模型分為兩個階段,背后是兩項關鍵技術:量化方法 PolarQuant 以及名為 QJL 的訓練與優化方法。

為實現高質量壓縮,谷歌設計了一套名為 PolarQuant 的系統,以一種截然不同的思路解決內存開銷問題。AI 模型中的向量通常采用標準 XYZ 坐標編碼,而 PolarQuant 會將向量轉換為笛卡爾坐標系下的極坐標。在這個環形網格中,向量被簡化為兩項信息:半徑(核心數據強度)和方向(數據的語義含義)。

谷歌用一個很形象的現實例子來解釋:傳統編碼就像是 “向東走 3 個街區,再向北走 4 個街區”;而用極坐標則可以簡化為 “沿 37 度方向走 5 個街區”。這樣不僅占用空間更少,還省去了系統開銷巨大的數據歸一化步驟。PolarQuant 承擔了主要的壓縮工作,盡管效果顯著,但會產生殘留誤差。

第二步則用于修復瑕疵。對此,谷歌提出用量化約翰遜 - 林登斯特勞斯變換(QJL)進行平滑處理,在壓縮復雜高維數據的同時,保留數據點之間關鍵的距離與關聯信息。該技術會為模型添加一層 1 比特誤差校正層,將每個向量壓縮至單個比特(+1 或 - 1),本質上構建了一套高速簡寫形式,且不會產生任何內存開銷。同時為保證精度,QJL 采用一種特殊估算器,對高精度查詢與低精度簡化數據進行合理平衡,使模型能夠精準計算注意力分數,這也是神經網絡判斷數據重要性的核心機制。

二者組合起來的效果就是,PolarQuant 實現極致壓縮,QJL 以近乎可忽略的成本修正誤差。據悉,谷歌計劃在下個月的 ICLR 2026 會議上展示他們的研究成果,并展示這兩種優化方法。

代碼未公布,

開發者單靠論文復現可用版

盡管谷歌尚未發布任何官方代碼或集成庫,獨立開發者們已經僅憑論文就開始構建可運行的實現版本。

有開發者在 PyTorch 中自定義了 Triton 內核,在 RTX 4090 顯卡上對 Gemma 3 4B 模型進行測試,結果顯示:在 2 比特精度下,模型輸出與未壓縮基準版逐字符完全一致。僅用 2 比特存儲每個數值,量化后的模型就能與全精度版本實現逐字節完全相同的回復,這表明 TurboQuant 的理論保證在較小模型上切實有效。

另有開發者通過 MLX 框架在蘋果芯片上運行 35B 參數模型并搭載 TurboQuant,在各量化等級下的 “大海撈針” 測試中均取得 6 項滿分。在 llama.cpp 社區,已有三名開發者著手開發 C 語言與 CUDA 版本,其中一人表示 18 項測試全部通過,壓縮比也與論文數據完全吻合。

一項研究論文在官方發布前就以如此速度被廣泛復現,實屬罕見。覆蓋 Triton、MLX、llama.cpp 等平臺的實現案例,既體現了 TurboQuant 數學設計的清晰性,也反映出 KV 緩存優化作為部署瓶頸的迫切需求。

不過,復現該算法并非易事。一名早期開發者表示,QJL 誤差校正模塊很難準確實現,簡單粗暴的實現方式只會輸出亂碼。如果不能正確實現 QJL 對內積估算的偏差校正,量化誤差會不斷累積,導致輸出結果完全不可用。目前谷歌仍未發布 TurboQuant 官方代碼,vLLM、llama.cpp、Ollama 等主流推理框架也均未集成該技術。

內存股全跌了,

英偉達也在推同款算法

市場反應十分迅速。內存類股票紛紛下跌,美光科技股價下跌 3%,西部數據下跌 4.7%,閃迪下跌 5.7%。A 股市場存儲芯片股也集體下挫,其中,兆易創新、佰維存儲、恒爍股份跌超 5%,江波龍、朗科科技、北京君正、太極實業、中電港跌超 4%,普冉股份、同有科技、萬潤科技、科翔股份、精智達、云漢芯城、聯蕓科技跌超 3%。

而在多位分析師看來,這種波動有些反應過度。富國銀行分析師 Andrew Rocha 指出,TurboQuant 直接沖擊了 AI 系統的內存成本曲線。他表示,如果該技術被廣泛采用,很快就會引發一個問題:整個行業實際需要的內存容量究竟有多大。但 Rocha 與其他分析師也同時提醒,AI 內存的需求整體依然強勁,而且壓縮算法已存在多年,并未從根本上改變硬件采購規模。

不過,市場的擔憂并非毫無根據。AI 基礎設施支出正以驚人速度增長:僅 Meta 一家,近期就與 Nebius 達成協議,投入高達 270 億美元用于專屬算力;谷歌、微軟、亞馬遜也共同計劃在 2026 年前投入數千億美元用于數據中心資本支出。一項能將內存需求降低 6 倍的技術,并不會讓支出同步減少 6 倍,因為內存只是數據中心成本的一部分。但它會改變成本結構比例,而在如此大規模的投入下,即便只是小幅效率提升,帶來的影響也會快速放大。

TurboQuant 并非唯一一篇將在 ICLR 2026 發表的 KV 緩存壓縮方法。據了解,英偉達推出的 KVTC 可實現 20 倍壓縮,且精度損失不到 1 個百分點。該算法在 15 億至 700 億參數的模型上完成了測試,覆蓋范圍比 TurboQuant 約 80 億參數上限的基準測試更廣。KVTC 采用了截然不同的底層思路,使用基于主成分分析(PCA)的去相關方法與熵編碼,部分思路借鑒自 JPEG 壓縮。與 TurboQuant 與數據無關的設計不同,KVTC 需要針對每個模型執行一次性校準步驟,離線計算 PCA 對齊矩陣。作為回報,它在 8000 token 的長提示詞下,可將首 token 延遲最高降低 8 倍:在 H100 上從約 3 秒縮短至 380 毫秒。

英偉達研究員 Adrian Lancucki 表示,“高效的 KV 緩存管理正變得至關重要,閑置緩存必須迅速從 GPU 顯存移出,為其他用戶騰出空間,并在對話恢復時快速加載。這些基礎設施成本如今已體現在商用定價中,例如‘提示詞緩存’,并會收取額外費用。”

兩種相互競爭的壓縮標準在同一場會議同期亮相,標志著 KV 緩存優化正從純研究課題,逐漸成熟為生產級基礎設施層。

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

https://winbuzzer.com/2026/03/26/googles-turboquant-reduces-ai-llm-cache-memory-xcxwbn/

https://thenextweb.com/news/google-turboquant-ai-compression-memory-stocks

聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。

會議推薦

OpenClaw 出圈,“養蝦”潮狂熱,開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下,自托管 Agent 形態迅速普及:多入口對話、持久記憶、Skills 工具鏈帶來強大生產力。但這背后也暴露了工程化落地的真實難題——權限邊界與隔離運行、Skills 供應鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團隊研發 / 運維流程并形成穩定收益。

針對這一系列挑戰,在 4 月 16-18 日即將舉辦的 QCon 北京站上,我們特別策劃了「OpenClaw 生態實踐」專題,將聚焦一線實踐與踩坑復盤,分享企業如何構建私有 Skills、制定安全護欄、搭建審計與回放機制、建立質量 / 效率指標體系,最終把自托管 Agent 從可用的 Demo 升級為可靠的生產系統。

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
高市訪美剛轉身,北京就斷了她的“選舉大腦”,日本GDP先跌了0.43?

高市訪美剛轉身,北京就斷了她的“選舉大腦”,日本GDP先跌了0.43?

新浪財經
2026-03-30 22:06:13
春天,吃它勝過“十只雞”,一補蛋白、二強免疫,吃過都說好!

春天,吃它勝過“十只雞”,一補蛋白、二強免疫,吃過都說好!

暖心萌阿菇涼
2026-03-29 13:22:43
為什么不能讓家里女人掌握經濟大權 網友講出一例例實例觸目驚心

為什么不能讓家里女人掌握經濟大權 網友講出一例例實例觸目驚心

侃神評故事
2026-03-29 19:35:03
愛情觀念,本質上是忽悠男人的!

愛情觀念,本質上是忽悠男人的!

賴煥慶
2026-03-09 11:00:10
許利民或下課?首鋼若換帥,大概率鎖定老熟人,41歲,年輕有為

許利民或下課?首鋼若換帥,大概率鎖定老熟人,41歲,年輕有為

萌蘭聊個球
2026-03-30 10:45:28
丁彥雨航:在籃網試訓打1v1對抗時曾贏過丁威迪并拿了第一名

丁彥雨航:在籃網試訓打1v1對抗時曾贏過丁威迪并拿了第一名

懂球帝
2026-03-30 10:11:06
山東男籃勝天津凸顯兩點:臨時工成絕對主力林庭謙打爆邱彪后衛線

山東男籃勝天津凸顯兩點:臨時工成絕對主力林庭謙打爆邱彪后衛線

姜大叔侃球
2026-03-30 22:09:36
火箭老板3億美元收購WNBA康涅狄格太陽隊,重啟休斯頓彗星隊名

火箭老板3億美元收購WNBA康涅狄格太陽隊,重啟休斯頓彗星隊名

懂球帝
2026-03-30 22:33:06
網友對柳馬不接張水華流量不高興,廣西網友對張水華不請自來不滿

網友對柳馬不接張水華流量不高興,廣西網友對張水華不請自來不滿

科學發掘
2026-03-30 17:28:34
俄警告韓國勿向烏提供致命性武器

俄警告韓國勿向烏提供致命性武器

財聯社
2026-03-29 09:30:26
華為 2025 股票分紅每股 1.16 元,越來越低

華為 2025 股票分紅每股 1.16 元,越來越低

ICT動態
2026-03-30 13:32:15
特魯姆普與馬曉晴社媒互相取關,兩年戀情疑似告終

特魯姆普與馬曉晴社媒互相取關,兩年戀情疑似告終

科學發掘
2026-03-30 10:39:33
為什么只有革命衛隊與美以干,而伊朗40萬國防軍沉默觀戰?

為什么只有革命衛隊與美以干,而伊朗40萬國防軍沉默觀戰?

廖保平
2026-03-17 09:04:38
鄧紫棋與男友現身首爾!她個矮身材55分,網友吐槽其選男友眼光差

鄧紫棋與男友現身首爾!她個矮身材55分,網友吐槽其選男友眼光差

觀察鑒娛
2026-03-30 12:59:08
當年恒大冰泉鋪滿超市,許家印都可以和農夫山泉掰手腕,為何大敗

當年恒大冰泉鋪滿超市,許家印都可以和農夫山泉掰手腕,為何大敗

小武侃風云
2026-03-19 01:59:23
楊瀚森6+4,5投1中!可怕的不是命中率,而是被抱摔倒地后的反應

楊瀚森6+4,5投1中!可怕的不是命中率,而是被抱摔倒地后的反應

球場沒跑道
2026-03-30 09:23:17
一個月允許吃幾次他達拉非?這樣服用,高效擺脫ED困擾

一個月允許吃幾次他達拉非?這樣服用,高效擺脫ED困擾

哆啦程醫生
2026-03-27 18:20:23
歐盟已做好準備,即使歐爾班勝選,也會是“竹籃打水一場空”

歐盟已做好準備,即使歐爾班勝選,也會是“竹籃打水一場空”

山河路口
2026-03-30 20:28:01
1952年,打了大敗仗的王近山,對彭德懷怒拍桌子:你這是什么打法

1952年,打了大敗仗的王近山,對彭德懷怒拍桌子:你這是什么打法

浩渺青史
2026-03-30 13:22:44
闖禍的最高境界是什么?看網友講述,這是正常人能做出的事情嗎?

闖禍的最高境界是什么?看網友講述,這是正常人能做出的事情嗎?

侃神評故事
2026-03-21 19:15:03
2026-03-31 00:00:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
1399文章數 143關注度
往期回顧 全部

科技要聞

一句謊言引發的硅谷血案

頭條要聞

媒體:鄭麗文受邀訪大陸核心原因 從當前局勢看不難猜

頭條要聞

媒體:鄭麗文受邀訪大陸核心原因 從當前局勢看不難猜

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

全紅嬋聊到體重哭了,每天只吃一頓飯

財經要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

限時12.58萬起 銀河星耀8遠航家系列上市

態度原創

藝術
健康
手機
教育
時尚

藝術要聞

600 年前的「產亡孤魂」,藏著中國女性最痛的記憶

干細胞抗衰4大誤區,90%的人都中招

手機要聞

蘋果京東旗艦店將于4月1日開啟“Apple 50周年慶”直播活動

教育要聞

當心,這家投訴量1700+!高新區公布體培機構“黑名單”

“小白鞋”今年春夏又火了!這5雙怎么搭都好看

無障礙瀏覽 進入關懷版