網易首頁 > 網易號 > 正文申請入駐

讓內存股血流成河的“Google突破性算法”，是又一個離譜大烏龍

2026-03-26 15:13:08　來源: 硅星GenAI

上海舉報

分享至

作者｜董道力
郵箱｜ dongdaoli@pingwest.com

3 月 25 日，首爾證券交易所開盤不到兩小時，SK Hynix 跌近 6%，三星跌 4.8%，KOSPI 指數單日大跌 3%。同一天，美股的 Micron 跌 7%，SanDisk 跌 6.8%，Lam Research 跌 5%。

全球的內存公司迎來黑色的一天，堪比 DeepSeek 在春節引發的核爆。

而引發這波跌停潮的，是谷歌研究院發布的一篇博客文章。博客介紹了一個叫 TurboQuant 的壓縮算法，說它能把 AI 的KV Cache存儲需求降低 6 倍。

市場邏輯是，過去兩年，內存芯片廠商的股價漲了 300%，靠的是一個共識：AI 越來越能干，就需要越來越多的內存，需求沒有天花板。

現在Google的新算法既然是解決了“存儲”的問題，那必然就打破了內存需求的邏輯。而市場也有點苦內存久已。

于是，華爾街一致認定這就是類似DeepSeek的時刻，內存股應聲大跌。

這樣的陣仗也迅速傳遞到中文世界，大家也在討論Google又帶來了一個DeepSeek時刻。

然而，這一切其實都是一場烏龍。

不止是這篇引發血案的論文都不是今天新的成果——TurboQuant 論文最早于 2025 年 4 月 28 日上傳到 arXiv（編號 arXiv:2504.19874），至今已經 11 個月。這期間，無人談論。

而且更荒誕的是，如果你仔細閱讀這個研究，會發現它跟引發內存股暴跌的邏輯毫無關系，談不上什么DeepSeek時刻。

是的，又一場FOMO之下的詭異全民狂歡。

谷歌論文說了什么？

要理解 TurboQuant，先要理解一件事：大模型跑推理時，真正的內存大頭不是模型本身，而是對話過程中產生的緩存。

每當模型處理一段對話，它需要"記住"所有歷史 token 的信息。這些信息被存成 Key-Value 鍵值對，叫做 KV Cache，實時寫入顯存。上下文越長，KV Cache 越大。一個 128K context 的會話，單次推理的 KV Cache 就可以輕松超過幾十 GB，對于同時服務 512 個用戶的 70B 參數模型，KV Cache 消耗的顯存可以是模型權重的 4 倍。

這就是為什么大模型服務商對長上下文收取額外費用，也是"Prompt Caching"作為獨立計費項出現的原因。KV Cache 不是算力問題，是內存帶寬和容量問題。

TurboQuant 解決的，正是這個問題。

傳統壓縮方法有一個隱藏成本：每壓縮一塊數據，就需要額外存儲"量化常數"（用來還原的元數據），每個數字額外付出 1 到 2 bit 的代價。壓縮越多，這個 overhead 越不可忽視——就像買了個小行李箱，但行李箱本身就重 10 斤。

TurboQuant 用兩步解決了這個問題。

第一步是隨機旋轉量化（TURBOQUANTmse）：對向量施加隨機旋轉矩陣，使每個坐標無論原始分布如何，都服從集中的Beta分布。Transformer注意力機制依賴的是向量之間的內積，不是每個數字的絕對值。旋轉之后，坐標分布變得集中且可預測，可以用一套預計算好的最優標量量化表（Lloyd-Max算法）逐坐標壓縮，完全不需要存儲per-block的量化常數。overhead歸零。

第二步叫 QJL（量化 Johnson-Lindenstrauss 變換）：第一步之后還有一點殘差誤差。直接扔掉會導致內積估計產生系統性偏差，影響注意力計算的準確性。QJL 用 1 bit 處理這點殘差，利用 Johnson-Lindenstrauss 變換保證估計無偏。

結果就是，KV Cache 被壓縮到 3.5 bit，質量完全無損，2.5 bit 時只有輕微下降。A100上，4-bit TurboQuant的注意力計算速度比PyTorch基線快約8倍。

論文中做了一個測試"大模型在超長文章里找一句話的能力"。顏色越綠越好。TurboQuant 壓縮了 4 倍，顏色和不壓縮完全一樣。

更硬的是理論部分。

作者用香農信息論等基本原理證明，任何向量量化算法能達到的理論最優是一個確定的下界，TurboQuant 距離這個下界只差約 2.7 倍的常數因子。這不是"我們實驗上效果好"，而是"理論上我們已經接近不可能更好的極限了"。

在它所涉及到的技術領域，這確實是一篇有分量的論文，它也入選了 ICLR 2026 主會場。

但即便在同領域里，這一篇論文之后的關注度也并不突出。

論文很硬，但和內存關系不大

直到一年后的今天。

谷歌 3 月 25 日發布博客時，推特上的傳播鏈是這樣的：科技博主截圖轉發，"谷歌革命性算法讓內存需求降低 6 倍"，媒體跟進報道"AI 內存需求見頂"，韓國財經媒體把 SK Hynix、三星和 TurboQuant 放進同一個標題，開盤跌停。

但這個推導鏈在第一步就斷了。

TurboQuant 壓縮的是推理時 GPU 顯存里的 KV Cache，這是一個軟件層的算法優化。

AI 對內存芯片的需求來自三塊：模型權重、訓練時的激活值和梯度、推理時的 KV Cache。TurboQuant 只碰第三項，前兩項完全沒動。

更關鍵的是，AI 內存需求的核心矛盾從來不是"存不夠"，而是"帶寬不夠"。HBM（高速緩存）之所以是 AI 基礎設施的核心，是因為 GPU 計算核心等不及數據從內存傳輸過來。HBM 的價值在于它每秒能傳多少數據，而不只是能存多少。KV Cache 被壓縮到 6 分之一，意味著傳輸量也降了，這實際上是在把算力和帶寬解放出來，而不是在讓內存變得不重要。

還有一個問題。TurboQuant 目前沒有官方代碼。現有的 PyTorch 和 llama.cpp 實現，都是社區開發者自己從論文里扒出來寫的。vLLM、Ollama、TensorRT-LLM 等主流推理框架均未集成。實驗只在 Gemma、Mistral 等小模型上驗證過。70B 以上模型、MoE 架構、1M token 上下文

——這些 AI 內存需求真正爆炸的場景，論文里一個數據都沒有。

這次內存股暴跌顯然又是一個烏龍，市場對一篇范圍有限的算法論文，經過一番詭異的折騰，最終做出了一個關于整個產業周期的判斷，并直接真金白銀沖擊了二級市場。

你能從中看到市場今天對于 AI 的態度：極度FOMO，越發迷茫。

在AI不停用震驚體刺激每個人后，人們面對一個研究成果，第一時間反應已經不再是關心研究本身。比如，在這一次的鬧劇里，市場真正在定價的，不是 TurboQuant 本身，而是一個敘事：AI 內存需求可能已經見頂。

這個敘事有它的背景。美光在 3 月 18 日公布了 Q2 財報，營收 239 億美元，遠超預期，但股價在隨后一周連跌四天。

市場擔心的不是現在，是未來：美光 Q1 資本支出同比增長 68%，達到 53.9 億美元，這是一個押注內存需求持續增長的巨大賭注。TurboQuant 的出現，給了市場一個"需求可能沒那么多"的理由，兩個擔憂疊加，觸發了這波賣出。

但這個推導鏈，在技術層面就已經斷了。TurboQuant 壓縮的是推理時的 KV Cache，只是 AI 內存需求的三個來源之一。

經濟學里有個概念叫杰文斯悖論：煤炭蒸汽機效率提升之后，煤炭消耗總量反而增加了，因為更多人開始用蒸汽機。

TurboQuant 如果真的落地，最可能的結果是：服務商用節省下來的顯存把 context window 從 128K 做到 1M，并發數從 512 做到 5000，總內存需求持平甚至上升。

這些邏輯可能會在未來被市場理解，但此刻整個社會和市場對于AI的討論最大需求就是情緒價值，一個長鏈路的技術和產業邏輯顯然提供不了情緒，只有“突破性算法”和“DeepSeek時刻”可以。

所以，我們可以期待的就是，這種烏龍只會越來越多，繼續頻繁的發生。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.