網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

谷歌新論文，重創(chuàng)存儲(chǔ)芯片

2026-03-27 08:55:21　來(lái)源: 半導(dǎo)體行業(yè)觀察

上海舉報(bào)

分享至

公眾號(hào)記得加星標(biāo)??，第一時(shí)間看推送不會(huì)錯(cuò)過(guò)。

谷歌最新研究聲稱(chēng)能夠提高人工智能模型的效率，這給內(nèi)存類(lèi)股票帶來(lái)了壓力，投資者擔(dān)心這項(xiàng)突破可能會(huì)導(dǎo)致芯片需求放緩。

周四，全球兩大內(nèi)存芯片制造商SK海力士和三星的股價(jià)在韓國(guó)分別下跌6%和近5%。日本閃存公司鎧俠的股價(jià)也下跌了近6%。此前，閃迪和美光的股價(jià)周三在美國(guó)也出現(xiàn)下跌。這兩家公司周四在美國(guó)盤(pán)前交易中股價(jià)均走低。

Alphabet旗下的谷歌周二發(fā)布了TurboQuant，這是一種新的壓縮方法，據(jù)稱(chēng)可以將運(yùn)行大型語(yǔ)言模型所需的內(nèi)存減少六倍。該技術(shù)專(zhuān)注于減少鍵值緩存，鍵值緩存用于存儲(chǔ)人工智能模型過(guò)去的計(jì)算結(jié)果，從而避免重復(fù)運(yùn)行。

這項(xiàng)技術(shù)旨在提高人工智能模型的效率，這也是領(lǐng)先實(shí)驗(yàn)室的主要目標(biāo)之一。

投資者擔(dān)心這可能會(huì)降低對(duì)人工智能內(nèi)存芯片的需求，而這些芯片一直是訓(xùn)練谷歌、OpenAI 和 Anthropic 等公司龐大的機(jī)器學(xué)習(xí)模型 (LLM) 的關(guān)鍵組件。

Cloudflare 首席執(zhí)行官 Matthew Prince 將這項(xiàng)研究稱(chēng)為“谷歌版的 DeepSeek”，意指中國(guó)人工智能公司 DeepSeek 去年取得的效率突破，該突破曾引發(fā)科技股的大規(guī)模拋售。

他在周三發(fā)表于 X 的一篇文章中表示：“在速度、內(nèi)存使用、功耗和多租戶(hù)利用率方面，人工智能推理還有很大的優(yōu)化空間。”

然而，SemiAnalysis 的內(nèi)存分析師 Ray Wang 表示，谷歌的研究成果未必能減少芯片的需求量。他指出，值緩存是“提升模型性能和硬件性能的關(guān)鍵瓶頸”。

Wang 表示，隨著模型性能的提升，“很難避免內(nèi)存使用量的增加”。

Wang 在接受 CNBC 采訪(fǎng)時(shí)表示：“解決瓶頸問(wèn)題有助于提升 AI 硬件的性能。未來(lái)的訓(xùn)練模型也會(huì)更加強(qiáng)大。模型性能越強(qiáng)，就越需要更強(qiáng)大的硬件來(lái)支持它。”

盡管周四股價(jià)下跌，但多種因素的完美結(jié)合仍在長(zhǎng)期支撐著存儲(chǔ)器市場(chǎng)。強(qiáng)勁的需求加上供應(yīng)短缺，將存儲(chǔ)器價(jià)格推至前所未有的高位，并提振了三星、SK海力士和美光等公司的利潤(rùn)。

過(guò)去一年，三星股價(jià)上漲了近200%，而美光和SK海力士的漲幅均超過(guò)300%。

分析師表示，本周存儲(chǔ)器股票的走勢(shì)主要是由獲利回吐推動(dòng)的。

Quilter Cheviot科技研究主管Ben Barringer告訴CNBC：“存儲(chǔ)器股票已經(jīng)經(jīng)歷了一輪非常強(qiáng)勁的上漲，而這是一個(gè)周期性很強(qiáng)的行業(yè)，因此投資者一直在尋找獲利了結(jié)的理由。”

“谷歌TurboQuant的創(chuàng)新確實(shí)加劇了市場(chǎng)壓力，但這只是漸進(jìn)式的，而非革命性的。它并不會(huì)改變行業(yè)的長(zhǎng)期需求格局。在一個(gè)已經(jīng)準(zhǔn)備好降低風(fēng)險(xiǎn)的市場(chǎng)中，即使是漸進(jìn)式的發(fā)展也可以被視為放松警惕的信號(hào)。”

TurboQuant究竟是什么？

簡(jiǎn)而言之，TurboQuant，這是一種壓縮算法，它能夠在降低大型語(yǔ)言模型（LLM）內(nèi)存占用的同時(shí)，提升速度并保持準(zhǔn)確性。

TurboQuant 的目標(biāo)是減小鍵值緩存的大小，谷歌將其比作“數(shù)字小抄”，用于存儲(chǔ)重要信息，避免重復(fù)計(jì)算。這個(gè)小抄是必要的，因?yàn)檎缥覀円恢睆?qiáng)調(diào)的，語(yǔ)言學(xué)習(xí)模型（LLM）實(shí)際上并不真正了解任何事物；它們可以通過(guò)向量來(lái)營(yíng)造一種“了解”事物的假象，這些向量映射了分詞文本的語(yǔ)義含義。當(dāng)兩個(gè)向量相似時(shí)，意味著它們?cè)诟拍钌暇哂邢嗨菩浴?/p>

高維向量可以包含成百上千個(gè)嵌入向量，用于描述圖像中的像素或大型數(shù)據(jù)集等復(fù)雜信息。它們會(huì)占用大量?jī)?nèi)存，并增加鍵值緩存的大小，從而成為性能瓶頸。為了縮小模型體積并提高效率，開(kāi)發(fā)者采用量化技術(shù)以較低的精度運(yùn)行模型。但缺點(diǎn)是輸出質(zhì)量會(huì)下降——詞元估計(jì)的質(zhì)量降低。谷歌的早期測(cè)試結(jié)果表明，TurboQuant 在某些測(cè)試中實(shí)現(xiàn)了 8 倍的性能提升和 6 倍的內(nèi)存使用量減少，且未損失任何質(zhì)量。

將 TurboQuant 應(yīng)用于 AI 模型是一個(gè)兩步過(guò)程。為了實(shí)現(xiàn)高質(zhì)量的壓縮，谷歌開(kāi)發(fā)了一個(gè)名為 PolarQuant 的系統(tǒng)。通常，AI 模型中的向量使用標(biāo)準(zhǔn)的 XYZ 坐標(biāo)進(jìn)行編碼，而 PolarQuant 則將向量轉(zhuǎn)換為笛卡爾坐標(biāo)系中的極坐標(biāo)。在這個(gè)圓形網(wǎng)格上，向量被簡(jiǎn)化為兩個(gè)信息：半徑（核心數(shù)據(jù)強(qiáng)度）和方向（數(shù)據(jù)含義）。

谷歌提供了一個(gè)有趣的現(xiàn)實(shí)世界類(lèi)比來(lái)解釋這個(gè)過(guò)程。向量坐標(biāo)就像方向，所以傳統(tǒng)的編碼可能是“向東走3個(gè)街區(qū)，向北走4個(gè)街區(qū)”。但使用笛卡爾坐標(biāo)，就變成了“沿37度角走5個(gè)街區(qū)”。這樣既節(jié)省空間，又避免了系統(tǒng)執(zhí)行耗時(shí)的數(shù)據(jù)歸一化步驟。

PolarQuant 負(fù)責(zé)大部分壓縮工作，但第二步會(huì)清理一些瑕疵。雖然 PolarQuant 效果顯著，但它可能會(huì)產(chǎn)生殘余誤差。谷歌提出了一種名為量化 Johnson-Lindenstrauss (QJL) 的技術(shù)來(lái)平滑這些誤差。該技術(shù)在模型中添加了一個(gè) 1 位糾錯(cuò)層，將每個(gè)向量簡(jiǎn)化為單個(gè)比特（+1 或 -1），同時(shí)保留描述關(guān)系的基本向量數(shù)據(jù)。最終結(jié)果是獲得更準(zhǔn)確的注意力分?jǐn)?shù)——這是神經(jīng)網(wǎng)絡(luò)判斷哪些數(shù)據(jù)重要的基本過(guò)程。

那么，這些數(shù)學(xué)計(jì)算真的有效嗎？谷歌表示，他們使用 Gemma 和 Mistral 開(kāi)放模型，在一系列長(zhǎng)上下文基準(zhǔn)測(cè)試中測(cè)試了這種新的算法壓縮方法。TurboQuant 在所有測(cè)試中都取得了完美的下游性能，同時(shí)將鍵值緩存的內(nèi)存使用量降低了 6 倍。該算法無(wú)需額外訓(xùn)練即可將緩存量化到僅 3 位，因此可以應(yīng)用于現(xiàn)有模型。在 Nvidia H100 加速器上，使用 4 位 TurboQuant 計(jì)算注意力分?jǐn)?shù)的速度也比使用 32 位未量化鍵快 8 倍。

如果TurboQuant得以實(shí)現(xiàn)，它可以降低AI模型的運(yùn)行成本，并減少內(nèi)存占用。然而，開(kāi)發(fā)這項(xiàng)技術(shù)的公司也可以利用釋放出來(lái)的內(nèi)存來(lái)運(yùn)行更復(fù)雜的模型。最終很可能是兩者兼而有之，但移動(dòng)AI或許能從中受益更多。考慮到智能手機(jī)的硬件限制，像TurboQuant這樣的壓縮技術(shù)可以在不將數(shù)據(jù)發(fā)送到云端的情況下提升輸出質(zhì)量。

半導(dǎo)體行業(yè)面臨的真正危機(jī)？

隨著谷歌發(fā)布其“TurboQuant”技術(shù)，該技術(shù)能夠大幅降低內(nèi)存使用量以提升人工智能（AI）性能，人們開(kāi)始猜測(cè)內(nèi)存半導(dǎo)體行業(yè)的繁榮可能即將結(jié)束。隨之而來(lái)的是一系列連鎖反應(yīng)，包括三星電子、SK海力士和美國(guó)美光等內(nèi)存半導(dǎo)體生產(chǎn)商的股價(jià)大幅下跌。

然而，專(zhuān)家認(rèn)為這種擔(dān)憂(yōu)反應(yīng)過(guò)度。他們解釋說(shuō)，即使TurboQuant技術(shù)能夠降低內(nèi)存需求，但總體內(nèi)存需求并不會(huì)下降，因?yàn)槿斯ぶ悄艿男枨笤鲩L(zhǎng)速度更快。

具體而言，一些人預(yù)測(cè)，如果TurboQuant技術(shù)能夠加速人工智能的運(yùn)行，它將推動(dòng)人工智能的普及，從而導(dǎo)致內(nèi)存需求的爆炸式增長(zhǎng)。這對(duì)三星電子和SK海力士來(lái)說(shuō)無(wú)疑是一大利好。

據(jù)業(yè)內(nèi)人士3月26日透露，谷歌研究院近日發(fā)布了一款名為T(mén)urboQuant的全新人工智能壓縮算法。

TurboQuant 是一種將“鍵值緩存”（用于大型語(yǔ)言模型 (LLM) 的臨時(shí)存儲(chǔ)器）壓縮到 3 位級(jí)別的技術(shù)，可將內(nèi)存使用量減少約六倍。簡(jiǎn)而言之，如果 TurboQuant 技術(shù)實(shí)現(xiàn)商業(yè)化，內(nèi)存需求將降至目前的六分之一。

谷歌解釋說(shuō)，這項(xiàng)技術(shù)可以比現(xiàn)有算法更準(zhǔn)確地壓縮數(shù)據(jù)，并將人工智能處理速度提高八倍。

TurboQuant技術(shù)的核心由三個(gè)主要部分組成。首先，它通過(guò)減小數(shù)據(jù)本身的大小來(lái)降低內(nèi)存占用。例如，傳統(tǒng)的AI進(jìn)行一次計(jì)算可能需要0.123456789的數(shù)據(jù)，而TurboQuant只需要0.12。

此外，它不存儲(chǔ)中間計(jì)算值，而是在需要時(shí)重新計(jì)算。這意味著雖然內(nèi)存使用量減少，但計(jì)算量卻增加了。

最后，它將問(wèn)題轉(zhuǎn)化為更簡(jiǎn)潔的形式。這是一種用更簡(jiǎn)潔的公式解決同一問(wèn)題的方法。

一位IT行業(yè)人士解釋說(shuō)：“雖然現(xiàn)有的AI需要大量?jī)?nèi)存才能快速處理數(shù)據(jù)，但TurboQuant使用的內(nèi)存更少，卻能執(zhí)行更多計(jì)算。”他補(bǔ)充道：“關(guān)鍵在于縮小數(shù)據(jù)規(guī)模，減少數(shù)據(jù)存儲(chǔ)，并且只計(jì)算必要的數(shù)據(jù)。”

專(zhuān)家評(píng)估認(rèn)為，雖然 TurboQuant 技術(shù)可以減少內(nèi)存使用量，但對(duì)內(nèi)存需求減緩的擔(dān)憂(yōu)有些過(guò)頭了。

普遍觀點(diǎn)認(rèn)為，盡管谷歌宣布內(nèi)存使用量可能會(huì)減少，但這將導(dǎo)致人工智能技術(shù)的進(jìn)步和普及，從而實(shí)際上增加整體內(nèi)存需求。

人工智能競(jìng)賽的趨勢(shì)正從簡(jiǎn)單的重復(fù)性任務(wù)轉(zhuǎn)向能夠執(zhí)行現(xiàn)實(shí)世界任務(wù)的基于智能體的人工智能，這也消除了這些擔(dān)憂(yōu)。人工智能智能體市場(chǎng)的加速擴(kuò)張預(yù)計(jì)將進(jìn)一步推動(dòng)內(nèi)存需求。

KB Securities 的研究員金日赫預(yù)測(cè)：“由于相同推理所需的 KV 緩存內(nèi)存更少，因此可以處理更多信息，這將擴(kuò)大 AI 模型的上下文窗口（AI 可以記住的最大文本范圍）。”

他繼續(xù)說(shuō)道：“如果所需的 KV 緩存內(nèi)存減少，不僅可以擴(kuò)大上下文窗口，還可以同時(shí)運(yùn)行多個(gè)代理。”

還有一種觀點(diǎn)認(rèn)為，人們對(duì) TurboQuant 技術(shù)的擔(dān)憂(yōu)與去年人們對(duì) DeepSeek 的擔(dān)憂(yōu)類(lèi)似。

研究員金指出：“這種情況與去年年初DeepSeek以二十分之一的成本訓(xùn)練出人工智能模型的消息引發(fā)市場(chǎng)恐慌的情況類(lèi)似。”他補(bǔ)充道：“考慮到人工智能市場(chǎng)此后加速增長(zhǎng)，這可以被視為‘杰文斯悖論’（一種技術(shù)進(jìn)步提高資源利用效率的現(xiàn)象，但往往會(huì)增加而非減少該資源的消耗速度）。”

另有觀點(diǎn)認(rèn)為，三星電子和SK海力士也將受益于TurboQuant技術(shù)的商業(yè)化。這是因?yàn)閮?nèi)存需求的增長(zhǎng)可能是一個(gè)積極因素。

三星證券研究員李永鎮(zhèn)表示：“如果采用 TurboQuant 算法，推理成本可以降低，但需求將會(huì)爆炸式增長(zhǎng)。”他還補(bǔ)充道：“可以使用較長(zhǎng)的上下文窗口和大規(guī)模批處理，而不會(huì)犧牲速度或質(zhì)量。”

三星電子方面，其半導(dǎo)體代工業(yè)務(wù)的訂單預(yù)計(jì)也將增加。三星電子正在為英偉達(dá)代工生產(chǎn)“Groq3”語(yǔ)言處理器（LPU：Language Processing Unit)）芯片。

英偉達(dá)首席執(zhí)行官黃仁勛于當(dāng)?shù)貢r(shí)間 16 日在“GTC 2026”大會(huì)上發(fā)布了 Groq3 LPU 芯片，該芯片與圖形處理單元 (GPU) 分工合作，以增強(qiáng)推理性能和效率，三星電子負(fù)責(zé)其制造。

LPU直接在芯片上集成了大規(guī)模高速內(nèi)存（SRAM），改善了現(xiàn)有基于DRAM工藝的HBM GPU中存在的瓶頸問(wèn)題。GPU擅長(zhǎng)并行處理，利用數(shù)千個(gè)核心同時(shí)處理多個(gè)操作，但在與外部?jī)?nèi)存交換數(shù)據(jù)時(shí)會(huì)遇到瓶頸。

隨著人工智能技術(shù)的發(fā)展，尤其是在推理方面，預(yù)計(jì)整體內(nèi)存需求將會(huì)增長(zhǎng)，而不僅僅局限于高帶寬內(nèi)存（HBM）或大容量?jī)?nèi)存（DRAM）。換句話(huà)說(shuō)，隨著基于SRAM的推理型人工智能芯片需求增加，生產(chǎn)這些芯片的三星電子的訂單量可能會(huì)上升。

研究員李永鎮(zhèn)分析道：“如果TurboQuant降低了推理成本，就能實(shí)現(xiàn)長(zhǎng)上下文處理和大規(guī)模批處理。”他補(bǔ)充說(shuō)：“總體推理需求實(shí)際上會(huì)增加。”

分析師：會(huì)增加對(duì)內(nèi)存的需求

如上所述，TurboQuant是一種壓縮算法，旨在解決人工智能模型鍵值存儲(chǔ)中內(nèi)存開(kāi)銷(xiāo)過(guò)大的問(wèn)題，且不會(huì)造成任何精度損失。谷歌文章指出，TurboQuant在所有基準(zhǔn)測(cè)試中均取得了完美的下游性能，同時(shí)將鍵值存儲(chǔ)（key value memory）的內(nèi)存大小至少減少了6倍。

例如，這可以降低人工智能推理工作負(fù)載的內(nèi)存需求，用于上下文感知內(nèi)存存儲(chǔ)。但通過(guò)降低人工智能的內(nèi)存和存儲(chǔ)需求，我們可以更有效地利用這些內(nèi)存和存儲(chǔ)空間，這很可能會(huì)提升人工智能工作流程，尤其是在本地部署的情況下。這可能會(huì)增加實(shí)現(xiàn)本地人工智能推理所需的內(nèi)存和存儲(chǔ)需求。

鍵值存儲(chǔ)是一種數(shù)據(jù)庫(kù)，它將數(shù)據(jù)存儲(chǔ)為一組唯一的鍵，從而可以快速訪(fǎng)問(wèn)與該鍵關(guān)聯(lián)的值（即數(shù)據(jù)）。鍵比數(shù)據(jù)小得多，因此可以快速查找。鍵使得快速訪(fǎng)問(wèn)關(guān)聯(lián)的值成為可能。

人工智能模型中的向量描述了數(shù)據(jù)的屬性。表示簡(jiǎn)單數(shù)據(jù)的向量（例如圖中的點(diǎn)）維度較低，而高維向量則描述復(fù)雜信息，例如圖像中的特征、詞義或數(shù)據(jù)集的屬性。這些大型向量需要占用大量?jī)?nèi)存，存儲(chǔ)在鍵值緩存中，用于存儲(chǔ)常用信息，以便比緩慢地搜索數(shù)據(jù)庫(kù)更快地檢索信息。

向量量化是一種壓縮數(shù)據(jù)以減小高維向量大小的方法。它通過(guò)加快相似性查找速度來(lái)增強(qiáng)向量搜索，并減小鍵值對(duì)的大小，從而加快相似性搜索速度并降低內(nèi)存消耗。然而，這種方法會(huì)帶來(lái)大量的內(nèi)存開(kāi)銷(xiāo)，導(dǎo)致實(shí)際的內(nèi)存消耗降低并不明顯。

TurboQuant 中使用的壓縮技術(shù)降低了矢量量化所需的內(nèi)存開(kāi)銷(xiāo)。文章指出，TurboQuant 的方法在不犧牲 AI 模型性能的前提下，展現(xiàn)出緩解鍵值瓶頸的巨大潛力，并將對(duì)搜索和 AI 應(yīng)用大有裨益。

當(dāng)然，文章中對(duì)這項(xiàng)壓縮技術(shù)的工作原理還有更多細(xì)節(jié)的闡述。作者指出，這項(xiàng)技術(shù)能夠以極少的內(nèi)存占用、幾乎為零的預(yù)處理時(shí)間和一流的精度構(gòu)建和查詢(xún)大型向量索引。然而，我沒(méi)有看到文中提及數(shù)據(jù)壓縮和解壓縮所需的處理開(kāi)銷(xiāo)，而這可能會(huì)影響整體性能。

但壓縮技術(shù)是降低人工智能應(yīng)用內(nèi)存需求的一種方法，而如今內(nèi)存資源十分緊缺。使用此類(lèi)方法可以降低人工智能數(shù)據(jù)中心的內(nèi)存需求，從而減輕數(shù)據(jù)中心的部分內(nèi)存壓力。

內(nèi)存和存儲(chǔ)設(shè)備的短缺也影響了個(gè)人電腦、智能手機(jī)以及其他需要內(nèi)存的個(gè)人和本地系統(tǒng)的出貨量。大型超大規(guī)模數(shù)據(jù)中心公司已經(jīng)鎖定了至少未來(lái)一兩年內(nèi)的DRAM、NAND閃存甚至硬盤(pán)驅(qū)動(dòng)器的生產(chǎn)。如果能將此類(lèi)壓縮技術(shù)應(yīng)用于這些本地設(shè)備，就能提高這些內(nèi)存容量較小的設(shè)備的實(shí)用性。

人工智能應(yīng)用的下一個(gè)重大發(fā)展方向是能夠?yàn)閱蝹€(gè)用戶(hù)執(zhí)行任務(wù)的智能體人工智能。如果使用得當(dāng)且安全，智能體人工智能可以極大地提高用戶(hù)的工作效率。出于安全考慮以及控制使用云資源進(jìn)行智能體人工智能的成本，許多組織選擇在本地進(jìn)行智能體人工智能推理。

用更少的內(nèi)存實(shí)現(xiàn)這一目標(biāo)可以加快智能體人工智能的部署速度，但這可能會(huì)增加對(duì)內(nèi)存的總體需求。因此，更高效的人工智能系統(tǒng)內(nèi)存使用方法可能會(huì)增加整體內(nèi)存需求，尤其是在長(zhǎng)期來(lái)看。

*免責(zé)聲明：本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn)，半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn)，不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持，如果有任何異議，歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4358內(nèi)容，歡迎關(guān)注。

加星標(biāo)??第一時(shí)間看推送

求推薦

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.