公眾號(hào)記得加星標(biāo)??,第一時(shí)間看推送不會(huì)錯(cuò)過(guò)。
谷歌最新研究聲稱(chēng)能夠提高人工智能模型的效率,這給內(nèi)存類(lèi)股票帶來(lái)了壓力,投資者擔(dān)心這項(xiàng)突破可能會(huì)導(dǎo)致芯片需求放緩。
周四,全球兩大內(nèi)存芯片制造商SK海力士和三星的股價(jià)在韓國(guó)分別下跌6%和近5%。日本閃存公司鎧俠的股價(jià)也下跌了近6%。此前,閃迪和美光的股價(jià)周三在美國(guó)也出現(xiàn)下跌。這兩家公司周四在美國(guó)盤(pán)前交易中股價(jià)均走低。
Alphabet旗下的谷歌周二發(fā)布了TurboQuant,這是一種新的壓縮方法,據(jù)稱(chēng)可以將運(yùn)行大型語(yǔ)言模型所需的內(nèi)存減少六倍。該技術(shù)專(zhuān)注于減少鍵值緩存,鍵值緩存用于存儲(chǔ)人工智能模型過(guò)去的計(jì)算結(jié)果,從而避免重復(fù)運(yùn)行。
這項(xiàng)技術(shù)旨在提高人工智能模型的效率,這也是領(lǐng)先實(shí)驗(yàn)室的主要目標(biāo)之一。
投資者擔(dān)心這可能會(huì)降低對(duì)人工智能內(nèi)存芯片的需求,而這些芯片一直是訓(xùn)練谷歌、OpenAI 和 Anthropic 等公司龐大的機(jī)器學(xué)習(xí)模型 (LLM) 的關(guān)鍵組件。
Cloudflare 首席執(zhí)行官 Matthew Prince 將這項(xiàng)研究稱(chēng)為“谷歌版的 DeepSeek”,意指中國(guó)人工智能公司 DeepSeek 去年取得的效率突破,該突破曾引發(fā)科技股的大規(guī)模拋售。
他在周三發(fā)表于 X 的一篇文章中表示:“在速度、內(nèi)存使用、功耗和多租戶(hù)利用率方面,人工智能推理還有很大的優(yōu)化空間。”
然而,SemiAnalysis 的內(nèi)存分析師 Ray Wang 表示,谷歌的研究成果未必能減少芯片的需求量。他指出,值緩存是“提升模型性能和硬件性能的關(guān)鍵瓶頸”。
Wang 表示,隨著模型性能的提升,“很難避免內(nèi)存使用量的增加”。
Wang 在接受 CNBC 采訪(fǎng)時(shí)表示:“解決瓶頸問(wèn)題有助于提升 AI 硬件的性能。未來(lái)的訓(xùn)練模型也會(huì)更加強(qiáng)大。模型性能越強(qiáng),就越需要更強(qiáng)大的硬件來(lái)支持它。”
盡管周四股價(jià)下跌,但多種因素的完美結(jié)合仍在長(zhǎng)期支撐著存儲(chǔ)器市場(chǎng)。強(qiáng)勁的需求加上供應(yīng)短缺,將存儲(chǔ)器價(jià)格推至前所未有的高位,并提振了三星、SK海力士和美光等公司的利潤(rùn)。
過(guò)去一年,三星股價(jià)上漲了近200%,而美光和SK海力士的漲幅均超過(guò)300%。
分析師表示,本周存儲(chǔ)器股票的走勢(shì)主要是由獲利回吐推動(dòng)的。
Quilter Cheviot科技研究主管Ben Barringer告訴CNBC:“存儲(chǔ)器股票已經(jīng)經(jīng)歷了一輪非常強(qiáng)勁的上漲,而這是一個(gè)周期性很強(qiáng)的行業(yè),因此投資者一直在尋找獲利了結(jié)的理由。”
“谷歌TurboQuant的創(chuàng)新確實(shí)加劇了市場(chǎng)壓力,但這只是漸進(jìn)式的,而非革命性的。它并不會(huì)改變行業(yè)的長(zhǎng)期需求格局。在一個(gè)已經(jīng)準(zhǔn)備好降低風(fēng)險(xiǎn)的市場(chǎng)中,即使是漸進(jìn)式的發(fā)展也可以被視為放松警惕的信號(hào)。”
TurboQuant究竟是什么?
簡(jiǎn)而言之,TurboQuant,這是一種壓縮算法,它能夠在降低大型語(yǔ)言模型(LLM)內(nèi)存占用的同時(shí),提升速度并保持準(zhǔn)確性。
TurboQuant 的目標(biāo)是減小鍵值緩存的大小,谷歌將其比作“數(shù)字小抄”,用于存儲(chǔ)重要信息,避免重復(fù)計(jì)算。這個(gè)小抄是必要的,因?yàn)檎缥覀円恢睆?qiáng)調(diào)的,語(yǔ)言學(xué)習(xí)模型(LLM)實(shí)際上并不真正了解任何事物;它們可以通過(guò)向量來(lái)營(yíng)造一種“了解”事物的假象,這些向量映射了分詞文本的語(yǔ)義含義。當(dāng)兩個(gè)向量相似時(shí),意味著它們?cè)诟拍钌暇哂邢嗨菩浴?/p>
高維向量可以包含成百上千個(gè)嵌入向量,用于描述圖像中的像素或大型數(shù)據(jù)集等復(fù)雜信息。它們會(huì)占用大量?jī)?nèi)存,并增加鍵值緩存的大小,從而成為性能瓶頸。為了縮小模型體積并提高效率,開(kāi)發(fā)者采用量化技術(shù)以較低的精度運(yùn)行模型。但缺點(diǎn)是輸出質(zhì)量會(huì)下降——詞元估計(jì)的質(zhì)量降低。谷歌的早期測(cè)試結(jié)果表明,TurboQuant 在某些測(cè)試中實(shí)現(xiàn)了 8 倍的性能提升和 6 倍的內(nèi)存使用量減少,且未損失任何質(zhì)量。
將 TurboQuant 應(yīng)用于 AI 模型是一個(gè)兩步過(guò)程。為了實(shí)現(xiàn)高質(zhì)量的壓縮,谷歌開(kāi)發(fā)了一個(gè)名為 PolarQuant 的系統(tǒng)。通常,AI 模型中的向量使用標(biāo)準(zhǔn)的 XYZ 坐標(biāo)進(jìn)行編碼,而 PolarQuant 則將向量轉(zhuǎn)換為笛卡爾坐標(biāo)系中的極坐標(biāo)。在這個(gè)圓形網(wǎng)格上,向量被簡(jiǎn)化為兩個(gè)信息:半徑(核心數(shù)據(jù)強(qiáng)度)和方向(數(shù)據(jù)含義)。
谷歌提供了一個(gè)有趣的現(xiàn)實(shí)世界類(lèi)比來(lái)解釋這個(gè)過(guò)程。向量坐標(biāo)就像方向,所以傳統(tǒng)的編碼可能是“向東走3個(gè)街區(qū),向北走4個(gè)街區(qū)”。但使用笛卡爾坐標(biāo),就變成了“沿37度角走5個(gè)街區(qū)”。這樣既節(jié)省空間,又避免了系統(tǒng)執(zhí)行耗時(shí)的數(shù)據(jù)歸一化步驟。
PolarQuant 負(fù)責(zé)大部分壓縮工作,但第二步會(huì)清理一些瑕疵。雖然 PolarQuant 效果顯著,但它可能會(huì)產(chǎn)生殘余誤差。谷歌提出了一種名為量化 Johnson-Lindenstrauss (QJL) 的技術(shù)來(lái)平滑這些誤差。該技術(shù)在模型中添加了一個(gè) 1 位糾錯(cuò)層,將每個(gè)向量簡(jiǎn)化為單個(gè)比特(+1 或 -1),同時(shí)保留描述關(guān)系的基本向量數(shù)據(jù)。最終結(jié)果是獲得更準(zhǔn)確的注意力分?jǐn)?shù)——這是神經(jīng)網(wǎng)絡(luò)判斷哪些數(shù)據(jù)重要的基本過(guò)程。
![]()
那么,這些數(shù)學(xué)計(jì)算真的有效嗎?谷歌表示,他們使用 Gemma 和 Mistral 開(kāi)放模型,在一系列長(zhǎng)上下文基準(zhǔn)測(cè)試中測(cè)試了這種新的算法壓縮方法。TurboQuant 在所有測(cè)試中都取得了完美的下游性能,同時(shí)將鍵值緩存的內(nèi)存使用量降低了 6 倍。該算法無(wú)需額外訓(xùn)練即可將緩存量化到僅 3 位,因此可以應(yīng)用于現(xiàn)有模型。在 Nvidia H100 加速器上,使用 4 位 TurboQuant 計(jì)算注意力分?jǐn)?shù)的速度也比使用 32 位未量化鍵快 8 倍。
如果TurboQuant得以實(shí)現(xiàn),它可以降低AI模型的運(yùn)行成本,并減少內(nèi)存占用。然而,開(kāi)發(fā)這項(xiàng)技術(shù)的公司也可以利用釋放出來(lái)的內(nèi)存來(lái)運(yùn)行更復(fù)雜的模型。最終很可能是兩者兼而有之,但移動(dòng)AI或許能從中受益更多。考慮到智能手機(jī)的硬件限制,像TurboQuant這樣的壓縮技術(shù)可以在不將數(shù)據(jù)發(fā)送到云端的情況下提升輸出質(zhì)量。
半導(dǎo)體行業(yè)面臨的真正危機(jī)?
隨著谷歌發(fā)布其“TurboQuant”技術(shù),該技術(shù)能夠大幅降低內(nèi)存使用量以提升人工智能(AI)性能,人們開(kāi)始猜測(cè)內(nèi)存半導(dǎo)體行業(yè)的繁榮可能即將結(jié)束。隨之而來(lái)的是一系列連鎖反應(yīng),包括三星電子、SK海力士和美國(guó)美光等內(nèi)存半導(dǎo)體生產(chǎn)商的股價(jià)大幅下跌。
然而,專(zhuān)家認(rèn)為這種擔(dān)憂(yōu)反應(yīng)過(guò)度。他們解釋說(shuō),即使TurboQuant技術(shù)能夠降低內(nèi)存需求,但總體內(nèi)存需求并不會(huì)下降,因?yàn)槿斯ぶ悄艿男枨笤鲩L(zhǎng)速度更快。
具體而言,一些人預(yù)測(cè),如果TurboQuant技術(shù)能夠加速人工智能的運(yùn)行,它將推動(dòng)人工智能的普及,從而導(dǎo)致內(nèi)存需求的爆炸式增長(zhǎng)。這對(duì)三星電子和SK海力士來(lái)說(shuō)無(wú)疑是一大利好。
據(jù)業(yè)內(nèi)人士3月26日透露,谷歌研究院近日發(fā)布了一款名為T(mén)urboQuant的全新人工智能壓縮算法。
TurboQuant 是一種將“鍵值緩存”(用于大型語(yǔ)言模型 (LLM) 的臨時(shí)存儲(chǔ)器)壓縮到 3 位級(jí)別的技術(shù),可將內(nèi)存使用量減少約六倍。簡(jiǎn)而言之,如果 TurboQuant 技術(shù)實(shí)現(xiàn)商業(yè)化,內(nèi)存需求將降至目前的六分之一。
谷歌解釋說(shuō),這項(xiàng)技術(shù)可以比現(xiàn)有算法更準(zhǔn)確地壓縮數(shù)據(jù),并將人工智能處理速度提高八倍。
TurboQuant技術(shù)的核心由三個(gè)主要部分組成。首先,它通過(guò)減小數(shù)據(jù)本身的大小來(lái)降低內(nèi)存占用。例如,傳統(tǒng)的AI進(jìn)行一次計(jì)算可能需要0.123456789的數(shù)據(jù),而TurboQuant只需要0.12。
此外,它不存儲(chǔ)中間計(jì)算值,而是在需要時(shí)重新計(jì)算。這意味著雖然內(nèi)存使用量減少,但計(jì)算量卻增加了。
最后,它將問(wèn)題轉(zhuǎn)化為更簡(jiǎn)潔的形式。這是一種用更簡(jiǎn)潔的公式解決同一問(wèn)題的方法。
一位IT行業(yè)人士解釋說(shuō):“雖然現(xiàn)有的AI需要大量?jī)?nèi)存才能快速處理數(shù)據(jù),但TurboQuant使用的內(nèi)存更少,卻能執(zhí)行更多計(jì)算。”他補(bǔ)充道:“關(guān)鍵在于縮小數(shù)據(jù)規(guī)模,減少數(shù)據(jù)存儲(chǔ),并且只計(jì)算必要的數(shù)據(jù)。”
專(zhuān)家評(píng)估認(rèn)為,雖然 TurboQuant 技術(shù)可以減少內(nèi)存使用量,但對(duì)內(nèi)存需求減緩的擔(dān)憂(yōu)有些過(guò)頭了。
普遍觀點(diǎn)認(rèn)為,盡管谷歌宣布內(nèi)存使用量可能會(huì)減少,但這將導(dǎo)致人工智能技術(shù)的進(jìn)步和普及,從而實(shí)際上增加整體內(nèi)存需求。
人工智能競(jìng)賽的趨勢(shì)正從簡(jiǎn)單的重復(fù)性任務(wù)轉(zhuǎn)向能夠執(zhí)行現(xiàn)實(shí)世界任務(wù)的基于智能體的人工智能,這也消除了這些擔(dān)憂(yōu)。人工智能智能體市場(chǎng)的加速擴(kuò)張預(yù)計(jì)將進(jìn)一步推動(dòng)內(nèi)存需求。
KB Securities 的研究員金日赫預(yù)測(cè):“由于相同推理所需的 KV 緩存內(nèi)存更少,因此可以處理更多信息,這將擴(kuò)大 AI 模型的上下文窗口(AI 可以記住的最大文本范圍)。”
他繼續(xù)說(shuō)道:“如果所需的 KV 緩存內(nèi)存減少,不僅可以擴(kuò)大上下文窗口,還可以同時(shí)運(yùn)行多個(gè)代理。”
還有一種觀點(diǎn)認(rèn)為,人們對(duì) TurboQuant 技術(shù)的擔(dān)憂(yōu)與去年人們對(duì) DeepSeek 的擔(dān)憂(yōu)類(lèi)似。
研究員金指出:“這種情況與去年年初DeepSeek以二十分之一的成本訓(xùn)練出人工智能模型的消息引發(fā)市場(chǎng)恐慌的情況類(lèi)似。”他補(bǔ)充道:“考慮到人工智能市場(chǎng)此后加速增長(zhǎng),這可以被視為‘杰文斯悖論’(一種技術(shù)進(jìn)步提高資源利用效率的現(xiàn)象,但往往會(huì)增加而非減少該資源的消耗速度)。”
另有觀點(diǎn)認(rèn)為,三星電子和SK海力士也將受益于TurboQuant技術(shù)的商業(yè)化。這是因?yàn)閮?nèi)存需求的增長(zhǎng)可能是一個(gè)積極因素。
三星證券研究員李永鎮(zhèn)表示:“如果采用 TurboQuant 算法,推理成本可以降低,但需求將會(huì)爆炸式增長(zhǎng)。”他還補(bǔ)充道:“可以使用較長(zhǎng)的上下文窗口和大規(guī)模批處理,而不會(huì)犧牲速度或質(zhì)量。”
三星電子方面,其半導(dǎo)體代工業(yè)務(wù)的訂單預(yù)計(jì)也將增加。三星電子正在為英偉達(dá)代工生產(chǎn)“Groq3”語(yǔ)言處理器(LPU:Language Processing Unit))芯片。
英偉達(dá)首席執(zhí)行官黃仁勛于當(dāng)?shù)貢r(shí)間 16 日在“GTC 2026”大會(huì)上發(fā)布了 Groq3 LPU 芯片,該芯片與圖形處理單元 (GPU) 分工合作,以增強(qiáng)推理性能和效率,三星電子負(fù)責(zé)其制造。
LPU直接在芯片上集成了大規(guī)模高速內(nèi)存(SRAM),改善了現(xiàn)有基于DRAM工藝的HBM GPU中存在的瓶頸問(wèn)題。GPU擅長(zhǎng)并行處理,利用數(shù)千個(gè)核心同時(shí)處理多個(gè)操作,但在與外部?jī)?nèi)存交換數(shù)據(jù)時(shí)會(huì)遇到瓶頸。
隨著人工智能技術(shù)的發(fā)展,尤其是在推理方面,預(yù)計(jì)整體內(nèi)存需求將會(huì)增長(zhǎng),而不僅僅局限于高帶寬內(nèi)存(HBM)或大容量?jī)?nèi)存(DRAM)。換句話(huà)說(shuō),隨著基于SRAM的推理型人工智能芯片需求增加,生產(chǎn)這些芯片的三星電子的訂單量可能會(huì)上升。
研究員李永鎮(zhèn)分析道:“如果TurboQuant降低了推理成本,就能實(shí)現(xiàn)長(zhǎng)上下文處理和大規(guī)模批處理。”他補(bǔ)充說(shuō):“總體推理需求實(shí)際上會(huì)增加。”
分析師:會(huì)增加對(duì)內(nèi)存的需求
如上所述,TurboQuant是一種壓縮算法,旨在解決人工智能模型鍵值存儲(chǔ)中內(nèi)存開(kāi)銷(xiāo)過(guò)大的問(wèn)題,且不會(huì)造成任何精度損失。谷歌文章指出,TurboQuant在所有基準(zhǔn)測(cè)試中均取得了完美的下游性能,同時(shí)將鍵值存儲(chǔ)(key value memory)的內(nèi)存大小至少減少了6倍。
例如,這可以降低人工智能推理工作負(fù)載的內(nèi)存需求,用于上下文感知內(nèi)存存儲(chǔ)。但通過(guò)降低人工智能的內(nèi)存和存儲(chǔ)需求,我們可以更有效地利用這些內(nèi)存和存儲(chǔ)空間,這很可能會(huì)提升人工智能工作流程,尤其是在本地部署的情況下。這可能會(huì)增加實(shí)現(xiàn)本地人工智能推理所需的內(nèi)存和存儲(chǔ)需求。
鍵值存儲(chǔ)是一種數(shù)據(jù)庫(kù),它將數(shù)據(jù)存儲(chǔ)為一組唯一的鍵,從而可以快速訪(fǎng)問(wèn)與該鍵關(guān)聯(lián)的值(即數(shù)據(jù))。鍵比數(shù)據(jù)小得多,因此可以快速查找。鍵使得快速訪(fǎng)問(wèn)關(guān)聯(lián)的值成為可能。
人工智能模型中的向量描述了數(shù)據(jù)的屬性。表示簡(jiǎn)單數(shù)據(jù)的向量(例如圖中的點(diǎn))維度較低,而高維向量則描述復(fù)雜信息,例如圖像中的特征、詞義或數(shù)據(jù)集的屬性。這些大型向量需要占用大量?jī)?nèi)存,存儲(chǔ)在鍵值緩存中,用于存儲(chǔ)常用信息,以便比緩慢地搜索數(shù)據(jù)庫(kù)更快地檢索信息。
向量量化是一種壓縮數(shù)據(jù)以減小高維向量大小的方法。它通過(guò)加快相似性查找速度來(lái)增強(qiáng)向量搜索,并減小鍵值對(duì)的大小,從而加快相似性搜索速度并降低內(nèi)存消耗。然而,這種方法會(huì)帶來(lái)大量的內(nèi)存開(kāi)銷(xiāo),導(dǎo)致實(shí)際的內(nèi)存消耗降低并不明顯。
TurboQuant 中使用的壓縮技術(shù)降低了矢量量化所需的內(nèi)存開(kāi)銷(xiāo)。文章指出,TurboQuant 的方法在不犧牲 AI 模型性能的前提下,展現(xiàn)出緩解鍵值瓶頸的巨大潛力,并將對(duì)搜索和 AI 應(yīng)用大有裨益。
當(dāng)然,文章中對(duì)這項(xiàng)壓縮技術(shù)的工作原理還有更多細(xì)節(jié)的闡述。作者指出,這項(xiàng)技術(shù)能夠以極少的內(nèi)存占用、幾乎為零的預(yù)處理時(shí)間和一流的精度構(gòu)建和查詢(xún)大型向量索引。然而,我沒(méi)有看到文中提及數(shù)據(jù)壓縮和解壓縮所需的處理開(kāi)銷(xiāo),而這可能會(huì)影響整體性能。
但壓縮技術(shù)是降低人工智能應(yīng)用內(nèi)存需求的一種方法,而如今內(nèi)存資源十分緊缺。使用此類(lèi)方法可以降低人工智能數(shù)據(jù)中心的內(nèi)存需求,從而減輕數(shù)據(jù)中心的部分內(nèi)存壓力。
內(nèi)存和存儲(chǔ)設(shè)備的短缺也影響了個(gè)人電腦、智能手機(jī)以及其他需要內(nèi)存的個(gè)人和本地系統(tǒng)的出貨量。大型超大規(guī)模數(shù)據(jù)中心公司已經(jīng)鎖定了至少未來(lái)一兩年內(nèi)的DRAM、NAND閃存甚至硬盤(pán)驅(qū)動(dòng)器的生產(chǎn)。如果能將此類(lèi)壓縮技術(shù)應(yīng)用于這些本地設(shè)備,就能提高這些內(nèi)存容量較小的設(shè)備的實(shí)用性。
人工智能應(yīng)用的下一個(gè)重大發(fā)展方向是能夠?yàn)閱蝹€(gè)用戶(hù)執(zhí)行任務(wù)的智能體人工智能。如果使用得當(dāng)且安全,智能體人工智能可以極大地提高用戶(hù)的工作效率。出于安全考慮以及控制使用云資源進(jìn)行智能體人工智能的成本,許多組織選擇在本地進(jìn)行智能體人工智能推理。
用更少的內(nèi)存實(shí)現(xiàn)這一目標(biāo)可以加快智能體人工智能的部署速度,但這可能會(huì)增加對(duì)內(nèi)存的總體需求。因此,更高效的人工智能系統(tǒng)內(nèi)存使用方法可能會(huì)增加整體內(nèi)存需求,尤其是在長(zhǎng)期來(lái)看。
*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。
今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4358內(nèi)容,歡迎關(guān)注。
加星標(biāo)??第一時(shí)間看推送
求推薦
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.