聽雨 發自 凹非寺量子位 | 公眾號 QbitAI
就在大家都急頭白臉地等待DeepSeek-V4的時候,冷不丁一篇新論文引起了網友們的注意——
提出新稀疏注意力機制HISA(分層索引稀疏注意力),突破64K上下文的索引瓶頸,相比DeepSeek正在用的DSA(DeepSeek Sparse Attention)提速2-4倍。
![]()
不僅做到了大幅提速,而且幾乎不丟精度、即插即用不用重新訓練
![]()
論文直接在DeepSeek-V3.2和GLM-5上替換索引器,無需微調。
并且在找關鍵信息、長文本理解等任務上,精度都和原方法幾乎持平。
![]()
兩步消除上下文索引瓶頸
這篇論文想解決的問題很明確:給大模型的稀疏注意力機制換個更高效的 “檢索器”。
現有主流的DSA等token級稀疏注意力,核心就是通過只計算關鍵token的注意力,降低了核心計算成本。
但這個設計有個致命隱藏問題:要挑出相關字符,得靠一個 “索引器”——它需要把每個待查字符,和前面所有字符挨個打分,再選分數最高的。
文本長度L越長,這個打分的工作量是L的平方級增長。比如長度翻倍,工作量就會翻4倍。
到超長文本時,這個索引器的平方級成本,反而成了拖慢速度的元兇,甚至反而比真正的注意力計算還耗時。
基于此,研究團隊開始思考一個問題:能否在不改變最終稀疏注意力結果的前提下,降低索引器的搜索成本?
于是,他們提出了HISA(分層索引稀疏注意力),核心思路也很簡單:
既然挨個打分太費時間,那就先按塊篩掉大部分無關內容,再在剩下的小塊里精細選。
![]()
在功能邏輯上實現對原有模塊的等價替換,無需修改后續注意力計算邏輯,相當于 “換了個更高效的篩子,篩出來的東西幾乎沒變”。
具體就兩步,全程復用原模型的打分規則,零學習成本:
塊級粗過濾
- 把長文本切成固定大小的 “字符塊”(比如128個字符一塊),給每個塊算一個 “整體特征向量”(相當于給每塊貼個總標簽)
- 用原索引器的打分方式,只給這些塊標簽打分
- 挑出分數最高的m個塊(比如64個),直接扔掉剩下的所有塊——塊的數量遠少于字符數。
這一步能省掉絕大部分工作量。
塊內精挑字符
只在第一步選出來的m個塊里,用原索引器的規則給單個字符打分,再挑出最終需要的k個相關字符。
還加了個小優化:文本的第一個塊和最后一個塊必選,保證開頭的背景信息、結尾的最新上下文不被誤篩,也能處理文本拼接的邊界問題。
![]()
HISA的關鍵優勢在于:復雜度驟降,還能 “無縫替換”
HISA把原索引器每一層 O (L2) 的算力成本,降到了O(L2/B + L×m×B)(B 是塊大小、m 是選的塊數)
文本越長、塊選得越精準,提速效果越明顯。
更重要的是它的工程友好性
輸出和原索引器完全一致,下游的注意力計算模塊不用改;
不用重新訓練模型、不用調整KV緩存結構,直接替換原索引器就行;
短文本時會自動 “退化” 成原方法,只有超長文本時才觸發分層篩選,全程自適應。
實測提速超猛,精度幾乎沒丟
論文在DeepSeek-V3.2、GLM-5兩大主流大模型上做了全面測試,結果很亮眼:
速度上,在64K長度的文本下,HISA 比原DSA索引器最高提速3.75倍,常規設置也能提速2倍多。
![]()
上下文長度越長,HISA的提速效果越顯著,完全契合超長上下文(128K/1M)的實際應用需求。
精度上,HISA也幾乎完全保留原DSA的精度,且顯著優于純塊稀疏方法。
論文進行了“大海撈針”測試,該測試衡量在超長無關文本中,精準檢索指定位置關鍵信息的能力。
結果HISA和DSA幾乎一樣準,在所有長度和插入深度下,檢索精度均接近DSA的近乎滿分。
![]()
長文本理解(LongBench 基準)上,HISA的分數也和DSA基本持平。
甚至在部分場景,比如合成檢索、少樣本學習等對token篩選精度要求高的任務中,HISA做到了小幅反超。
![]()
而在超參數測試中,不同塊大小、選塊數量下,HISA表現都很穩定,分數均與DSA高度接近,無顯著性能差異
![]()
這也說明HISA對超參數的選擇不敏感,魯棒性強,工程落地時無需精細調參。
不過目前HISA還有小瑕疵,作者也提出了后續改進思路:
第一,現在塊是固定大小的,若一個塊里混了無關和相關內容,塊的 “整體標簽” 會不準。
未來可以搞自適應塊、重疊塊,或換更好的塊特征計算方式。
第二,目前只是推理時直接用,未來可以把塊篩選和模型一起訓練,讓篩選更精準。
第三,現在只測了索引器的速度,未來整合到完整的大模型服務框架里,測端到端的吞吐量和延遲。
團隊背景
這篇論文出自北京大學的張牧涵團隊。
張牧涵,北京大學人工智能研究院的Tanure-track助理教授和博士生導師。
回國前曾在Facebook AI(現為 Meta AI)擔任研究員,從事大規模圖學習系統和問題的研究。
![]()
其Google Scholar總引用量超過13000次,其中兩篇一作文章引用量分別達到3100+和2400+次,連續多年入選Elsevier全球前2%頂尖科學家(生涯影響力榜單)
Yufei Xu(徐宇飛)和Fanxu Meng(孟繁續)為論文的共同一作。
[1]https://arxiv.org/abs/2603.28458
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.