![]()
智東西
作者 陳駿達
編輯 漠影
智東西3月20日報道,昨天,小米發布了Mimo-V2 Pro大模型,又一次把混合注意力架構推到了行業的聚光燈下。
這款萬億參數的大模型,采用了1:7的混合注意力比例,在提供接近Claude Opus 4.6能力的同時,API定價僅為后者的1/5。
實際上,小米的混合注意力架構探索,延續了國內大模型頭部廠商在效率優化上的技術共識。過去一段時間里,國內多個大模型頭部玩家都展示了他們在混合注意力方面的突破性進展。
今年2月,螞蟻推出全球首個混合線性注意力架構的萬億參數思考模型;去年9月,阿里則在下一代模型架構Qwen-Next中采用混合線性注意力。與此同時,月之暗面、MiniMax等玩家也在各自的模型迭代中引入了類似的架構優化方案。
混合注意力架構的探索,已經幾乎成為大模型廠商的必答題。不同的只是技術路徑的選擇,相同的是對效率與性能平衡點的共同追求。
一、頭部玩家押注混合注意力,多條技術路徑并行
在深度學習中,注意力機制讓模型能夠有選擇地關注輸入信息中的重要部分,而Softmax一直是主流架構的核心注意力計算機制。
這種機制每次計算都“翻閱”完整上下文,精準捕捉詞與詞的關聯,賦予模型強大表達力和細粒度對齊能力。
![]()
但其代價明顯:隨著文本長度增加,其計算量呈平方級增長。它還需要存儲大量KV緩存,帶來顯存壓力。這在越來越追求推理效率和成本控制的商業化場景中,展現出不足。
面對這一共同挑戰,業界探索出了三條主要的技術路徑。
第一條路徑是稀疏注意力(Sparse Attention),其核心思想是通過“少算”、“有重點地算”來提升效率,代表模型是DeepSeek。
第二條路徑是滑動窗口注意力(Sliding Window Attention),它仍然使用Softmax計算注意力權重,但只關注固定窗口內的鄰近token,借此提高計算效率。
第三條路徑是線性注意力(Linear Attention)。 與其他方案不同,它徹底改寫了Softmax公式,將復雜度從O(N2)的平方級降至O(N),近似線性級別,推理成本大幅下降。
不過,這三條路徑都有自身的局限性,而如今業界對混合架構的集體轉向,本質上是對單一技術路徑的修正。
值得關注的是,越來越多方案正向混合線性注意力收斂,這是唯一在理論上突破序列長度限制的路徑。它重構了注意力的計算范式,這種徹底性既是它的風險所在,也是其潛力所在。
二、混合線性注意力,如何成為行業共識?
在國內,已有不少大模型企業開始了混合線性注意力架構的探索。
按時間維度來看,2025年初,MiniMax Text-01模型發布,這一模型采用1:7的混合線性注意力,并在456B參數的模型上實現落地。
此后,MiniMax-M1模型也采用了同款架構。當時,MiniMax-M1的團隊判斷,混合架構將會成為模型設計的主流,但仍面臨基礎設施等維度的瓶頸。
![]()
更多混合線性注意力的探索,在2025年下半年爆發。
去年9月,阿里通義實驗室發布了下一代基礎模型架構Qwen3-Next,并在80B模型上完成驗證。該模型用線性注意力和門控注意力的組合替換標準注意力,實現長上下文的有效建模。在1:3的混合比例下,其性能可以超過單一架構。
阿里的研究團隊發現,相比常用的滑動窗口注意力,線性注意力擁有更強大的上下文學習能力。
![]()
同樣在去年9月,螞蟻百靈團隊開源了Ring-mini-linear-2.0與Ring-flash-linear-2.0,驗證了其研發的Lightning Linear線性注意力在工業規模訓練和長上下文推理中的可用性。
這兩款模型采用了更多的線性注意力層,驗證了1:7的混合比例。其在高FLOP預算下表現,明顯優于純Softmax結構。
在這項研究中,螞蟻百靈還進一步探索了架構創新與基礎設施系統工程優化的協同。他們打造的FP8融合算子,將FP8混合精度訓練的計算效率提升至原來的1.5-1.7倍左右。
![]()
在推理端,他們開發了更高效的線性注意力融合算子,進一步提升推理引擎的吞吐。
架構優化與高性能算子協同之下,兩款Ring-linear模型在深度推理場景下的成本僅為同尺寸稠密模型的約1/10,相較原有Ring系列成本也下降超過50%。
去年10月,月之暗面開源了混合線性注意力架構Kimi Linear。其核心是Kimi Delta Attention(KDA),這是一個新型的線性注意力模塊,通過細粒度設計改進了門控delta規則。這一線性架構采用1:3的混合比例,在減少內存占用的同時超越了全注意力模型的質量。
![]()
盡管上述探索已在多維度驗證了混合線性注意力架構的潛力,但大多數成果仍停留在中小規模。而在真實應用中,大模型需要直面萬億級參數、百萬級上下文窗口、高并發推理等工程挑戰。
因此,下一步的關鍵在于:將這些技術探索推向真正的超大規模模型,在工業級應用中系統驗證其可靠性、可擴展性與經濟價值。
三、萬億模型成試金石,效率與成本的終極驗證
將混合線性注意力架構推向萬億參數量級的工程落地,正在穩步推進。
月之暗面創始人兼CEO楊植麟對混合線性注意力的前景表達了明確信心。他認為線性架構是一個非常值得探索的方向,其團隊已在Kimi Linear等項目中積累了大量研究。
在下一代模型Kimi K3中,月之暗面計劃在混合線性注意力架構的基礎上,引入更多架構層面的優化。他相信,下一代模型Kimi K3就算沒比K2.5強出10倍,也必然會“強得多”。
同樣押注這一技術路線的螞蟻百靈團隊,已經接連交出兩個萬億參數大模型。一個是超大型混合線性注意力架構模型Ling-2.5-1T,另一個是全球首個混合線性注意力架構的萬億參數思考模型Ring-2.5-1T。
在前期研究基礎上,螞蟻百靈團隊通過增量訓練方式構建了Ling 2.5架構。該架構將GQA+Lightning Linear升級為更高效的MLA+Lightning Linear組合,在進一步壓縮KV緩存的同時,保留了模型的表達能力。
Ling 2.5架構采用1:7混合比例,還保留了QK Norm、Partial RoPE等核心機制,確保架構遷移過程中模型性能不發生退化。
![]()
在降本增效方面,Ling-2.5-1T僅需約6000個token的平均輸出長度,即可完成前沿模型需要1.5萬-2.3萬個token才能勝任的復雜任務。其訪存規模壓縮至傳統架構的1/10,生成吞吐量提升至3倍。
上述種種對混合線性注意力架構的探索,意義已不止于性能提升本身,而是在重新劃定大模型的應用邊界與商業形態。
試想一下,當推理成本顯著下降、token使用效率持續優化,模型調用成本或許不再是限制其大規模落地的核心瓶頸。
隨之而來的,是應用范式的自然轉變。企業不再需要精打細算地“按需調用”模型,而可以將其作為一種默認能力嵌入到更多業務環節之中,實現更廣泛、更深入的效率提升。
大模型在高頻與實時場景中的角色可能因此發生變化,在搜索、推薦、智能客服等場景中,它們不再只是傳統系統的補充模塊,而是有望扮演核心驅動引擎,成為如同數據庫、操作系統般默認存在的底層基礎設施。
結語:從堆參數到拼工程,大模型廣泛落地更近了
混合線性注意力架構的探索仍在不斷深化,但這條路徑注定不會一帆風順。不同技術路線之間仍在反復博弈與驗證,例如MiniMax在階段性探索后選擇回歸全注意力模型,以優先保證復雜場景下的穩定性與可靠性。
不過,更深層的信號已經愈發清晰:大模型競爭正從“暴力堆參數”轉向“工程效率的精算”。當行業逐漸形成共識,決定勝負的將不再只是規模本身,而是單位算力所能釋放的有效能力。
架構層面的細微差異,最終會在企業級落地中放大為顯著的成本優勢與體驗差距,并推動大模型從“可用”邁向“好用”,再走向真正的廣泛普及。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.