網易首頁 > 網易號 > 正文申請入駐

阿里、Kimi、螞蟻集體押注，混合注意力從可選項變必答題？

2026-03-20 19:27:31　來源: 智東西

北京舉報

分享至

智東西
作者陳駿達
編輯漠影

智東西3月20日報道，昨天，小米發布了Mimo-V2 Pro大模型，又一次把混合注意力架構推到了行業的聚光燈下。

這款萬億參數的大模型，采用了1:7的混合注意力比例，在提供接近Claude Opus 4.6能力的同時，API定價僅為后者的1/5。

實際上，小米的混合注意力架構探索，延續了國內大模型頭部廠商在效率優化上的技術共識。過去一段時間里，國內多個大模型頭部玩家都展示了他們在混合注意力方面的突破性進展。

今年2月，螞蟻推出全球首個混合線性注意力架構的萬億參數思考模型；去年9月，阿里則在下一代模型架構Qwen-Next中采用混合線性注意力。與此同時，月之暗面、MiniMax等玩家也在各自的模型迭代中引入了類似的架構優化方案。

混合注意力架構的探索，已經幾乎成為大模型廠商的必答題。不同的只是技術路徑的選擇，相同的是對效率與性能平衡點的共同追求。

一、頭部玩家押注混合注意力，多條技術路徑并行

在深度學習中，注意力機制讓模型能夠有選擇地關注輸入信息中的重要部分，而Softmax一直是主流架構的核心注意力計算機制。

這種機制每次計算都“翻閱”完整上下文，精準捕捉詞與詞的關聯，賦予模型強大表達力和細粒度對齊能力。

但其代價明顯：隨著文本長度增加，其計算量呈平方級增長。它還需要存儲大量KV緩存，帶來顯存壓力。這在越來越追求推理效率和成本控制的商業化場景中，展現出不足。

面對這一共同挑戰，業界探索出了三條主要的技術路徑。

第一條路徑是稀疏注意力（Sparse Attention），其核心思想是通過“少算”、“有重點地算”來提升效率，代表模型是DeepSeek。

第二條路徑是滑動窗口注意力（Sliding Window Attention），它仍然使用Softmax計算注意力權重，但只關注固定窗口內的鄰近token，借此提高計算效率。

第三條路徑是線性注意力（Linear Attention）。與其他方案不同，它徹底改寫了Softmax公式，將復雜度從O(N2)的平方級降至O(N)，近似線性級別，推理成本大幅下降。

不過，這三條路徑都有自身的局限性，而如今業界對混合架構的集體轉向，本質上是對單一技術路徑的修正。

值得關注的是，越來越多方案正向混合線性注意力收斂，這是唯一在理論上突破序列長度限制的路徑。它重構了注意力的計算范式，這種徹底性既是它的風險所在，也是其潛力所在。

二、混合線性注意力，如何成為行業共識？

在國內，已有不少大模型企業開始了混合線性注意力架構的探索。

按時間維度來看，2025年初，MiniMax Text-01模型發布，這一模型采用1:7的混合線性注意力，并在456B參數的模型上實現落地。

此后，MiniMax-M1模型也采用了同款架構。當時，MiniMax-M1的團隊判斷，混合架構將會成為模型設計的主流，但仍面臨基礎設施等維度的瓶頸。

更多混合線性注意力的探索，在2025年下半年爆發。

去年9月，阿里通義實驗室發布了下一代基礎模型架構Qwen3-Next，并在80B模型上完成驗證。該模型用線性注意力和門控注意力的組合替換標準注意力，實現長上下文的有效建模。在1:3的混合比例下，其性能可以超過單一架構。

阿里的研究團隊發現，相比常用的滑動窗口注意力，線性注意力擁有更強大的上下文學習能力。

同樣在去年9月，螞蟻百靈團隊開源了Ring-mini-linear-2.0與Ring-flash-linear-2.0，驗證了其研發的Lightning Linear線性注意力在工業規模訓練和長上下文推理中的可用性。

這兩款模型采用了更多的線性注意力層，驗證了1:7的混合比例。其在高FLOP預算下表現，明顯優于純Softmax結構。

在這項研究中，螞蟻百靈還進一步探索了架構創新與基礎設施系統工程優化的協同。他們打造的FP8融合算子，將FP8混合精度訓練的計算效率提升至原來的1.5-1.7倍左右。

在推理端，他們開發了更高效的線性注意力融合算子，進一步提升推理引擎的吞吐。

架構優化與高性能算子協同之下，兩款Ring-linear模型在深度推理場景下的成本僅為同尺寸稠密模型的約1/10，相較原有Ring系列成本也下降超過50%。

去年10月，月之暗面開源了混合線性注意力架構Kimi Linear。其核心是Kimi Delta Attention（KDA），這是一個新型的線性注意力模塊，通過細粒度設計改進了門控delta規則。這一線性架構采用1:3的混合比例，在減少內存占用的同時超越了全注意力模型的質量。

盡管上述探索已在多維度驗證了混合線性注意力架構的潛力，但大多數成果仍停留在中小規模。而在真實應用中，大模型需要直面萬億級參數、百萬級上下文窗口、高并發推理等工程挑戰。

因此，下一步的關鍵在于：將這些技術探索推向真正的超大規模模型，在工業級應用中系統驗證其可靠性、可擴展性與經濟價值。

三、萬億模型成試金石，效率與成本的終極驗證

將混合線性注意力架構推向萬億參數量級的工程落地，正在穩步推進。

月之暗面創始人兼CEO楊植麟對混合線性注意力的前景表達了明確信心。他認為線性架構是一個非常值得探索的方向，其團隊已在Kimi Linear等項目中積累了大量研究。

在下一代模型Kimi K3中，月之暗面計劃在混合線性注意力架構的基礎上，引入更多架構層面的優化。他相信，下一代模型Kimi K3就算沒比K2.5強出10倍，也必然會“強得多”。

同樣押注這一技術路線的螞蟻百靈團隊，已經接連交出兩個萬億參數大模型。一個是超大型混合線性注意力架構模型Ling-2.5-1T，另一個是全球首個混合線性注意力架構的萬億參數思考模型Ring-2.5-1T。

在前期研究基礎上,螞蟻百靈團隊通過增量訓練方式構建了Ling 2.5架構。該架構將GQA+Lightning Linear升級為更高效的MLA+Lightning Linear組合，在進一步壓縮KV緩存的同時，保留了模型的表達能力。

Ling 2.5架構采用1:7混合比例，還保留了QK Norm、Partial RoPE等核心機制，確保架構遷移過程中模型性能不發生退化。

在降本增效方面，Ling-2.5-1T僅需約6000個token的平均輸出長度，即可完成前沿模型需要1.5萬-2.3萬個token才能勝任的復雜任務。其訪存規模壓縮至傳統架構的1/10，生成吞吐量提升至3倍。

上述種種對混合線性注意力架構的探索，意義已不止于性能提升本身，而是在重新劃定大模型的應用邊界與商業形態。

試想一下，當推理成本顯著下降、token使用效率持續優化，模型調用成本或許不再是限制其大規模落地的核心瓶頸。

隨之而來的，是應用范式的自然轉變。企業不再需要精打細算地“按需調用”模型，而可以將其作為一種默認能力嵌入到更多業務環節之中，實現更廣泛、更深入的效率提升。

大模型在高頻與實時場景中的角色可能因此發生變化，在搜索、推薦、智能客服等場景中，它們不再只是傳統系統的補充模塊，而是有望扮演核心驅動引擎，成為如同數據庫、操作系統般默認存在的底層基礎設施。

結語：從堆參數到拼工程，大模型廣泛落地更近了

混合線性注意力架構的探索仍在不斷深化，但這條路徑注定不會一帆風順。不同技術路線之間仍在反復博弈與驗證，例如MiniMax在階段性探索后選擇回歸全注意力模型，以優先保證復雜場景下的穩定性與可靠性。

不過，更深層的信號已經愈發清晰：大模型競爭正從“暴力堆參數”轉向“工程效率的精算”。當行業逐漸形成共識，決定勝負的將不再只是規模本身，而是單位算力所能釋放的有效能力。

架構層面的細微差異，最終會在企業級落地中放大為顯著的成本優勢與體驗差距，并推動大模型從“可用”邁向“好用”，再走向真正的廣泛普及。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Cursor自研模型反超Opus 4.6！價格腳踝斬，氛圍編程沸騰了

量子位 2026-03-20 12:07:45
6 跟貼 6
CVPR 2026 | 從視覺Token內在變化量出發，實現VLM無損加速1.87倍

機器之心Pro 2026-03-16 11:56:33
0 跟貼 0

Kimi新架構讓馬斯克嘆服！17歲高中生作者一戰成名

量子位 2026-03-17 14:47:09
120 跟貼 120

VinciCoder：多模態統一代碼生成框架和視覺反饋強化學習

機器之心Pro 2025-11-17 14:12:38
0 跟貼 0
搞不懂Skills？看看Claude Code內部工程師們是怎么玩的

機器之心Pro 2026-03-20 14:21:04
0 跟貼 0

AWE2026專題總結欄目上線！悟空10分鐘生成，歡迎訪問

雷科技 2026-03-20 11:54:56
0 跟貼 0

15%全量Attention！「RTPurbo」阿里Qwen3長文本推理5倍壓縮方案

機器之心Pro 2025-12-23 12:52:34
0 跟貼 0
馬云的奇幻漂流：斷臂2023（中）

飯統戴老板 2025-10-17 10:36:14
1 跟貼 1

天下苦CUDA久矣，又一國產方案上桌了

量子位 2026-01-30 21:59:52
8 跟貼 8
港股復盤｜阿里巴巴領跌恒生科技指數跌超2% 下周還有更多考驗

每日經濟新聞 2026-03-20 18:08:06
0 跟貼 0
馬斯克用Grok替代X員工，裁員90%

量子位 2025-11-29 16:58:47
9 跟貼 9
因薩利赫駕照不符合規定，面臨被起訴監禁，阿里的計劃泡湯

水云人 2026-03-17 21:52:42
0 跟貼 0
阿里大規模招AI實習生，好高考作文材料

托塔老師 2026-03-20 14:18:02
0 跟貼 0
“媽，門口要錢，我們就不進去看你了”，游客在壺口瀑布外拍視頻被投訴侵權，山西壺口瀑布景區：事發地是陜西壺口瀑布，我們也是受害者

觀威海 2026-03-18 14:47:02
38696 跟貼 38696
退休工資上漲落地，會算嗎！計算公式它來了！看完你就明白了

末藍星星 2026-03-20 00:52:32
3 跟貼 3
跟隨螞蟻一起看看螞蟻洞穴到底長什么樣呢？

奇妙觀探 2026-03-17 12:37:55
2 跟貼 2
阿里驚魂：電商觸頂，AI成“全村的希望”

鈦媒體APP 2026-03-20 19:34:42
0 跟貼 0
團結的力量

甜橙子說動漫 2026-03-18 13:30:34
3 跟貼 3
重慶市市長胡衡華，被查

新京報政事兒 2026-03-20 14:09:55
440 跟貼 440
湖人這波8連勝，球隊氣質發生迭代

看球圖一樂 2026-03-20 14:09:28
1 跟貼 1
男子“借刀殺人”，將螞蟻引到馬蜂窩，下一秒場面令人震驚！

一薦視野 2026-03-19 17:04:29
4 跟貼 4
MoGraphGPT：基于模塊化大模型與圖形控制的2D交互場景創作

機器之心Pro 2026-03-20 17:17:16
0 跟貼 0
數學公式速記法，沫沫帶你秒變學霸！

后流惠 2026-03-19 02:58:02
0 跟貼 0
這個揮金如土的闊太，才是馬云真正的靠山

雷科技 2025-11-12 16:35:27
0 跟貼 0
首個微觀世界模型MicroVerse來了，AI開始模擬看不見的世界

機器之心Pro 2026-03-18 19:11:25
1 跟貼 1
被OpenClaw“選中”的飛書，推出了自己的官方版“龍蝦”

每日經濟新聞 2026-03-19 16:22:15
0 跟貼 0
理想汽車2026 GTC發布MindVLA-o1模型，讓車具備理解3D空間能力

IT之家 2026-03-18 22:54:07
1 跟貼 1
36年卷積猜想被解決，華人唯一作者，AI或受益

機器之心Pro 2025-11-26 14:30:39
0 跟貼 0
螞蟻王國的種族延續與繁殖背后的殘酷真相

硬核沙雕 2026-03-19 11:58:37
0 跟貼 0
開三輪車去阿里，海拔5000米撿到一片土窯房，燉大骨頭補一下

思念幻化 2026-03-20 05:13:07
0 跟貼 0
1720四年級雞兔同籠：孩子不要死記公式，稍微條件一變就不會了

我服子佩 2026-03-16 22:00:25
1 跟貼 1
土地丈量的公式，你知道幾個？看完直接長知識了！

瑾瑜愛說生活 2026-03-18 09:42:02
0 跟貼 0
男子把草莓套在透明盒子里，不僅防雨還能防鳥吃，網友：可惜防不了螞蟻

先鋒音樂 2026-03-20 10:25:25
0 跟貼 0
這款上海產的龍蝦，最容易上手，一手體驗來了

智東西 2026-03-20 11:50:44
0 跟貼 0
摩薩德總部被端！小螞蟻情報中心遭重創，五六棟大樓全毀了

阿良的日常生活 2026-03-19 06:31:14
0 跟貼 0
有個問題，螞蟻怎么知道餅干能吃，釘子不能吃呢！

奶香搞笑社 2026-03-20 09:53:38
1 跟貼 1
它是在提醒我們不僅要存量糧還得吞兵嗎

趣知小故事 2026-03-20 10:06:51
1 跟貼 1
超級下飯菜螞蟻上樹，簡單又好吃的家常菜

梗叔Movies 2026-03-19 16:30:06
0 跟貼 0
湘雅醫院，緊急召開研究生導師會議

第一財經資訊 2026-03-19 23:45:04
683 跟貼 683
殲-36重大改動！三大升級曝光，中美六代機競賽規則已變！

因果 2026-03-19 09:39:55
0 跟貼 0

智東西

聚焦智能變革，服務產業升級。

11402文章數 117003關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

時尚

房產

健康

藝術

手機 / 數碼

房產 / 家居

阿里、Kimi、螞蟻集體押注，混合注意力從可選項變必答題？

新SU7只漲4千！雷軍：真怕交車慢挨罵

美防長：盟友不知感恩 全世界都應對特朗普說聲"謝謝"

美防長：盟友不知感恩 全世界都應對特朗普說聲"謝謝"

6年前的一場悲劇，造就了“法國瓦爾迪”

總臺首屆電影盛典，“沈馬”CP再合體

金融法草案向社會公開征求意見

何小鵬坦白局：每月3億的“慌”與通向L4的堅定

態度原創

保護孩子的最好方法，就是讓她懂得只認行為不認身份！

今日熱點：張譯張小斐擔任天壇獎評委；《白日提燈》發布定檔預告……

全城狂送1000杯咖啡！網易房產【早C計劃】，即刻啟動！

轉頭就暈的耳石癥，能開車上班嗎？

吳昌碩『圓扇花卉』清新俊逸

美防長：盟友不知感恩全世界都應對特朗普說聲"謝謝"

美防長：盟友不知感恩全世界都應對特朗普說聲"謝謝"