337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司

<sup id="gg02g"></sup>

<nav id="gg02g"><code id="gg02g"></code></nav>

<nav id="gg02g"><code id="gg02g"></code></nav>

<small id="gg02g"><blockquote id="gg02g"></blockquote></small>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

面壁智能SALA架構，正在拆掉Transformer的那堵墻

2026-02-13 15:33:07　來源: AI異類

北京舉報

0

分享至

這兩年，大模型圈子里真正卡住行業的點，已經從參數規模，轉向了推理效率。

模型越做越大，算力和顯存的壓力就越像一堵墻，橫在落地面前。

尤其當應用從簡單對話進入長文檔理解、代碼倉級分析、長周期智能體任務之后，傳統架構的瓶頸，越來越暴露了出來。

很多團隊都在優化訓練技巧、壓縮權重、做蒸餾，卻很少有人直接動底層注意力結構，因為那意味著要重新審視整個Transformer范式。

面壁智能，這次公開的 Linear-Sparse 混合注意力架構 SALA 和對應模型 MiniCPM-SALA，在核心結構層的技術路線上，給了不一樣的答案。

新模型能力提升現在不新鮮了，但如果是一次架構路線層面的重新定調呢？

馬上過年了，比起很多公司紅包的熱鬧和營銷的手段，我覺得，面壁智能這樣扎扎實實的技術推進，更值得被看見。

01. 長上下文需求爆發，正在倒逼注意力機制進化

大模型最早的商業場景集中在問答、寫作、摘要，這類任務上下文長度通常在幾千到幾萬 token 區間，傳統全注意力機制還能承受。

隨著應用形態變化，模型開始承擔代碼倉分析、合同審查、科研資料歸納、長鏈路 agent 任務規劃等工作……

輸入規模直接跳到幾十萬甚至百萬 token 級別，這類需求在企業端和端側同時增長。

企業側希望模型一次性讀取整個知識庫或代碼庫并保持一致理解，端側設備則存儲著大量用戶私有數據。

比如說，聊天記錄、歷史行為、位置軌跡，這些信息只有本地處理才符合隱私要求，所以端側長上下文能力逐漸變成剛需指標。

傳統 Transformer 的問題在這種場景下會被無限放大。

全注意力機制計算復雜度，隨序列長度平方增長，序列翻十倍，算力需求接近百倍級上升，同時 KV Cache 也同步膨脹。

推理階段顯存占用持續上漲，哪怕模型參數規模不變，只要上下文變長就會直接炸顯存，這就是很多工程團隊口中的 KV Cache 困局。

放之前，這幾個困局，就像一個「不可能三角」。

行業已經嘗試過多條路徑解決這個問題，例如線性注意力、狀態空間模型、稀疏注意力結構，各自都在某些維度表現出色，卻始終存在明顯短板。

線性注意力與 SSM 類方法將復雜度壓到線性級別，速度和資源消耗表現很理想，不過這種結構需要把歷史信息壓縮進固定容量狀態中，序列越長，早期信息權重就越低，在復雜推理或長鏈條邏輯場景中容易出現記憶衰減現象。

稀疏注意力走的是另一條路線。

通過只計算關鍵位置注意力來降低算力需求，推理速度提升明顯，不過歷史 KV 必須完整保存，否則無法回溯長距離依賴。

這導致顯存仍隨序列線性增長，存儲壓力沒有根本解決。

行業一直在尋找一種結構，既保留線性結構的效率，又具備稀疏結構的精準感知能力。

MiniCPM-SALA采用的Transformer-to-Hybrid低成本構建方法（HALO）

02. SALA的混合注意力架構

SALA 的核心設計思路很直接，將兩類注意力優勢拼接進同一架構體系，讓不同模塊負責不同任務。

整體結構中大約 75% 使用 Lightning Attention 線性模塊，負責局部關鍵語義捕捉；

剩余 25% 使用 InfLLM v2 稀疏注意力模塊，負責全局信息建模。

這種比例經過多輪實驗調優后確定，目標是找到效率與精度之間的穩定平衡點。

線性部分保證推理復雜度穩定增長，稀疏部分負責高價值信息精細建模，兩者共同構成完整上下文理解路徑。

這種設計真正解決的問題在于長序列任務的結構性矛盾。

純線性模型在序列極長時容易丟失細節，純稀疏模型在序列增長時顯存壓力持續擴大，SALA 把計算密度和信息密度拆分處理，讓計算資源集中在重要區域，同時保證全局狀態可追蹤。

換句話說，模型在處理百萬 token 輸入時不會同時對所有 token 做同等強度計算，而是自動分配算力權重，這使得資源利用效率明顯提高。

另一個關鍵創新來自訓練方法 HALO。

傳統混合架構如果從零訓練，成本會高得驚人，因為新結構需要重新學習全部語言知識與推理能力。

HALO 的策略是在已有全注意力模型基礎上進行結構轉換，再進行持續訓練，這種方式繼承原模型能力，同時讓新架構逐漸適應新的注意力模式。

工程層面看，這種路線可以把算力投入降低到可接受范圍，使混合注意力模型具備規模化訓練可行性，對整個行業具有現實參考價值。

如果把當前主流架構放在同一坐標系中觀察，可以看到一條明顯演化路徑：

全注意力模型提供穩定智能水平，線性模型提供極致效率，稀疏模型提供長序列能力，SALA 則嘗試把三條路線合并成統一解。

像 Kimi KDA、DeepSeek NSA、InfLLM v2 都在不同方向推進長上下文能力，SALA 的出現讓行業第一次看到統一結構實現多優勢疊加的可能性。

相關論文參考：

稀疏-線性混合注意力：https://arxiv.org/pdf/2601.22156
InfLLM v2：https://arxiv.org/pdf/2509.24663

03. MiniCPM-SALA 實測表現，驗證架構可行性

任何架構創新最終都要回到模型表現。

MiniCPM-SALA 作為首個基于該結構完成大規模訓練的文本模型，在多個維度給出了比較清晰的數據結果。

模型參數規模為 9B，體量處于輕量級區間，卻能夠支持百萬 token 上下文推理。

關鍵在于 KV Cache 控制在 6GB 以下，這意味著普通消費級 GPU 也能完成推理任務。對于開發者來說，這直接降低部署門檻，使長上下文模型從數據中心專屬能力進入個人硬件可運行階段。

在長文本評測中，該模型展現出穩定優勢，尤其在跨章節信息整合、長鏈推理、代碼結構理解等任務中表現突出。

更值得關注的是，它在知識問答、數學推理、代碼生成等常規能力測試中仍保持與同規模全注意力模型相近水平，沒有出現性能折損現象，這說明混合結構并沒有犧牲通用智能能力。

模型同時引入 HyPE 混合位置編碼機制，使短文本和長文本處理能力保持一致，不會出現短輸入性能下降的問題。

推理速度方面的數據，對工程落地很有價值。

在云端推理芯片測試中，當上下文長度達到 256K token 時，MiniCPM-SALA 推理速度達到同規模全注意力模型約 3.5 倍，而且測試沒有使用投機采樣或額外加速技巧，結果完全來自架構本身。

對于企業部署來說，這類性能提升意味著成本直接下降，因為單位時間可處理請求數明顯增加。

端側的表現，同樣不錯。

當前很多模型在 8B 規模下運行 256K 上下文就會觸及顯存極限，而 MiniCPM-SALA 在消費級 GPU 上完成百萬上下文推理，這為手機、車載系統、機器人等終端設備運行通用模型打開空間。

端側模型一旦具備長上下文能力，個人助理類產品就能持續讀取用戶歷史數據并維持長期記憶，體驗會發生質變，這也是行業普遍認為下一階段智能終端競爭的關鍵指標。

04. 架構路線之爭，正在成為大模型競爭核心變量

大模型行業早期競爭集中在參數規模和訓練數據量，隨后轉向推理成本和部署效率，現在焦點逐漸落在底層結構設計上。

誰能在架構層找到更優解，誰就能在同等算力條件下跑出更高性能。

SALA 的出現，也讓我看到一種新的可能性：未來模型競爭不只看誰的模型更大，還要看誰的結構更合理。

我在想，這種變化對行業格局，也許會產生多米諾骨牌一樣的連鎖反應。

有硬件適配邏輯的改變：

當模型顯存需求下降，部署環境選擇范圍會擴大，GPU 不再是唯一選擇，邊緣計算設備也能承擔更多任務。

進一步，也會帶來應用生態會被重新洗牌：

長上下文能力成熟后，大量原本依賴數據庫或檢索系統的應用可能直接由模型完成，因為模型可以一次讀取全部資料并生成結果。

以及說，訓練策略會發生變化，HALO 這類遷移訓練方法降低新架構實驗成本，使更多團隊具備嘗試底層創新的能力。

從技術趨勢觀察，注意力機制很可能進入混合化階段。

單一路線難以同時滿足效率、精度、可擴展性三項指標，多結構協同會成為主流設計方向。

未來模型可能根據任務動態切換注意力模式，復雜推理使用高精度模塊，大規模掃描使用高效率模塊，這類自適應結構將成為研究重點。

最后有個好消息：看到面壁、OpenBMB、SGLang 與 NVIDIA，聯合發起了一個比賽。

比賽名字就叫《SOAR 2026 稀疏算子加速大獎賽》，已經正式開放報名了。

賽事圍繞混合注意力架構推理性能優化展開，重點方向包括算子融合、編譯優化與硬件協同調度，目標是在消費級 GPU 上進一步壓縮資源占用并提升百萬 token 推理速度。

而且還是面向全球開發者開放，官網報名入口：

https://soar.openbmb.cn/

對于關注推理效率、系統優化和模型架構的工程團隊來說，這是一次直接參與下一代推理基線定義過程的機會。

特別懸賞獎的獎金，甚至高達28萬！

感興趣的朋友，真的可以試一試～

參考閱讀：

GitHub 鏈接：

https://github.com/openbmb/minicpm

HuggingFace 鏈接：

https://huggingface.co/openbmb/MiniCPM-SALA

Model Scope 鏈接：

https://www.modelscope.cn/models/OpenBMB/MiniCPM-SALA

GitCode 鏈接：

https://ai.gitcode.com/OpenBMB/MiniCPM-SALA

MiniCPM-SALA 技術報告：

https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

網易云音樂，卡在算法和活人之間

鈦媒體APP 2026-02-24 15:56:08
77 跟貼 77
有了GEO還有必要做SEO嗎？

鈦媒體APP 2025-10-29 17:49:07
0 跟貼 0

快速躥紅的Hermes Agent，會成為下一個OpenClaw嗎？

鈦媒體APP 2026-04-09 15:54:53
1 跟貼 1

生成式推理再排序，可能會是LLM4RecSys的新突破口嗎？

機器之心Pro 2026-04-08 11:52:53
0 跟貼 0
輕量高效，即插即用：Video-RAG為長視頻理解帶來新范式

機器之心Pro 2025-10-20 18:23:17
0 跟貼 0

長發男生展示自己造型的多樣性，這就是建模的重要性嗎

重慶焦點 2026-04-08 18:16:38
0 跟貼 0

Meta億元天團首個大模型交卷！耗時九個月，一雪Llama前恥

量子位 2026-04-09 09:48:05
8 跟貼 8
清華團隊：1.5B 模型新基線！用「最笨」的 RL 配方達到頂尖性能

機器之心Pro 2025-11-13 14:56:23
1 跟貼 1

霍爾木茲海峽已再次關閉

央視新聞客戶端 2026-04-09 05:32:07
33100 跟貼 33100
CVPR 2026｜1分鐘單圖變4D視頻！AI看圖直接腦補物理規律

機器之心Pro 2026-04-08 12:04:29
0 跟貼 0
姑娘大街上直播跳舞，硬件條件太差了，想復制阿梓的路不可能

矜寡愛時尚 2026-04-06 09:17:05
0 跟貼 0
30B參數超越GPT-5！REDSearcher讓深度搜索Agent做到低成本可擴展

機器之心Pro 2026-03-09 13:28:51
0 跟貼 0
唯快不破，Anthropic幾天搞定智能體生產

鈦媒體APP 2026-04-09 18:13:31
0 跟貼 0
黎巴嫩宣布全國哀悼

南方都市報 2026-04-09 09:24:03
23648 跟貼 23648
開發時間從數月縮短到幾天，Anthropic開始批發智能體了

智東西 2026-04-09 15:54:18
1 跟貼 1
一汽大眾 ID.AURA 序列首款車型 T6 官宣，定位中型純電 SUV

DoNews 2026-04-09 06:22:08
2 跟貼 2
城市更新顛覆購房邏輯，財富縮水風險

紀超講樓市 2026-04-08 06:16:42
0 跟貼 0
大模型公司面壁智能完成數億元融資投后估值邁入獨角獸門檻

財聯社 2026-04-09 10:08:10
0 跟貼 0
星巴克中國“易主”，“新東家”亮相：將開更多新店！星巴克全球CFO：中國將繼續是我們全球業務中非常重要的一部分

每日經濟新聞 2026-04-09 14:19:51
6679 跟貼 6679
林俊旸點贊，干翻字節Seedance 2.0的“歡樂馬”模型，阿里造？

智東西 2026-04-09 23:55:18
0 跟貼 0
組裝川崎忍者模型套件

制造科技 2026-04-09 19:07:20
0 跟貼 0
連續執政16年 62歲的歐洲"強人"歐爾班面臨最艱難一役

上觀新聞 2026-04-09 20:40:40
328 跟貼 328
微軟把發售日藏進數學公式，玩家解了3小時才看懂

字節漫游指南 2026-04-09 16:28:56
0 跟貼 0
高手之間的對決，差距往往藏在細節，關鍵竟差在了硬件上

菠菜不算愛 2026-04-08 14:22:49
1 跟貼 1
毛新宇攜家人到楊開慧烈士陵園祭掃

政知新媒體 2026-04-05 08:48:13
2612 跟貼 2612
賣餅30年，杭州菜市場55歲“蛋餅姐”突然爆火！網友：賈樟柯一輩子都想拍出的鏡頭

環球網資訊 2026-04-09 17:53:15
1873 跟貼 1873
18.99萬起，捷途旅行者PLUS雙車開啟預售

電動邦 2026-04-09 22:59:27
0 跟貼 0
古老星系的發現，讓科學家重新思考大爆炸模型

六六冷知識 2026-04-09 10:11:58
1 跟貼 1
廣州外賣騎手年均薪酬15萬主播20萬

南方都市報 2026-04-09 07:07:13
682 跟貼 682
禁止電動三、四輪車在市區通行！河南一地發布通告

大象新聞 2026-04-09 19:05:02
95 跟貼 95
蔚來ES9開啟預售，BaaS方案42萬起

電動邦 2026-04-09 23:16:18
2 跟貼 2
谷歌創始人布林：當年發完Transformer論文，我們太不當回事了

機器之心Pro 2025-12-15 10:18:00
0 跟貼 0
孫儷回應新劇《危險關系》收視率不好：有心理準備，作為演員希望能不斷挑戰不同的角色人生

極目新聞 2026-04-09 15:02:19
264 跟貼 264
違規購買使用劣質螺栓，承載能力大降

南方都市報 2026-04-09 07:07:14
343 跟貼 343
不堆參數只做實用！Q6L e-tron 太適合家用了

阿貴看車V 2026-04-08 16:10:08
4 跟貼 4
月薪2萬的工程師，Anthropic說6毛錢就能替代

碳基打工人 2026-04-09 17:55:32
0 跟貼 0
吉利銀河M7全球預售開啟三大技術尖點重塑主流電混SUV價值新坐標

龍車 2026-04-09 23:02:34
0 跟貼 0
讓機器人學會手往哪兒伸、怎么操作，東大團隊給了新解法

機器之心Pro 2026-04-09 12:14:48
0 跟貼 0
16歲四肢癱瘓少女誤買2000多元鄧紫棋演唱會門票，平臺不予退票，父親急哭：女兒根本無法去看，這些錢是全家一個月的生活費

大風新聞 2026-04-09 17:07:15
69 跟貼 69
“你那個2米26的同學來了”，姚明參加上海交大130周年校慶，校方定制了專屬加大版椅子

極目新聞 2026-04-09 13:59:47
128 跟貼 128

零緩沖！全國一刀切！6月1日起，車主自己去車管所“橫著走”！

零緩沖！全國一刀切！6月1日起，車主自己去車管所“橫著走”！

混沌錄

2026-04-07 22:00:19

全紅蟬遭網暴后續：警方發現最新線索！體育總局回應：絕不姑息

全紅蟬遭網暴后續：警方發現最新線索！體育總局回應：絕不姑息

影像溫度

2026-04-09 12:45:47

官方出手了！282人微信群罵全紅禪三年，群成員被扒，身份不簡單

官方出手了！282人微信群罵全紅禪三年，群成員被扒，身份不簡單

離離言幾許

2026-04-09 12:20:45

檢察日報談全紅嬋遭網暴：可能涉及一個規模達200余人的微信群，細節令人不寒而栗，司法機關要加大懲治力度，提高違法成本

檢察日報談全紅嬋遭網暴：可能涉及一個規模達200余人的微信群，細節令人不寒而栗，司法機關要加大懲治力度，提高違法成本

極目新聞

2026-04-09 10:05:25

打中了！伊朗今天太猛了!

財經要參

2026-04-05 23:06:21

中東停火不到24小時，美國就調轉槍口對準中國，F-35密集“壓境”

中東停火不到24小時，美國就調轉槍口對準中國，F-35密集“壓境”

有范又有料

2026-04-09 15:55:08

過午不食？55歲男子堅持2年不吃晚飯，去體檢后，他的胃怎樣了？

過午不食？55歲男子堅持2年不吃晚飯，去體檢后，他的胃怎樣了？

白話電影院

2026-04-09 14:36:58

道瓊斯指數向上觸及48000點，最新報48015.2點，日內上漲0.22%

道瓊斯指數向上觸及48000點，最新報48015.2點，日內上漲0.22%

每日經濟新聞

2026-04-09 23:59:03

帶兒子看急診，護士竟是前妻，她頭都沒抬：孩子媽沒來？兒子：我媽不在了，護士阿姨能做我新媽媽嗎？

帶兒子看急診，護士竟是前妻，她頭都沒抬：孩子媽沒來？兒子：我媽不在了，護士阿姨能做我新媽媽嗎？

不二大叔

2026-04-09 21:24:30

俄羅斯沒想到，美國也沒想到，如今的中國石油，成為石油遙遙領先

俄羅斯沒想到，美國也沒想到，如今的中國石油，成為石油遙遙領先

黑鷹觀軍事

2026-04-09 23:04:04

全是演員！事發上海鬧市區，網友怒了：太缺德！

全是演員！事發上海鬧市區，網友怒了：太缺德！

深圳晚報

2026-04-09 23:07:22

前無古人、后難有來者！約基奇即將創造瘋狂的NBA歷史

前無古人、后難有來者！約基奇即將創造瘋狂的NBA歷史

夜白侃球

2026-04-09 10:49:01

1959年，18歲陳麗華與北京電信系統某高管結婚

1959年，18歲陳麗華與北京電信系統某高管結婚

果媽聊娛樂

2026-04-09 10:01:34

做完手術人就廢了，這5種手術不需要做，別讓無知害了自己

做完手術人就廢了，這5種手術不需要做，別讓無知害了自己

醫學科普匯

2026-01-29 06:25:03

又是抑郁癥去世！廣東21歲愛笑女孩寫下遺書，留8萬安頓3只小狗

又是抑郁癥去世！廣東21歲愛笑女孩寫下遺書，留8萬安頓3只小狗

火山詩話

2026-04-09 06:23:23

武漢大暴雨破紀錄

大風新聞

2026-04-09 17:17:03

中美剛談完，美國就不演了，要中方交出一樣東西，否則事情沒完

中美剛談完，美國就不演了，要中方交出一樣東西，否則事情沒完

老炇系戲精北鼻

2026-04-10 02:02:49

伊朗反擊動搖美軍根基！巴林決議被否，盟友慘遭拋棄誰之過？

伊朗反擊動搖美軍根基！巴林決議被否，盟友慘遭拋棄誰之過？

樂享人生風雨

2026-04-10 00:24:53

編譯 | 美駐印大使專訪透露重要信號：印度就是個大血包！

編譯 | 美駐印大使專訪透露重要信號：印度就是個大血包！

南亞研究通訊

2026-04-08 23:21:43

伊朗警告以色列：立即停止襲擊黎巴嫩否則將遭“沉重回擊”

伊朗警告以色列：立即停止襲擊黎巴嫩否則將遭“沉重回擊”

極目新聞

2026-04-09 01:03:19

從硅谷到中關村，AI信息與測評

148文章數 6關注度

往期回顧全部

科技要聞

Meta凌晨首發閉源大模型扎克伯格又行了？

頭條要聞

以色列總理：同意與黎巴嫩直接談判

頭條要聞

以色列總理：同意與黎巴嫩直接談判

體育要聞

8萬人面前心臟驟停現在他還站在球場上

娛樂要聞

金莎官宣結婚與老公孫丞瀟相差18歲

財經要聞

停火又懸了，最糟糕的情況要來了？

汽車要聞

文飛掌舵，給神行者帶來了什么？

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

親子

本地

數碼

公開課

越來越流行的松弛感穿搭，照著穿就很好看

親子要聞

五個月的寶寶必須學溫伯格的宇宙學才不哭

本地新聞

12噸巧克力有難，全網化身超級偵探添亂

數碼要聞

華為多款新品在路上：Pura 90、闊折疊、AI眼鏡、平板耳機全都有

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<small id="ggggg"></small>

<sup id="ggggg"></sup>

<tfoot id="ggggg"><dd id="ggggg"></dd></tfoot>