337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

70萬獎(jiǎng)金,邀你寫算法:代碼將合入 SGLang 主線

0
分享至

前兩天,面壁智能發(fā)了 MiniCPM-SALA,一個(gè) 9B 參數(shù)的模型,用的是全新的「稀疏+線性」混合注意力架構(gòu)。同一天,他們聯(lián)合 SGLang 和 NVIDIA 發(fā)起了一場比賽:SOAR 2026 稀疏算子加速大獎(jiǎng)賽

總獎(jiǎng)金超過 70 萬人民幣,單支隊(duì)伍最高可得62萬
先說比賽,再聊技術(shù)


這場比賽在比什么

一句話:在消費(fèi)級 GPU 上,把 MiniCPM-SALA 的推理速度榨到極限

參賽者拿到的是面壁提供的 MiniCPM-SALA 模型(可以用官方量化版本),在 NVIDIA RTX PRO GPU 上做推理優(yōu)化。算子融合、Kernel 優(yōu)化、KV 讀寫優(yōu)化、Prefill/Decode 路徑優(yōu)化、圖編譯,都可以搞。評測指標(biāo)就一個(gè):跑完所有請求的總墻鐘時(shí)間,越短越好

硬件方面,需采用 NVIDIA 高端 RTX GPU,與 SALA「端側(cè)跑百萬上下文」的定位是對齊的

2月25日比賽測速平臺即將開放,下面這個(gè)是賽程安排,每周都會評選出周冠軍并發(fā)獎(jiǎng)(3月4日將產(chǎn)生第一個(gè)周冠軍)


SOAR 2026 賽程時(shí)間線: https://soar.openbmb.cn/competition 獎(jiǎng)金結(jié)構(gòu)

總決賽冠軍21萬,亞軍7萬,季軍3.5


同時(shí),半決賽冠軍7萬。每周還有周冠軍拿7000塊(一共 9 個(gè)周冠軍,3月4日將產(chǎn)生第一個(gè)周冠軍)


但最值得看的是「特別懸賞獎(jiǎng)」:28 萬


特別懸賞獎(jiǎng)比冠軍獎(jiǎng)金還高

拿這個(gè)獎(jiǎng)的條件是:總榜第一 + 推理性能超越官方設(shè)定的「極速挑戰(zhàn)線」 + 代碼合入 SGLang 主線倉庫。如果冠軍同時(shí)滿足條件,單支隊(duì)伍最高可以拿走 62 萬+

獲獎(jiǎng)還有一個(gè)前提:周冠軍、半決賽冠軍、總決賽冠軍都需要提交技術(shù)博客,冠軍代碼要審核通過并合入 SGLang 主倉。所有參賽代碼按 Apache 2.0 開源

也就是說,比賽產(chǎn)出的每一份優(yōu)化最終都會進(jìn)入 SGLang 開源倉庫,所有人都能用

怎么參加

3 人以內(nèi)組隊(duì),免費(fèi)報(bào)名,5 月 27 日前都能報(bào)。2 月 25 日正式開始提交,3 月 4 日榜單開啟。每個(gè)團(tuán)隊(duì)每天最多提交 3 次

比賽周期從 2 月 11 日到 5 月 29 日,中間 4 月 9 日到 15 日有休賽期。半決賽節(jié)點(diǎn)是 4 月 8 日,總決賽 5 月 29 日

官方不提供 GPU 算力,選手自行準(zhǔn)備或租用 RTX PRO(或等效)資源。有困難的可以聯(lián)系大賽合作伙伴 FCloud

溝通渠道是 GitHub Issues(技術(shù)問題)、contact@openbmb.cn(賽務(wù))、飛書和 Discord 社區(qū)。每月有一次線上 AMA,SGLang 核心開發(fā)者和 NVIDIA 技術(shù)專家參與


技術(shù)背景:SALA 到底解決什么問題

作為背景,Transformer 處理長文本有兩堵墻

第一堵是計(jì)算墻。標(biāo)準(zhǔn)注意力的計(jì)算量隨序列長度平方級增長,百萬 token 的 prefill 階段延遲會爆炸

第二堵是顯存墻。自回歸生成時(shí)要存所有歷史 token 的 KV Cache,一個(gè) 8B 模型處理百萬 token,KV Cache 就能占幾十到上百 GB 顯存

目前兩條主流路線,各解決了一半問題

稀疏注意力(DeepSeek 的 NSA、面壁自己的 InfLLM-V2 都屬于這條線):每個(gè) token 只看一部分關(guān)鍵的 KV,計(jì)算量下來了。但 KV Cache 還是全量存著,顯存問題沒動(dòng)

線性注意力(MiniMax 的 Lightning Attention、月暗面的 KDA 屬于這條線):把復(fù)雜度從 O(N2) 降到 O(N),KV Cache 也壓縮了。但這是有損壓縮,長距離信息的召回精度會掉

SALA 的做法是把兩條線混在一起用
75% 的層用 Lightning Attention(線性),25% 的層用 InfLLM-V2(稀疏)


MiniCPM-SALA 模型架構(gòu) 兩篇論文支撐這個(gè)架構(gòu)

SALA 背后是清華 NLP 組和 OpenBMB 的兩篇論文,分別解決稀疏和線性兩個(gè)模塊的問題

InfLLM-V2:稀疏注意力怎么做

先說行業(yè)里已有的方案。DeepSeek 的 NSA 引入了 3 套 KV 投影參數(shù)、3 個(gè)注意力模塊(壓縮注意力、選擇注意力、滑窗注意力)、外加一個(gè)門控 MLP 來融合三路輸出。能用,但問題也明顯:參數(shù)多、計(jì)算重、跟標(biāo)準(zhǔn)的「短文本預(yù)訓(xùn)練 → 長文本微調(diào)」流程不兼容

InfLLM-V2 的思路是零額外參數(shù)。直接復(fù)用 dense attention 的 KV 投影權(quán)重,把選擇注意力和滑窗注意力合并成一個(gè)統(tǒng)一的稀疏模塊,去掉壓縮注意力的輸出(只保留它的 score 用來做塊選擇)

實(shí)際效果:訓(xùn)練時(shí)從 dense 切到 sparse 幾乎沒有 loss 跳變(NSA 切換時(shí) loss 會飆),短文本直接用 dense 模式不掉速,長文本切 sparse 模式在 A100 上最高比 FlashAttention 快 7.4 倍,4090 上最高 9.3 倍

這些加速數(shù)據(jù)是在 kernel 層面的對比。在端到端推理上,128K 序列長度下 prefill 加速 2.13 倍,decode 加速 2.32 倍(4090,W4A16 量化)

對參賽選手來說,這里面的塊選擇機(jī)制(Block Selection)和 LSE Approximation 是關(guān)鍵優(yōu)化點(diǎn)。論文里也寫了,max-pooling 和 top-k 操作還沒有 fuse 進(jìn) kernel,留給了「future work」

HypeNet + HALO:線性注意力怎么接進(jìn)來

從頭訓(xùn)練一個(gè)混合架構(gòu)模型成本很高。HALO 是一個(gè)蒸餾流程,把已經(jīng)訓(xùn)練好的 Transformer 模型轉(zhuǎn)換成 RNN-Attention 混合模型

之前的轉(zhuǎn)換方法(Mamba-in-the-Llama、SMART、RAD、Jet-Nemotron)需要 7B 到 400B tokens 的訓(xùn)練數(shù)據(jù)

HALO 只要 2.3B tokens,不到預(yù)訓(xùn)練數(shù)據(jù)的 0.01%

流程分三步:先做隱狀態(tài)對齊(讓 RNN 層的輸出逼近對應(yīng)的 attention 層),然后做注意力層選擇(決定哪些層保留為 attention、哪些轉(zhuǎn)成 RNN),最后做知識蒸餾和微調(diào)

注意力層選擇的策略也值得一看。HALO 的判斷標(biāo)準(zhǔn)是:替換某一層后,召回能力(NIAH 類任務(wù))掉得多、通用能力(常識推理)掉得少的層,優(yōu)先保留為 attention 層。最終 25% 的層保持 attention,75% 轉(zhuǎn)成 RNN

RNN mixer 用的是 Lightning Attention。論文里比了 GLA、Mamba2、GDN、RWKV-7 等幾種選擇,Lightning Attention 的長度泛化能力最好。一個(gè)可能的原因是它用的是數(shù)據(jù)無關(guān)的遺忘門(data-independent forget gate),反而比數(shù)據(jù)依賴的遺忘門泛化更穩(wěn)

HyPE 位置編碼:一個(gè)巧妙的細(xì)節(jié)

HyPE 的做法是:RNN 層用 RoPE,Attention 層用 NoPE(不加位置編碼)

直覺上會覺得 attention 不加位置編碼信息會丟失。但邏輯是這樣的:RNN 層天然有位置感知(通過狀態(tài)轉(zhuǎn)移),但感受野有限,主要處理局部依賴。Attention 層負(fù)責(zé)長距離依賴。去掉 attention 層的 RoPE 之后,歷史 KV Cache 不再綁定位置信息,避免了 RoPE 在超長序列上的數(shù)值衰減問題

再加一個(gè)位置相關(guān)的 attention logits scaling(推理時(shí)根據(jù)位置動(dòng)態(tài)調(diào)整注意力分?jǐn)?shù)),長度泛化能力就上來了。不用 YaRN 之類的額外技術(shù),MiniCPM-SALA 可以外推到 2048K


長度泛化測試結(jié)果 性能數(shù)據(jù)

短文本能力(知識問答、數(shù)學(xué)、代碼)跟 Qwen3-8B 等同尺寸 full attention 模型持平

長文本是優(yōu)勢所在。256K 序列長度下,NVIDIA A6000D 上 MiniCPM-SALA 的 TTFT(首 token 生成時(shí)間)從 Qwen3-8B 的 180.8 秒降到 51.6 秒,3.5 倍加速

Qwen3-8B 在 512K 和 1M 長度下 OOM。MiniCPM-SALA 在 A6000D(96GB)和 RTX 5090(32GB)上都能跑通百萬 token


A6000D 上的推理延遲對比RTX 5090 上的推理延遲對比 訓(xùn)練成本

MiniCPM-SALA 的訓(xùn)練路徑是先用 HALO 做架構(gòu)轉(zhuǎn)換(1.3B tokens,序列長度 512),然后在 MiniCPM-4.0 的預(yù)訓(xùn)練數(shù)據(jù)上做持續(xù)訓(xùn)練(314.6B tokens,4K 長度),接 Short-Decay(1T tokens,4K),再 Long-Decay(逐步擴(kuò)到 520K),最后 SFT


面壁在技術(shù)報(bào)告里提到,這個(gè)路徑的總訓(xùn)練量是從零訓(xùn)練同水平模型的 25%

幾個(gè)提示

從論文和賽制里能看到幾個(gè)明確的優(yōu)化方向:

InfLLM-V2 論文里寫了,塊選擇階段的 max-pooling 和 top-k 操作還沒做 kernel fusion,留在了 future work。這是一個(gè)確定的優(yōu)化入口

稀疏注意力只加速了 attention 層,F(xiàn)FN 層沒動(dòng)。論文原話:「a higher speedup ratio can be achieved by incorporating FFN-specific acceleration techniques」

比賽評測關(guān)了 prefix cache,所以 prefill 路徑的優(yōu)化權(quán)重很大(單請求場景占 40% 權(quán)重),這個(gè)場景下稀疏注意力的塊選擇效率直接影響總延遲

允許用官方提供的量化模型,量化策略本身也是優(yōu)化維度

比賽從 2 月 25 日開始提交,5 月 27 日前都能報(bào)名,免費(fèi)參賽,歡迎來玩


以及,有興趣的可以先看看 InfLLM-V2 論文里那幾個(gè)留給 future work 的優(yōu)化點(diǎn),塊選擇的 kernel fusion 和 FFN 層加速,都是實(shí)打?qū)嵉男阅芸臻g。寫出來的代碼最終會合進(jìn) SGLang 主線,這活兒值得干

比賽官網(wǎng)
https://soar.openbmb.cn/competition

HuggingFace:
https://huggingface.co/openbmb/MiniCPM-SALA

技術(shù)報(bào)告:
https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

InfLLM-V2 論文:
https://arxiv.org/pdf/2509.24663

HypeNet / HALO 論文:
https://arxiv.org/pdf/2601.22156

SOAR 2026 比賽報(bào)名:
contact@openbmb.cn

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
回大陸后我才敢說:真正的臺灣省,和網(wǎng)上說的根本不一樣

回大陸后我才敢說:真正的臺灣省,和網(wǎng)上說的根本不一樣

番外行
2026-03-21 13:49:30
男子蹭飯260頓后續(xù)!堅(jiān)持硬剛比亞迪,更多惡心事曝光,家人遭殃

男子蹭飯260頓后續(xù)!堅(jiān)持硬剛比亞迪,更多惡心事曝光,家人遭殃

青橘罐頭
2026-03-21 07:25:22
三一集團(tuán)與CCC集團(tuán)達(dá)成戰(zhàn)略合作

三一集團(tuán)與CCC集團(tuán)達(dá)成戰(zhàn)略合作

每日經(jīng)濟(jì)新聞
2026-03-21 12:26:05
梅姨落網(wǎng)!傳被抓時(shí)與一老頭同居:照片首次曝光,抓捕過程披露

梅姨落網(wǎng)!傳被抓時(shí)與一老頭同居:照片首次曝光,抓捕過程披露

博士觀察
2026-03-21 15:31:41
郭富城老婆最新路照曝光:又矮又胖,沒有路人高。網(wǎng)友:我嫉妒她。

郭富城老婆最新路照曝光:又矮又胖,沒有路人高。網(wǎng)友:我嫉妒她。

小椰的奶奶
2026-03-20 14:17:23
伊萬長期棄用之人,邵佳一卻當(dāng)成寶貝果斷征召,凸顯魄力和眼光

伊萬長期棄用之人,邵佳一卻當(dāng)成寶貝果斷征召,凸顯魄力和眼光

零度眼看球
2026-03-22 07:30:49
沒想到!老公吃了半個(gè)月核桃殼煮雞蛋,晚上猛如虎,再也不喊腰疼

沒想到!老公吃了半個(gè)月核桃殼煮雞蛋,晚上猛如虎,再也不喊腰疼

蕭狡科普解說
2026-03-21 03:26:16
官宣退役不到2年,易建聯(lián)近況曝光,再次印證了姚明的那句評價(jià)

官宣退役不到2年,易建聯(lián)近況曝光,再次印證了姚明的那句評價(jià)

削桐作琴
2026-03-20 17:11:29
離開美國后,高市高興不起來,她想不通:特朗普為啥對中國不硬氣

離開美國后,高市高興不起來,她想不通:特朗普為啥對中國不硬氣

娛樂圈的筆娛君
2026-03-22 06:25:49
上海航交所:原油運(yùn)價(jià)大幅回調(diào)

上海航交所:原油運(yùn)價(jià)大幅回調(diào)

每日經(jīng)濟(jì)新聞
2026-03-21 10:41:03
午安:一種關(guān)于存在的靜謐協(xié)議

午安:一種關(guān)于存在的靜謐協(xié)議

疾跑的小蝸牛
2026-03-21 23:53:01
作妖的董潔,又讓潘粵明崩潰了

作妖的董潔,又讓潘粵明崩潰了

聽風(fēng)聽你
2026-03-13 21:53:10
掀掉洋蔥頂,整治宗教泛濫的第一步

掀掉洋蔥頂,整治宗教泛濫的第一步

黑哥講現(xiàn)代史
2026-03-14 15:46:38
“不好看,有點(diǎn)嚇人!”藝考生曬堪比小燕子的大眼睛,引人不適

“不好看,有點(diǎn)嚇人!”藝考生曬堪比小燕子的大眼睛,引人不適

蝴蝶花雨話教育
2026-02-08 12:47:42
上市公司創(chuàng)始人43歲遺孀擬轉(zhuǎn)讓近百億元股權(quán),近800億市值公司或易主

上市公司創(chuàng)始人43歲遺孀擬轉(zhuǎn)讓近百億元股權(quán),近800億市值公司或易主

第一財(cái)經(jīng)資訊
2026-03-21 23:50:11
什么樣的食物可以讓廣東人感到憤怒?網(wǎng)友:把巨辣的菜做成白色

什么樣的食物可以讓廣東人感到憤怒?網(wǎng)友:把巨辣的菜做成白色

夜深愛雜談
2026-03-21 19:46:44
《逐玉》五個(gè)角色出圈后,壓力最大的是“鄧為”,竟出現(xiàn)“平替”

《逐玉》五個(gè)角色出圈后,壓力最大的是“鄧為”,竟出現(xiàn)“平替”

楚楚號
2026-03-22 07:44:08
交通運(yùn)輸部檢查指導(dǎo)組在陜西明察暗訪發(fā)現(xiàn)客運(yùn)車輛違規(guī)夾帶危險(xiǎn)物品

交通運(yùn)輸部檢查指導(dǎo)組在陜西明察暗訪發(fā)現(xiàn)客運(yùn)車輛違規(guī)夾帶危險(xiǎn)物品

界面新聞
2026-03-20 09:34:03
4人被驅(qū)逐!雷霆11連勝送奇才15連敗 亞歷山大40+7延續(xù)紀(jì)錄

4人被驅(qū)逐!雷霆11連勝送奇才15連敗 亞歷山大40+7延續(xù)紀(jì)錄

醉臥浮生
2026-03-22 07:38:46
觀察身邊坐擁大富大貴的人,發(fā)現(xiàn)一個(gè)驚人規(guī)律:凡是成大事的,命都硬。

觀察身邊坐擁大富大貴的人,發(fā)現(xiàn)一個(gè)驚人規(guī)律:凡是成大事的,命都硬。

小陸搞笑日常
2026-03-21 10:59:33
2026-03-22 09:04:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
337文章數(shù) 49關(guān)注度
往期回顧 全部

科技要聞

庫克在華這四天,一場既定的市場秀

頭條要聞

男子在壺口瀑布外拍視頻喊"門口要錢"被投訴 景區(qū)回應(yīng)

頭條要聞

男子在壺口瀑布外拍視頻喊"門口要錢"被投訴 景區(qū)回應(yīng)

體育要聞

誰在決定字母哥未來?

娛樂要聞

田栩?qū)幗K于涼了?出軌風(fēng)波影響惡劣

財(cái)經(jīng)要聞

通脹警報(bào)拉響,加息潮要來了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年?duì)I收767億

態(tài)度原創(chuàng)

健康
時(shí)尚
旅游
手機(jī)
家居

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

這些才是適合普通人借鑒的穿搭!衣服疊穿、多穿襯衫,好耐看

旅游要聞

千畝杏林迎客來,濟(jì)南南山柳埠街道解鎖春日度假新玩法

手機(jī)要聞

內(nèi)存大漲價(jià)倒逼手機(jī)SD卡復(fù)活 網(wǎng)友:今夕是何年

家居要聞

時(shí)空交織 空間綺夢

無障礙瀏覽 進(jìn)入關(guān)懷版