337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

不靠英偉達,中科院在國產 GPU 上跑通 76B 類腦大模型

0
分享至



SpikingBrain:大模型的第二條進化鏈。

作者丨鄭佳美

編輯丨馬曉寧

過去幾年,大模型幾乎都依賴 Transformer,它支撐了 GPT、Claude、Gemini 等一眾前沿模型的進步,但也一直被詬病:一旦文本變長,計算量和內存消耗就會成倍膨脹,百萬級 token 幾乎不可承受。與此同時,大模型訓練幾乎完全依賴 NVIDIA 的 GPU 體系。從算力到軟件棧,整個行業被牢牢綁定在 CUDA 上,硬件自主化成了遲遲邁不過去的門檻。

正因為如此,業界一直在尋找“下一條路”。有人嘗試混合架構,有人研究稀疏專家,也有人試水類腦計算。但這些探索往往停留在小規模實驗,很少能真正跑到大模型層面。

直到最近,中科院團隊拋出了一篇新論文,提出了一個全新系列的類腦大模型SpikingBrain。他們通過引入spiking 神經元線性注意力稀疏專家機制,不僅在超長文本處理上實現了百倍加速,還首次在國產 GPU 平臺 MetaX上穩定訓練出 76B 規模的模型。

同時,SpikingBrain的問世也證明了大模型并不是只能依賴 Transformer + NVIDIA 的組合,另一條通往未來的道路正在被打開。


論文鏈接:https://www.arxiv.org/pdf/2509.05276

01

大模型的新答案

在實驗中,研究團隊在超長上下文任務上取得了突破性成果。以SpikingBrain-7B為例,當輸入長度達到400 萬 token時,其Time-to-First-Token(首個 token 生成延遲)比傳統 Transformer 快了100 倍。換句話說,原本需要長時間等待的超長文本任務,如今幾乎可以做到即時響應。


由于脈沖神經元只在必要時才會“放電”,模型在推理過程中保持了69.15% 的稀疏激活率——也就是說,大多數神經元在大部分時間處于靜默狀態,不參與計算。相比始終全量激活的 Transformer,這種機制顯著降低了算力消耗和能耗。


在訓練規模上,研究團隊共使用1500 億 token,先后訓練了兩個核心模型:SpikingBrain-7BSpikingBrain-76B。盡管所用數據量遠少于許多主流開源大模型,這兩款模型在多項基準測試中的表現依然能夠接近,甚至在部分任務上追平傳統 Transformer。



更關鍵的是,這些訓練完全在國產 MetaX C550 GPU 集群上完成。實驗結果顯示,7B 模型在該平臺上達到了23.4% 的 FLOPs 利用率,充分證明了它在非 NVIDIA 硬件環境下依舊能夠保持穩定高效的運行。


02

從不可微到可擴展

為了實現這些結果,研究團隊在模型結構、訓練方法和系統工程三個層面都做了實驗探索。

架構實驗中,團隊對傳統 Transformer 做了關鍵改造。首先,他們將全連接注意力替換為 線性注意力和混合注意力,從根本上緩解了計算復雜度隨序列長度平方級增長的瓶頸。

與此同時,他們引入了spiking 神經元,讓模型像大腦一樣“按需放電”:只有在需要時才被激活,大多數時間保持靜默。這種類腦機制帶來了天然的稀疏性,大幅降低了無效計算,是 SpikingBrain 在能效上實現提升的關鍵所在。


而在系統實驗中,最棘手的挑戰來自硬件環境。團隊沒有沿用 NVIDIA 的成熟體系,而是選擇在國產MetaX GPU集群上完成全部訓練。

為了讓大模型在這一平臺穩定運行,他們對底層系統進行了大規模優化:重寫關鍵算子庫,改造分布式通信機制,并針對長時間訓練中常見的內存溢出與死鎖問題設計了專門的解決方案。

憑借這些工程改造,SpikingBrain 不僅在數百張 MetaX GPU 上成功完成了 7B 模型的穩定訓練,還順利擴展到 76B 參數規模,并在此基礎上引入 MoE 稀疏專家機制,進一步提升了模型的性能與效率。

到了訓練實驗環節,為了讓新架構真正跑通,團隊設計了一個conversion-based pipeline,把 Transformer 成熟的訓練經驗遷移到 SpikingBrain。配合事件觸發的 spike 編碼,模型中的脈沖神經元依然可以通過反向傳播學習,避免了“不可微”帶來的訓練障礙。通過這種遷移式實驗設計,他們在保證穩定性的同時,也逐步擴展了模型規模。


03

一條被點亮的新路線

總體來看,SpikingBrain 的價值不只是跑通了一個新模型,而是用系統性的嘗試回應了當下大模型最核心的幾個痛點。它在百萬級 token 的長文本上實現了數量級的加速,說明類腦機制在大規模模型里并不是紙上談兵,而是能帶來真實收益的方向。

同時,它第一次在國產 GPU 上完成了 76B 規模訓練,讓人看到大模型不一定要綁死在 CUDA 上,硬件路線其實有多種可能。再加上稀疏激活機制顯著降低了能耗,SpikingBrain 給“大模型能否可持續”這個老問題提供了一個新答案。

當然,SpikingBrain 暫時還不能取代 Transformer,它更像是給行業提供了一個全新的實驗樣本:證明大模型還有其他路徑可走。至于它能否在更復雜任務、更大規模下保持穩定,以及類腦機制能否發展成成熟的工具鏈,還需要時間和進一步驗證。”

但至少現在,我們已經看到,大模型的發展并不是只有一條路,新的路徑正在一點點被點亮。

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
俄媒引用中國“上帝之杖”試驗,稱俄“榛樹”鉆地導彈被嚴重夸大

俄媒引用中國“上帝之杖”試驗,稱俄“榛樹”鉆地導彈被嚴重夸大

陶慕劍地球觀察
2026-03-21 12:35:16
特朗普猛烈抨擊盟友,稱其是“懦夫”:沒有美國,北約就是紙老虎

特朗普猛烈抨擊盟友,稱其是“懦夫”:沒有美國,北約就是紙老虎

小聰明說科普
2026-03-22 08:11:58
魚朝恩之死:敢騎在皇帝頭上的太監,一頓寒食宴,當場被勒死!

魚朝恩之死:敢騎在皇帝頭上的太監,一頓寒食宴,當場被勒死!

鍋鍋愛歷史
2026-03-21 18:43:11
蘋果壓軸旗艦來了!iPhone Fold要賣1.5萬元:史上最貴蘋果手機

蘋果壓軸旗艦來了!iPhone Fold要賣1.5萬元:史上最貴蘋果手機

快科技
2026-03-21 21:14:45
雷軍:續航達到902公里,只用96.3度電;王興興、何小鵬、王傳福現身新一代SU7發布會

雷軍:續航達到902公里,只用96.3度電;王興興、何小鵬、王傳福現身新一代SU7發布會

大風新聞
2026-03-19 20:15:21
7大土帥冰火兩重天!劉建業驚艷 鄭智大羽李國旭上岸 2人站懸崖邊

7大土帥冰火兩重天!劉建業驚艷 鄭智大羽李國旭上岸 2人站懸崖邊

刀鋒體育
2026-03-22 07:51:33
巴拿馬港口被強收,中國船隊突然被查,規則到底聽誰的

巴拿馬港口被強收,中國船隊突然被查,規則到底聽誰的

小影的娛樂
2026-03-21 18:10:58
美國已被奪舍,我們是下一個?

美國已被奪舍,我們是下一個?

美第奇效應
2026-03-21 01:50:29
北約國家都傻眼了!武契奇硬氣通告全球:中國超音速導彈已經到貨

北約國家都傻眼了!武契奇硬氣通告全球:中國超音速導彈已經到貨

趣文說娛
2026-03-17 19:19:21
國際原油一個月大漲50%,今夏你的防曬衣可能更貴了

國際原油一個月大漲50%,今夏你的防曬衣可能更貴了

上觀新聞
2026-03-22 06:26:13
哈滕9+20+10力壓榜眼,亞歷山大40分創紀錄,雷霆大勝奇才11連勝

哈滕9+20+10力壓榜眼,亞歷山大40分創紀錄,雷霆大勝奇才11連勝

釘釘陌上花開
2026-03-22 07:38:11
蔣介石晚年評價朱德:他最大的本事,就是讓人永遠看不出他的本事

蔣介石晚年評價朱德:他最大的本事,就是讓人永遠看不出他的本事

新一說史
2026-03-19 20:36:47
雷軍就SU7發布會“60+60相當于120km/h”口誤致歉,感謝網友指正

雷軍就SU7發布會“60+60相當于120km/h”口誤致歉,感謝網友指正

極目新聞
2026-03-21 13:17:17
生育大局已定!不出意外的話,2026年起中國人口將迎來4大變化

生育大局已定!不出意外的話,2026年起中國人口將迎來4大變化

知鑒明史
2026-03-13 18:34:50
3億鉑金級肉簽公布中簽結果,轉股價值80.18,股民中簽或許會擔憂

3億鉑金級肉簽公布中簽結果,轉股價值80.18,股民中簽或許會擔憂

數據挖掘分析
2026-03-21 10:35:49
癌癥“源頭”已發現?高糖飲料沒上榜,第1名大家或許天天都在吃

癌癥“源頭”已發現?高糖飲料沒上榜,第1名大家或許天天都在吃

新時代的兩性情感
2026-03-21 22:36:32
中年男人親述比失業更扎心的事,進小公司過渡,撒兩泡尿都被說…

中年男人親述比失業更扎心的事,進小公司過渡,撒兩泡尿都被說…

慧翔百科
2026-03-20 18:57:03
數千伊朗權貴子女通過各種途徑移居美國生活工作,成為被滲透的安全隱患

數千伊朗權貴子女通過各種途徑移居美國生活工作,成為被滲透的安全隱患

雪中風車
2026-03-21 18:07:23
原來他們是父女,都是知名演員,20多年隔閡難消除,他69歲仍單身

原來他們是父女,都是知名演員,20多年隔閡難消除,他69歲仍單身

素衣讀史
2026-03-21 20:40:56
藥效飆升60倍!科學家改造老藥甲硝唑,可低劑量根治幽門螺桿菌

藥效飆升60倍!科學家改造老藥甲硝唑,可低劑量根治幽門螺桿菌

DeepTech深科技
2026-03-21 16:33:52
2026-03-22 09:47:00
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7134文章數 20742關注度
往期回顧 全部

科技要聞

庫克在華這四天,一場既定的市場秀

頭條要聞

男子在壺口瀑布外拍視頻喊"門口要錢"被投訴 景區回應

頭條要聞

男子在壺口瀑布外拍視頻喊"門口要錢"被投訴 景區回應

體育要聞

誰在決定字母哥未來?

娛樂要聞

田栩寧終于涼了?出軌風波影響惡劣

財經要聞

睡夢中欠債1.2萬?這只“蝦”殺瘋了

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態度原創

本地
時尚
教育
公開課
軍事航空

本地新聞

春色滿城關不住|紹興春日頂流,這片櫻花海藏不住了

這些才是適合普通人借鑒的穿搭!衣服疊穿、多穿襯衫,好耐看

教育要聞

孩子們的信,是我收到過最好的“演講反饋”

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊導彈擊中以核設施附近 爆炸視頻公布

無障礙瀏覽 進入關懷版