網易首頁 > 網易號 > 正文申請入駐

中科院團隊提出SparseRL，深度強化學習可自動生成高性能CUDA代碼

2026-03-25 16:06:25　來源: 機器之心Pro

河北舉報

分享至

如何讓 AI 不僅寫出「能跑」的代碼，還能寫出「跑得快」的代碼？這個問題困擾了 AI 系統研究者很久。

近日，中科院計算所團隊提出了一種名為 SparseRL 的新框架，首次將深度強化學習引入稀疏 CUDA 代碼生成任務。簡單來說，就是讓 AI 學會根據稀疏矩陣的結構，自動生成最優的 CUDA 實現代碼。

實驗顯示，在經典的 SpMV 任務上，這種方法能讓編譯成功率提升 20%，代碼執行速度提升 30%。

目前，該項成果已入選 ICLR 2026 Oral。

論文地址：https://openreview.net/pdf?id=VdLEaGPYWT
代碼鏈接：https://github.com/QiWu-NCIC/SparseRL

為什么稀疏代碼這么難寫？

要理解這項工作的價值，得先說說稀疏矩陣運算的特殊性。

稀疏矩陣在 LLM 推理、圖神經網絡、科學計算中無處不在。但和稠密矩陣不同，稀疏矩陣的非零元素分布是不規則的，這導致一個核心問題：最優的 CUDA 代碼實現取決于矩陣的具體結構，而這個結構只有在運行時才能知道。

換句話說，沒有一種「萬能」的高性能實現能應對所有稀疏矩陣。工程師們不得不針對不同的稀疏模式手動調優，這個過程既耗時又依賴經驗。

現有的 AI 代碼生成方法也幫不上太大忙。原因有三：

第一，傳統監督學習只關心代碼「對不對」，不關心「快不快」。同一個稀疏矩陣可能有多種正確的 CUDA 實現，但執行速度可能相差數倍，監督學習無法區分這種差異。
第二，執行效率這個核心指標是「不可微」的，沒法通過傳統的反向傳播來優化。
第三，稀疏矩陣的輸入（行列索引序列）和 CUDA 代碼之間存在巨大的語義鴻溝，模型很難理解矩陣結構和最優代碼策略之間的關聯。

圖片 1：展示不同稀疏矩陣需要不同 CUDA 實現策略的示例

SparseRL 怎么做到的？

研究團隊的思路很巧妙：既然執行效率不可微，那就用強化學習來優化。

SparseRL 把預訓練語言模型當作一個策略網絡，每生成一個 token 就是一次動作，而代碼的編譯結果和執行時間就是獎勵信號。

整個訓練過程分為三個階段：

第一階段是預訓練：在大量 CUDA 代碼語料上訓練語言模型，讓它建立對 GPU 編程的基礎認知；
第二階段是監督微調：用「稀疏矩陣 - 正確代碼」的配對數據教模型生成語法正確、功能正確的代碼；
第三階段是強化學習優化：這一步是關鍵 —— 引入深度強化學習，以編譯正確性和執行效率為獎勵，讓模型學會生成高性能代碼。

圖片 2：展示三階段訓練流程的整體框架圖

為了讓模型真正「看懂」稀疏矩陣的結構，研究團隊設計了一個關鍵技術：正弦位置嵌入。

稀疏矩陣的輸入是非零元素的行列索引序列，傳統的 token 嵌入無法捕捉這種二維坐標之間的空間關系。SparseRL 對行列索引分別進行正弦 / 余弦編碼，類似于 Transformer 的位置編碼，但專門針對二維坐標做了定制。

用通俗的話說，這就像給模型裝上了一副「坐標眼鏡」，讓它能看見非零元素在哪里、是怎么分布的。

另一個核心創新是層級獎勵函數。這個獎勵函數同時考慮兩個層面：正確性獎勵確保代碼能編譯、結果正確；效率獎勵則優化執行速度。設計邏輯是先保證「對」，再追求「快」。

效果如何？

研究團隊在 SpMV（稀疏矩陣 - 向量乘法）和 SpMM（稀疏矩陣 - 稠密矩陣乘法）兩個任務上驗證了方法的有效性。

在 SpMV 任務上，SparseRL 相比傳統監督學習方法，編譯成功率提升了 20%，平均執行速度提升了 30%。更重要的是，模型能根據不同的稀疏結構自動選擇不同的代碼策略，在對角型、帶狀型、隨機稀疏型等多種矩陣上都有優勢，部分場景下生成的代碼甚至接近或超越了手工調優的水平。

圖片 3：展示 SparseRL 與基線方法的差距

團隊還做了消融實驗來驗證各個組件的必要性。

結果顯示，去掉 RL 階段后性能顯著下降，說明強化學習確實是關鍵；去掉正弦嵌入后模型難以理解輸入結構，編譯率下降；只用正確性獎勵而不用效率獎勵，代碼能跑但不夠快。

當然，這個方法也有局限。論文提到，RL 訓練需要大量的編譯 - 執行反饋循環，計算成本較高；模型是針對特定 GPU 架構訓練的，遷移到新硬件可能需要重新微調；生成的代碼可能缺乏人類工程師的編碼風格，可解釋性不足。

意義與展望

SparseRL 的價值在于它代表了一個范式轉變：代碼生成的目標從「生成能運行的代碼」轉向「生成高性能代碼」。

對于 HPC 工程師和 AI 基礎設施開發者來說，這項工作展示了一種新可能 ——讓 AI 來處理那些繁瑣的性能優化工作，而人類可以把精力放在更高層次的設計上。

研究團隊表示，未來計劃將方法擴展到多 GPU 分布式稀疏計算，探索與傳統 AutoTuning 技術的結合，并支持更多類型的稀疏算子。同時，他們也在研究如何降低 RL 訓練成本，讓這種方法更實用。

作者介紹

王耀宇，中國科學院計算技術研究所博士生（共同一作），主要研究方向為深度學習編譯優化與高性能計算。

譚光明，中國科學院計算技術研究所研究員、博士生導師，主要從事高性能計算、GPU 編譯優化與深度學習系統研究，在多 GPU 分布式計算、稀疏矩陣計算、深度學習編譯器等領域取得多項重要成果，發表多篇高性能計算與機器學習相關論文。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

世界模型最新綜述！中科院聯合MBZ、NTU、Oxford系統梳理前沿進展

機器之心Pro 2026-03-24 17:38:06
0 跟貼 0
大模型的無監督強化學習能走多遠？清華團隊給出了系統性答案

機器之心Pro 2026-03-23 14:55:15
0 跟貼 0

2026年，大模型訓練的下半場屬于「強化學習云」

機器之心Pro 2026-01-12 14:03:47
0 跟貼 0

大模型最難的AI Infra，用Vibe Coding搞定

機器之心Pro 2026-01-07 15:33:06
0 跟貼 0
天下苦CUDA久矣，又一國產方案上桌了

量子位 2026-01-30 21:59:52
8 跟貼 8

裁員潮席卷硅谷，一線工程師戳破另一面真相：AI效率被嚴重高估，人類被倒逼成AI審核員，工作量是過去的10倍

每日經濟新聞 2026-03-25 15:52:04
0 跟貼 0

英偉達正在封裝世界

虎嗅APP 2026-03-23 20:26:31
3 跟貼 3
智能體大戰升溫：Claude可代用戶操作電腦 AI代理走向實用化

財聯社 2026-03-24 22:34:11
5 跟貼 5

黃仁勛暴論核彈：AGI已經實現，Ilya錯了，程序員有10億

量子位 2026-03-24 16:55:11
17 跟貼 17
讓兩個大模型在線吵架，跑通全網95%科研代碼｜深勢Deploy-Master

機器之心Pro 2026-01-09 14:22:47
0 跟貼 0
中國創造一門新編程語言的黃金時代來了？

虎嗅APP 2025-12-23 03:54:05
38 跟貼 38
黃仁勛深度訪談：“Token經濟”爆發，AI計算占GDP比重將翻百倍，英偉達10萬億是必然

華爾街見聞官方 2026-03-24 11:20:15
45 跟貼 45
美團又開源！專攻數學定理證明，能模擬人類解題，刷新多項開源SOTA

智東西 2026-03-25 12:55:52
0 跟貼 0
悟空是阿里打造Agentic計算機的第一步

鈦媒體APP 2026-03-25 17:03:12
0 跟貼 0
AI戰略全面重啟，蘋果版Siri“小龍蝦”要來了？

鈦媒體APP 2026-03-25 17:03:53
0 跟貼 0
專訪沈建光：人工智能的影響正在顯現

經濟觀察報 2026-03-25 17:53:11
0 跟貼 0
重磅：2026年中科院期刊分區表（新銳分區），正式發布！

熱質納能 2026-03-25 10:02:20
0 跟貼 0
2026年雙一流高校排名，985的統治力有多恐怖？

Delete丨CC 2026-03-23 15:32:14
10 跟貼 10
性能真的不重要了嗎？Jeff Dean給出反常答案

新智元 2025-12-28 17:20:51
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
伊朗破解以軍安全代碼，戰局或將逆轉，后援部署全曝光

曉旓就是我 2026-03-21 02:43:14
6 跟貼 6
神奇代碼，提前預知全球災難

行者看劇 2026-03-24 11:40:54
17 跟貼 17
華為工程師，偷偷用中文寫代碼，這事兒在硅谷炸鍋了

逗比星球大冒險 2026-03-24 09:40:45
1 跟貼 1
對抗KV Cache壓縮脆弱性：兩行代碼最壞風險控制防御底層假設崩塌

機器之心Pro 2026-03-25 15:26:22
0 跟貼 0
越南高三學霸竟是黑客大佬？年僅18歲編寫病毒入侵9.4萬臺電腦，黑產鏈觸目驚心

緬甸中文網 2026-03-25 14:40:16
0 跟貼 0
不上云、不租卡，如何優雅地在本地微調Qwen-VL-30B？

機器之心Pro 2026-01-13 12:57:27
0 跟貼 0
菲律賓宣布國家能源緊急狀態

界面新聞 2026-03-24 19:20:45
2703 跟貼 2703
中考數學，二次函數難題，初中生學霸來學

艾優數學 2026-03-21 11:40:39
6 跟貼 6
美國模型飛機試飛，鏡頭一轉事不簡單，指揮員吃了熊心豹子膽

桔子笑笑 2026-03-23 14:56:42
1 跟貼 1
3月25日（報道時間），河南。孩子想到馬路對面找爸爸，一路"疾跑"奔向馬路對面險釀悲劇，媽媽擔心孩子

中安在線 2026-03-25 11:55:16
51 跟貼 51
Claude Code之父，推特親傳使用技巧，超 500 萬人關注

機器之心Pro 2026-01-05 13:26:18
0 跟貼 0
開源鴻蒙重寫世界，從一行微小的代碼開始

量子位 2025-12-31 01:50:02
0 跟貼 0
德總統稱"對美信任已然喪失" 得到法國軍方強烈共鳴

紅星新聞 2026-03-25 13:54:18
232 跟貼 232
中國拒絕當冤大頭，全球炸鍋了，中科院正式下達拒絕支付令

珍瑛喜樂 2026-03-24 11:20:43
1 跟貼 1
研究生打卡下班后放松一下，怎么不算是實驗進展結算畫面

CQTV探索 2026-03-25 16:33:34
0 跟貼 0
高血壓病種編碼

想溫柔 2026-03-25 12:31:08
1 跟貼 1
Sand.ai開源MagiCompiler：突破局部編譯界限，定義訓推性能上限

機器之心Pro 2026-03-25 14:13:25
0 跟貼 0
體驗日產NX8：N序列首款SUV，五大預售權益加持！

汽車焦點 2026-03-24 15:50:56
0 跟貼 0
張雪峰那句“人生很好玩，下輩子還來”，是他最后的狂妄

孫琬童 2026-03-25 16:45:41
1 跟貼 1
五年級數學中點模型求陰影部分面積

天天數理學習分享 2026-03-22 13:47:40
4 跟貼 4

機器之心Pro

專業的人工智能媒體

12598文章數 142592關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

親子

教育

家居

公開課

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

中科院團隊提出SparseRL，深度強化學習可自動生成高性能CUDA代碼

紅極一時卻草草收場，Sora宣布正式關停

"軍工虎"譚瑞松獲死緩：搞權色交易 多次泄露內幕信息

"軍工虎"譚瑞松獲死緩：搞權色交易 多次泄露內幕信息

35歲替補門將，憑什么入選英格蘭隊？

張雪峰經搶救無效不幸去世 年僅41歲

管濤:中東局勢如何影響人民幣匯率走勢?

智己LS8放大招 30萬內8系旗艦+全線控底盤秀實力

態度原創

2026年3月兒童被子哪個牌子好？8個值得了解的兒童被品牌

正確率5%，不少人答錯的解方程

輕奢堇天府 小資情調

"軍工虎"譚瑞松獲死緩：搞權色交易多次泄露內幕信息

"軍工虎"譚瑞松獲死緩：搞權色交易多次泄露內幕信息

張雪峰經搶救無效不幸去世年僅41歲

輕奢堇天府小資情調