英偉達23人團隊搞了個AI：7天寫出比自家王牌快10%的代碼

2026-03-26 21:06:21　來源: 閃存獵手

北京舉報

分享至

AI用7天完成了專家要數(shù)月的活，還順手把自己家王牌產(chǎn)品超了10%——今天arXiv上這篇論文，可能要讓芯片優(yōu)化這行重新洗牌。

研究團隊是NVIDIA攢的23人頂配陣容，論文標題很學術：《AVO: Agentic Variation Operators for Autonomous Evolutionary Search》。但核心邏輯一句話：讓AI同時當程序員、架構師和測試員，去碰那些人類工程師想破頭也想不到的代碼優(yōu)化方案。最終在最新的Blackwell（B200）GPU上，跑出來的內核比cuDNN和FlashAttention-4這些頂尖人類作品還快一截。

有意思的是，核心開發(fā)者許冰在X上坦白：他一開始根本不懂GPU編程。這場"盲編碼"實驗反而成了優(yōu)勢——人類的既有認知，有時候確實是進化的天花板。

先說說這事為什么難。現(xiàn)在大模型里的"注意力機制"，要在GPU上跑得飛快，專業(yè)程序員通常得花幾個月到幾年，手動調內存訪問、設計特殊算法，最后能比通用版本快個20%-30%。但硬件在換代、算法在更新，每次都得從頭再來，又慢又吃經(jīng)驗。

科學家早就想過用"進化算法"自動化：隨機生成代碼，測誰跑得快，保留好的，變異出下一代。但這招有個硬傷——變異是"瞎的"。傳統(tǒng)做法就是隨機改改代碼片段，相當于讓猴子敲鍵盤打出莎士比亞，效率極低。

更常見的思路是把大模型塞進固定流程：人類定好規(guī)則，AI負責生成候選方案，再由人或程序篩選測試。AI只是個"候選生成器"，手腳被捆得很死。

AVO的狠勁在于徹底掀桌。它把整個變異過程交給一個自主智能體循環(huán)，這玩意兒權限更高、視野更全：看代碼性能數(shù)據(jù)、讀編譯器反饋、查歷史嘗試記錄，然后自主提出修改、修bug、批判方案、驗證結果。像個不知疲倦、自帶批判思維的全棧工程師，24小時重構優(yōu)化。

為了驗貨，團隊選了塊公認的硬骨頭：注意力機制計算內核。這是ChatGPT、Gemini們的核心組件，也是全球頂尖工程師砸錢砸人激烈爭奪的高地。英偉達cuDNN和Tri Dao的FlashAttention系列，就是這里的標桿。

AVO在B200上跑了7天，結果相當直白：

傳統(tǒng)方法像做填空題，在限定選項里挑；AVO像做開放題，自由探索各種可能。它不是猜什么優(yōu)化有用，而是真跑代碼、測性能，用數(shù)據(jù)驅動進化。失敗的嘗試也不浪費，告訴它此路不通。最終寫出的代碼，比人類專家還快。

這意味著什么？大模型訓練能更快——注意力機制加速10%，整個訓練周期都能縮短；硬件門檻能降低——同樣設備跑更大模型，或同樣模型用更便宜設備；頂尖優(yōu)化工程師也能從數(shù)月手工調參里解放出來。

往大了說，這篇論文證明了"AI優(yōu)化AI"這條路走得通。未來芯片設計、編譯器優(yōu)化、算法創(chuàng)新這些極度吃專業(yè)知識的領域，自主進化的智能體可能成為人類的"共研者"，去探索人類思維夠不到的微觀架構組合。

看看作者名單就知道這事的分量：AI智能體編程先鋒Terry Chen和許冰、AI編譯器之父陳天奇、NVIDIA研究VP Ming-Yu Liu、GPU內核專家John Tran和Andrew Kerr、注意力機制專家Ali Hassani，再加上Humphrey Shi、Luis Ceze等學術界權威。從理論到工程、從學術到產(chǎn)品，全鏈路覆蓋。這不是篇試水論文，是NVIDIA的戰(zhàn)略級落子。

論文放出來后，有從業(yè)者評論：這像是給計算產(chǎn)業(yè)扔了顆石子，漣漪會慢慢蕩到每個角落。而此刻在arXiv的下載統(tǒng)計里，這顆石子正在加速下沉。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.