![]()
AI用7天完成了專家要數(shù)月的活,還順手把自己家王牌產(chǎn)品超了10%——今天arXiv上這篇論文,可能要讓芯片優(yōu)化這行重新洗牌。
研究團隊是NVIDIA攢的23人頂配陣容,論文標題很學術:《AVO: Agentic Variation Operators for Autonomous Evolutionary Search》。但核心邏輯一句話:讓AI同時當程序員、架構師和測試員,去碰那些人類工程師想破頭也想不到的代碼優(yōu)化方案。最終在最新的Blackwell(B200)GPU上,跑出來的內核比cuDNN和FlashAttention-4這些頂尖人類作品還快一截。
有意思的是,核心開發(fā)者許冰在X上坦白:他一開始根本不懂GPU編程。這場"盲編碼"實驗反而成了優(yōu)勢——人類的既有認知,有時候確實是進化的天花板。
先說說這事為什么難。現(xiàn)在大模型里的"注意力機制",要在GPU上跑得飛快,專業(yè)程序員通常得花幾個月到幾年,手動調內存訪問、設計特殊算法,最后能比通用版本快個20%-30%。但硬件在換代、算法在更新,每次都得從頭再來,又慢又吃經(jīng)驗。
![]()
科學家早就想過用"進化算法"自動化:隨機生成代碼,測誰跑得快,保留好的,變異出下一代。但這招有個硬傷——變異是"瞎的"。傳統(tǒng)做法就是隨機改改代碼片段,相當于讓猴子敲鍵盤打出莎士比亞,效率極低。
更常見的思路是把大模型塞進固定流程:人類定好規(guī)則,AI負責生成候選方案,再由人或程序篩選測試。AI只是個"候選生成器",手腳被捆得很死。
AVO的狠勁在于徹底掀桌。它把整個變異過程交給一個自主智能體循環(huán),這玩意兒權限更高、視野更全:看代碼性能數(shù)據(jù)、讀編譯器反饋、查歷史嘗試記錄,然后自主提出修改、修bug、批判方案、驗證結果。像個不知疲倦、自帶批判思維的全棧工程師,24小時重構優(yōu)化。
為了驗貨,團隊選了塊公認的硬骨頭:注意力機制計算內核。這是ChatGPT、Gemini們的核心組件,也是全球頂尖工程師砸錢砸人激烈爭奪的高地。英偉達cuDNN和Tri Dao的FlashAttention系列,就是這里的標桿。
![]()
AVO在B200上跑了7天,結果相當直白:
傳統(tǒng)方法像做填空題,在限定選項里挑;AVO像做開放題,自由探索各種可能。它不是猜什么優(yōu)化有用,而是真跑代碼、測性能,用數(shù)據(jù)驅動進化。失敗的嘗試也不浪費,告訴它此路不通。最終寫出的代碼,比人類專家還快。
這意味著什么?大模型訓練能更快——注意力機制加速10%,整個訓練周期都能縮短;硬件門檻能降低——同樣設備跑更大模型,或同樣模型用更便宜設備;頂尖優(yōu)化工程師也能從數(shù)月手工調參里解放出來。
往大了說,這篇論文證明了"AI優(yōu)化AI"這條路走得通。未來芯片設計、編譯器優(yōu)化、算法創(chuàng)新這些極度吃專業(yè)知識的領域,自主進化的智能體可能成為人類的"共研者",去探索人類思維夠不到的微觀架構組合。
看看作者名單就知道這事的分量:AI智能體編程先鋒Terry Chen和許冰、AI編譯器之父陳天奇、NVIDIA研究VP Ming-Yu Liu、GPU內核專家John Tran和Andrew Kerr、注意力機制專家Ali Hassani,再加上Humphrey Shi、Luis Ceze等學術界權威。從理論到工程、從學術到產(chǎn)品,全鏈路覆蓋。這不是篇試水論文,是NVIDIA的戰(zhàn)略級落子。
論文放出來后,有從業(yè)者評論:這像是給計算產(chǎn)業(yè)扔了顆石子,漣漪會慢慢蕩到每個角落。而此刻在arXiv的下載統(tǒng)計里,這顆石子正在加速下沉。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.