337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

SWE-AGI基準(zhǔn)評測:中大型軟件在全新語言上的批量生成成功率已達80%

0
分享至


近日,OpenAI 早期核心成員之一,Vibe Coding 概念提出者 Andrej Karpathy 在社交媒體 X 上(原 Twitter)提出了關(guān)于 LLM 正在改變軟件開發(fā)的“約束結(jié)構(gòu)”(constraints landscape)的看法,他指出,大模型在“代碼翻譯”上遠(yuǎn)強于從零生成——已有代碼本身就是高度結(jié)構(gòu)化的 Prompt,同時還能作為測試參照。


如果真是這樣,軟件的穩(wěn)定形態(tài)可能就會被打破——重寫變得便宜,遷移成為常態(tài)。那么問題是,當(dāng)代碼會被 AI 反復(fù)理解、翻譯、重組時,什么樣的語言,才更適合這樣的過程?(What kind of language is optimal?)

這個問題并不是停留在討論層面。最近出現(xiàn)的一個新基準(zhǔn)測試 SWE-AGI,正在嘗試給出某種實驗性的回答——它要求 AI 從零開始,僅依據(jù) RFC 和標(biāo)準(zhǔn)文檔,真正構(gòu)建一個完整系統(tǒng)

更有意思的是,研究者刻意沒有用 Python 或 Java,而是選擇了一門全新的編程語言 MoonBit 作為構(gòu)建環(huán)境。

原因很簡單——他們希望排除“模型見過太多訓(xùn)練數(shù)據(jù)”的干擾,看看 AI 在一個相對干凈的語言環(huán)境里,能不能真正理解規(guī)則、推理結(jié)構(gòu)、完成工程。


前言

在 AI 編程從“輔助寫函數(shù)”邁向“自主構(gòu)建系統(tǒng)”的關(guān)鍵節(jié)點,一個新的基準(zhǔn)測試SWE-AGI為我們揭示了當(dāng)前 AI 編程代理(Agent)的真實水位。

這項來自粵港澳大灣區(qū)數(shù)字經(jīng)濟研究院和香港科技大學(xué)今年 2 月的實證研究,摒棄了傳統(tǒng)的代碼補全測試,轉(zhuǎn)而要求 AI 從零開始,僅根據(jù)權(quán)威規(guī)范(RFCs/標(biāo)準(zhǔn)文檔)和固定的 API 腳手架,端到端地構(gòu)建生產(chǎn)級軟件系統(tǒng)。

  • 論文鏈接:https://arxiv.org/abs/2602.09447

值得注意的是,研究中使用了國產(chǎn)新編程語言 MoonBit。

在評測 AI 編程能力時,最大的干擾項莫過于“數(shù)據(jù)污染”(Data Contamination)。如果評測的代碼恰好出現(xiàn)在模型的訓(xùn)練數(shù)據(jù)中,那么 AI 的“編寫”實際上只是一場“背誦”表演。為了打破這一魔咒,SWE-AGI 基準(zhǔn)測試做出了一個大膽且關(guān)鍵的決定:放棄 Python、Java 等傳統(tǒng)大語言,轉(zhuǎn)而采用新興的編程語言 MoonBit 作為唯一的構(gòu)建環(huán)境。

基于“反作弊”的工程考量:

  1. 切斷“開卷考試”的后路:MoonBit 作為一個相對年輕的語言,其開源生態(tài)尚在建設(shè)中,這意味著它在大模型的預(yù)訓(xùn)練語料庫中幾乎不存在。這直接封殺了 AI 通過“記憶復(fù)現(xiàn)”來蒙混過關(guān)的可能性。

  2. 強制“邏輯推理”:由于沒有現(xiàn)成的代碼片段可供抄襲,AI 必須真正理解 RFC 規(guī)范和 API 腳手架,從零開始進行邏輯推演。

  3. 工具鏈的完美閉環(huán):MoonBit 原生支持“聲明先行”(Declare-first)的工作流,配合其統(tǒng)一的工具鏈(moon),為 AI 提供了極低延遲的編譯-測試反饋循環(huán)。

結(jié)論是在這場針對“自主軟件工程”的大考中,GPT-5.3-codexClaude Opus 4.6展現(xiàn)了斷層領(lǐng)先的統(tǒng)治力,而其他模型則被遠(yuǎn)遠(yuǎn)甩在身后。


MoonBit 大型軟件合成挑戰(zhàn)賽

點擊下圖了解更多賽事詳情


論文解析

1、模型戰(zhàn)局:第一梯隊已拉開代差

SWE-AGI 基準(zhǔn)測試包含 22 個任務(wù),涵蓋模板語言、數(shù)據(jù)序列化、編程語言前端、二進制格式解析等多個領(lǐng)域,代碼規(guī)模在 103 到 104 行之間。

在這一高難度的“系統(tǒng)構(gòu)建”場景下,模型表現(xiàn)呈現(xiàn)出了明顯的兩極分化。GPT-5.3-codex 憑借 86.4% 的通過率(19/22)穩(wěn)居榜首,Claude Opus 4.6 以 68.2%(15/22)緊隨其后。相比之下,其他參評模型(包括開源模型及部分閉源模型)在簡單任務(wù)上的表現(xiàn)尚可,但一旦進入中高難度領(lǐng)域,成功率便跌至個位數(shù)甚至為零。

模型名稱

總?cè)蝿?wù)通過率 (22選)

核心評價

gpt-5.3-codex

19 / 22 (86.4%)

不僅勝率最高,且在困難任務(wù)中展現(xiàn)了極強的魯棒性與效率。

claude-opus-4.6

15 / 22 (68.2%)

相比前代大幅提升,在復(fù)雜狀態(tài)機任務(wù)中表現(xiàn)出色。

gpt-5.2-codex

17 / 22 (77.3%)

實力強但效率較低,處理復(fù)雜任務(wù)時耗時顯著長于 5.3 版本。

claude-opus-4.5

10 / 22 (45.5%)

在中高難度任務(wù)中力不從心,被最新版本拉開巨大差距。

其他模型 (Kimi/Gemini等)

極低 (<30%)

僅在極簡單的 Easy 任務(wù)中有零星表現(xiàn),無法勝任系統(tǒng)級構(gòu)建。

主流模型 SWE-AGI 實測成績對比

數(shù)據(jù)洞察:只有 GPT-5.3 和 Claude Opus 4.6 證明了具備端到端構(gòu)建基礎(chǔ)軟件(如 CSV 解析器、URI 處理器、甚至簡單的 SAT 求解器)的能力。對于其他模型而言,從“寫代碼”跨越到“做系統(tǒng)”,依然是一個難以逾越的鴻溝。

2、GPT-5.3 的“降維打擊”:少讀多試的工程智慧

雖然 GPT-5.3-codex 和 GPT-5.2-codex 都能完成大部分任務(wù),但它們的工作流(Workflow)有著本質(zhì)的區(qū)別。這種區(qū)別揭示了頂尖 AI 工程師的進化方向。

  • 效率的飛躍:GPT-5.3 在處理困難任務(wù)時,平均耗時僅為 1.7 小時,而 GPT-5.2 需要 7.8 小時。GPT-5.3 的代碼實現(xiàn)量(Core LOC)也更精簡,說明它不再通過堆砌代碼來解決問題。

  • 策略的轉(zhuǎn)變:行為日志分析顯示,GPT-5.2 有 64.6% 的時間在“讀”代碼(理解上下文、維護架構(gòu)),陷入了一種“維護模式”。而 GPT-5.3 將更多精力投入到了“調(diào)試(Debug)”和“測試”中。

  • 結(jié)論:GPT-5.3 展現(xiàn)出了更接近人類高級工程師的特質(zhì)——它不再糾結(jié)于每一行代碼的完美,而是通過高頻的試錯和反饋循環(huán)來快速收斂。

3、警惕“幻覺”:Claude Opus 的深思熟慮

Claude Opus 4.6 的表現(xiàn)則代表了另一種路徑。它比 GPT-5.3 花費了更多的時間在“規(guī)劃(Plan)”和“閱讀規(guī)范(Spec)”上。

  • 優(yōu)勢:這種“三思而后行”的策略,使得 Claude Opus 4.6 在處理強規(guī)范、復(fù)雜狀態(tài)機的任務(wù)(如 HTML5 解析)時,能保持較好的架構(gòu)一致性,避免了 GPT-5.2 那樣的無效修補。

  • 劣勢:這種深思熟慮也帶來了高昂的時間成本。Claude Opus 4.6 的平均運行時間普遍高于 GPT-5.3,顯示出其在“思考”與“行動”之間的權(quán)衡。

4、核心瓶頸:AI 90% 的時間都在“讀”代碼

這篇論文最顛覆性的發(fā)現(xiàn),并非 AI 能寫多少代碼,而是揭示了“讀”比“寫”難。

通過對 Agent 行為日志的分析,研究者發(fā)現(xiàn):隨著代碼庫規(guī)模的擴大,代碼閱讀(Code Reading)成為了 AI 開發(fā)的主要瓶頸。

  • 數(shù)據(jù)說話:在處理困難任務(wù)時,GPT-5.2-codex 有64.6%的行為是讀代碼;即便是 GPT-5.3,也有 41.4% 的時間在閱讀。

  • 本質(zhì)原因:AI 的瓶頸不再是生成代碼的“手速”,而是維護長視野(Long-horizon)架構(gòu)一致性的“記憶力”和“理解力”。AI 花費大量精力去理解自己剛剛寫過的代碼,以確保新增功能不會破壞現(xiàn)有邏輯。


結(jié)語:自主軟件工程的現(xiàn)狀與未來

SWE-AGI 的測試結(jié)果告訴我們:在許多實際部署中,瓶頸并非代碼生成,而是代碼審查、調(diào)試、集成和需求澄清。

雖然 GPT-5.3-codex 已經(jīng)證明了它能像人類一樣,從零構(gòu)建一個標(biāo)準(zhǔn)的二進制解碼器或模板引擎,但當(dāng)面對極其復(fù)雜的系統(tǒng)(如完整的 C99 解析器或 Python 子集)時,所有模型的通過率都出現(xiàn)了斷崖式下跌。

未來的 AI 編程代理,勝負(fù)手將不再是誰的“代碼庫背得更熟”,而是那些能夠通過強靜態(tài)保障、確定性構(gòu)建和豐富的自動化檢查,將反饋負(fù)擔(dān)從人工轉(zhuǎn)移至機器的編程語言和平臺更具優(yōu)勢。

根據(jù) MoonBit 官網(wǎng)數(shù)據(jù) https://mooncakes.io/ 顯示,MoonBit 在小數(shù)據(jù)集的語料環(huán)境中已積累了近 5,000+ 生態(tài)庫和千萬行級別的代碼規(guī)模。在這樣的數(shù)據(jù)規(guī)模下,模型并非依賴海量歷史包袱,而是在一個結(jié)構(gòu)更可控、語義更一致的環(huán)境中學(xué)習(xí)與推理。

如果正如 Karpathy 所說,LLM 正在改變軟件的“約束結(jié)構(gòu)”,那么語言本身的結(jié)構(gòu)是否更有利于機器理解,可能就不再是邊緣問題。

在這個意義上,MoonBit 的存在,并不是偶然插入的變量,而是一個正在被驗證的方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
全世界會發(fā)現(xiàn),伊朗戰(zhàn)爭打完后,世界只剩下一個超級大國了

全世界會發(fā)現(xiàn),伊朗戰(zhàn)爭打完后,世界只剩下一個超級大國了

揭秘歷史的真相
2026-03-27 21:04:15
趙櫻子自爆相親翻車!6億豪宅香港富商摘了眼鏡帽子后:下不去嘴

趙櫻子自爆相親翻車!6億豪宅香港富商摘了眼鏡帽子后:下不去嘴

觀魚聽雨
2026-03-27 17:30:53
繼張雪峰后,又一知名演員李尚寶去世享年45歲,死亡年輕化太唏噓

繼張雪峰后,又一知名演員李尚寶去世享年45歲,死亡年輕化太唏噓

快樂娛文
2026-03-28 09:16:25
西班牙慘遭輪奸女孩安樂死,穿漂亮裙子化精致妝容,無家人在場

西班牙慘遭輪奸女孩安樂死,穿漂亮裙子化精致妝容,無家人在場

譯言
2026-03-27 09:07:10
受賄1.08億余元,上海市奉賢區(qū)委原常委周龍華被判無期徒刑

受賄1.08億余元,上海市奉賢區(qū)委原常委周龍華被判無期徒刑

新京報
2026-03-27 17:12:02
女教師被碾壓致死后續(xù)!5人聯(lián)合作案,銷毀鐵證,兇手勢力不簡單

女教師被碾壓致死后續(xù)!5人聯(lián)合作案,銷毀鐵證,兇手勢力不簡單

青橘罐頭
2026-03-28 07:13:38
掛斷中方電話,伊朗通告全球,5國船只可通海峽,特朗普不想打了

掛斷中方電話,伊朗通告全球,5國船只可通海峽,特朗普不想打了

李健政觀察
2026-03-28 17:03:08
張雪峰骨灰安葬地確定,追悼會上原配和現(xiàn)任妻子現(xiàn)身,女兒哭昏厥

張雪峰骨灰安葬地確定,追悼會上原配和現(xiàn)任妻子現(xiàn)身,女兒哭昏厥

博士觀察
2026-03-28 14:21:06
2026,中美最終國運之戰(zhàn)已經(jīng)開始!我們每個人都已參與其中!

2026,中美最終國運之戰(zhàn)已經(jīng)開始!我們每個人都已參與其中!

愛吃醋的貓咪
2026-03-27 22:02:25
伊朗首都德黑蘭遭近期最大規(guī)模襲擊

伊朗首都德黑蘭遭近期最大規(guī)模襲擊

極目新聞
2026-03-28 06:56:12
賴清德收到“參會通知”,身份一欄的標(biāo)注讓其直接破防:不去了!

賴清德收到“參會通知”,身份一欄的標(biāo)注讓其直接破防:不去了!

翡翠清泉
2026-03-28 11:43:42
以媒稱也門胡塞武裝“參戰(zhàn)”

以媒稱也門胡塞武裝“參戰(zhàn)”

財聯(lián)社
2026-03-28 12:18:24
好兄弟仗義出手!伊朗終于等到最大強援,特朗普萬沒料到的事發(fā)生

好兄弟仗義出手!伊朗終于等到最大強援,特朗普萬沒料到的事發(fā)生

榮亭小吏
2026-03-27 13:32:07
有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
質(zhì)問郴州官方煙花店燃爆通報:欠債、表達過輕生,就會輕生嗎?

質(zhì)問郴州官方煙花店燃爆通報:欠債、表達過輕生,就會輕生嗎?

黔有虎
2026-03-28 10:42:23
吳京參加電影《鏢人》線下活動時,被網(wǎng)友拍到面部按壓后出現(xiàn)“小坑”,本人回應(yīng):含水量高了些,身體還不錯

吳京參加電影《鏢人》線下活動時,被網(wǎng)友拍到面部按壓后出現(xiàn)“小坑”,本人回應(yīng):含水量高了些,身體還不錯

瀟湘晨報
2026-03-27 17:13:10
淚崩!濟南世貿(mào)廣場驚現(xiàn)悼念張雪峰大屏,網(wǎng)友:這就是人心所向…

淚崩!濟南世貿(mào)廣場驚現(xiàn)悼念張雪峰大屏,網(wǎng)友:這就是人心所向…

火山詩話
2026-03-27 07:41:37
法足協(xié)主席:出于對德尚的尊重,世界杯結(jié)束前不再談法國新帥

法足協(xié)主席:出于對德尚的尊重,世界杯結(jié)束前不再談法國新帥

懂球帝
2026-03-28 00:05:05
翻到張雪峰2016年婚紗照,瞬間看哭了!

翻到張雪峰2016年婚紗照,瞬間看哭了!

魔都姐姐雜談
2026-03-26 22:06:50
小雨、中雨、雨夾雪,抵達時間有變!

小雨、中雨、雨夾雪,抵達時間有變!

新浪財經(jīng)
2026-03-28 12:30:41
2026-03-28 18:15:00
CSDN incentive-icons
CSDN
成就一億技術(shù)人
26413文章數(shù) 242250關(guān)注度
往期回顧 全部

科技要聞

遭中國學(xué)界"拉黑"后,這家AI頂會低頭道歉

頭條要聞

美媒:和歐盟"外長"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

頭條要聞

美媒:和歐盟"外長"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

體育要聞

“我是全家最差勁的運動員”

娛樂要聞

王一博改名上熱搜!個人時代正式開啟!

財經(jīng)要聞

用AI來“增效”,大廠打錯了算盤

汽車要聞

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

時尚
游戲
旅游
親子
藝術(shù)

龍蝦來了,厭蠢癥炸了

重大翻車!知名3A游戲PS5光盤貨不對板 玩家集體踩坑

旅游要聞

視點|2026首屆梨花藝術(shù)節(jié)植樹節(jié)啟幕

親子要聞

愛玩沙子是孩子的天性,這套#太空沙玩具 在家就能實現(xiàn)玩沙子的快樂,關(guān)鍵比去游樂場玩干凈衛(wèi)生。#兒童玩...

藝術(shù)要聞

這位富二代寫的草書,據(jù)說康生臨摹500多遍

無障礙瀏覽 進入關(guān)懷版