![]()
這項(xiàng)來自史蒂文斯理工學(xué)院和亞馬遜云服務(wù)的突破性研究發(fā)表于2026年的AIPV工作坊會(huì)議,論文編號(hào)為arXiv:2603.14628v1。有興趣深入了解的讀者可以通過該論文編號(hào)查詢完整論文。
想象你正在考試,面前有兩套截然不同的試卷。一套是奧數(shù)競賽題,雖然難度很高,但題目都很"干凈",有標(biāo)準(zhǔn)答案。另一套則是檢驗(yàn)?zāi)隳芊裥蘩硪慌_(tái)真正的汽車發(fā)動(dòng)機(jī)。雖然后者可能看起來沒那么"高雅",但它直接關(guān)系到現(xiàn)實(shí)世界中的實(shí)際問題。當(dāng)前大語言模型在定理證明領(lǐng)域就面臨著這樣的困境。
近年來,人工智能在數(shù)學(xué)定理證明方面取得了令人矚目的成果。這些智能系統(tǒng)能夠解決復(fù)雜的奧林匹克數(shù)學(xué)競賽題目,甚至在某些著名的數(shù)學(xué)挑戰(zhàn)中表現(xiàn)出色。然而,這種在"象牙塔"中的成功并不意味著它們能夠處理真實(shí)世界中的工程問題。就像一個(gè)擅長解數(shù)學(xué)題的學(xué)生未必能修好汽車一樣,在競賽數(shù)學(xué)上表現(xiàn)優(yōu)異的AI系統(tǒng)也未必能驗(yàn)證真實(shí)軟件代碼的正確性。
這個(gè)問題的核心在于,現(xiàn)有的大多數(shù)測試基準(zhǔn)都專注于抽象的數(shù)學(xué)證明,而忽略了一個(gè)關(guān)鍵領(lǐng)域:如何證明真實(shí)世界中運(yùn)行的底層代碼確實(shí)按照預(yù)期工作。特別是在密碼學(xué)這樣對(duì)安全性要求極高的領(lǐng)域,任何一個(gè)微小的錯(cuò)誤都可能導(dǎo)致嚴(yán)重的安全漏洞。
為了填補(bǔ)這個(gè)空白,研究團(tuán)隊(duì)創(chuàng)建了一個(gè)名為"s2n-bignum-bench"的全新測試基準(zhǔn)。這個(gè)基準(zhǔn)就像是為AI系統(tǒng)量身定制的"實(shí)戰(zhàn)考試",考驗(yàn)它們能否為真實(shí)的工業(yè)級(jí)密碼學(xué)匯編代碼編寫正確的數(shù)學(xué)證明。
這項(xiàng)研究的獨(dú)特之處在于,它基于一個(gè)已經(jīng)在亞馬遜云服務(wù)中實(shí)際部署使用的密碼學(xué)庫——s2n-bignum。這個(gè)庫包含了大量手工優(yōu)化的大整數(shù)運(yùn)算匯編程序,這些程序直接關(guān)系到云計(jì)算服務(wù)的安全性。更重要的是,這些程序的正確性已經(jīng)通過HOL Light這一嚴(yán)格的數(shù)學(xué)證明系統(tǒng)得到了驗(yàn)證,就像每個(gè)程序都有了一張"質(zhì)量保證書"。
研究團(tuán)隊(duì)面臨的挑戰(zhàn)是如何將這個(gè)復(fù)雜的工業(yè)級(jí)代碼庫轉(zhuǎn)化為可供AI系統(tǒng)學(xué)習(xí)和測試的標(biāo)準(zhǔn)化基準(zhǔn)。他們需要確保每個(gè)測試問題都是獨(dú)立的,可重現(xiàn)的,同時(shí)還要防止作弊行為。這就像是將一個(gè)復(fù)雜的工廠生產(chǎn)線拆解成一個(gè)個(gè)可以獨(dú)立檢驗(yàn)的工作站,每個(gè)工作站都有明確的輸入、輸出和質(zhì)量標(biāo)準(zhǔn)。
一、從數(shù)學(xué)競賽到工業(yè)驗(yàn)證的跨越
傳統(tǒng)的AI數(shù)學(xué)能力測試就像學(xué)校里的標(biāo)準(zhǔn)化考試,題目雖然有挑戰(zhàn)性,但都遵循著相對(duì)固定的模式。比如著名的MiniF2F基準(zhǔn)包含了488道奧林匹克級(jí)別的數(shù)學(xué)題目,而PutnamBench則收錄了來自普特南數(shù)學(xué)競賽的1724個(gè)問題。這些測試確實(shí)能夠衡量AI系統(tǒng)的抽象推理能力,但它們與現(xiàn)實(shí)世界的軟件驗(yàn)證需求之間存在著巨大鴻溝。
現(xiàn)實(shí)中的軟件驗(yàn)證更像是診斷一臺(tái)復(fù)雜機(jī)器的故障。你需要理解機(jī)器的每個(gè)零件如何工作,零件之間如何相互作用,以及整個(gè)系統(tǒng)在各種條件下的行為表現(xiàn)。對(duì)于密碼學(xué)匯編代碼來說,這意味著AI系統(tǒng)必須理解計(jì)算機(jī)的底層架構(gòu),包括寄存器如何存儲(chǔ)數(shù)據(jù),內(nèi)存如何訪問,以及每條指令如何精確地改變系統(tǒng)狀態(tài)。
以一個(gè)簡單的例子來說明這種差異:在傳統(tǒng)數(shù)學(xué)測試中,證明"x乘以(y加z)等于x乘以y加x乘以z"是一個(gè)純粹的代數(shù)操作。但在真實(shí)的匯編代碼驗(yàn)證中,你需要證明一系列具體的機(jī)器指令確實(shí)實(shí)現(xiàn)了這個(gè)數(shù)學(xué)關(guān)系,同時(shí)還要考慮整數(shù)溢出、內(nèi)存對(duì)齊、指令順序等各種底層細(xì)節(jié)。
正是基于這種認(rèn)識(shí),研究團(tuán)隊(duì)決定創(chuàng)建一個(gè)專門針對(duì)工業(yè)級(jí)低級(jí)代碼驗(yàn)證的基準(zhǔn)測試。他們選擇了HOL Light作為證明系統(tǒng),這是一個(gè)以嚴(yán)格性著稱的定理證明器,被廣泛應(yīng)用于關(guān)鍵系統(tǒng)的形式化驗(yàn)證。更重要的是,他們選擇了一個(gè)真正在生產(chǎn)環(huán)境中使用的代碼庫作為測試來源,確保測試的實(shí)用性和現(xiàn)實(shí)意義。
二、s2n-bignum:真實(shí)世界的密碼學(xué)代碼庫
s2n-bignum就像是密碼學(xué)世界的"瑞士軍刀",它是亞馬遜云服務(wù)專門開發(fā)的一個(gè)高性能大整數(shù)運(yùn)算庫。在現(xiàn)代密碼學(xué)中,大整數(shù)運(yùn)算就像是建筑的地基,幾乎所有的加密算法都依賴于對(duì)超大數(shù)字的精確計(jì)算。這些數(shù)字往往有幾百甚至上千位,遠(yuǎn)遠(yuǎn)超出了普通計(jì)算器能處理的范圍。
為什么需要如此復(fù)雜的計(jì)算呢?這就要從密碼學(xué)的基本原理說起。現(xiàn)代加密技術(shù)的安全性建立在某些數(shù)學(xué)問題的困難性上,比如分解大質(zhì)數(shù)或者計(jì)算離散對(duì)數(shù)。這些問題對(duì)于計(jì)算機(jī)來說極其困難,但密碼學(xué)算法本身卻需要高效地進(jìn)行相關(guān)運(yùn)算。這就像是需要在一個(gè)迷宮中快速找到出路,但同時(shí)要確保其他人很難跟蹤你的路徑。
s2n-bignum庫的特殊之處在于,它的每個(gè)函數(shù)都有兩個(gè)版本:一個(gè)是用匯編語言編寫的高性能實(shí)現(xiàn),另一個(gè)是用數(shù)學(xué)語言描述的規(guī)范說明。匯編版本就像是一份詳細(xì)的操作手冊(cè),告訴計(jì)算機(jī)應(yīng)該執(zhí)行哪些具體步驟,而數(shù)學(xué)規(guī)范則像是一份設(shè)計(jì)藍(lán)圖,描述了這個(gè)函數(shù)應(yīng)該實(shí)現(xiàn)什么功能。
形式化驗(yàn)證的過程就是要證明這兩個(gè)版本是完全等價(jià)的。這個(gè)過程極其復(fù)雜,因?yàn)樾枰紤]計(jì)算機(jī)架構(gòu)的每一個(gè)細(xì)節(jié)。比如,當(dāng)兩個(gè)大數(shù)相乘時(shí),結(jié)果可能會(huì)超出單個(gè)寄存器能存儲(chǔ)的范圍,這時(shí)就需要使用多個(gè)寄存器來存儲(chǔ)結(jié)果,并正確處理各部分之間的進(jìn)位。匯編代碼必須精確地實(shí)現(xiàn)這個(gè)過程,不能有任何偏差。
更復(fù)雜的是,現(xiàn)代密碼學(xué)算法還需要考慮側(cè)信道攻擊的防護(hù)。簡單來說,就是要確保程序的執(zhí)行時(shí)間和內(nèi)存訪問模式不會(huì)泄露任何關(guān)于私鑰的信息。這就像是在黑暗中完成一項(xiàng)精密操作,不能發(fā)出任何聲音或光線來暴露你的行為。s2n-bignum的許多函數(shù)都實(shí)現(xiàn)了常數(shù)時(shí)間算法,確保無論輸入數(shù)據(jù)是什么,程序的執(zhí)行時(shí)間都完全相同。
三、基準(zhǔn)測試的精心構(gòu)建
將s2n-bignum轉(zhuǎn)化為標(biāo)準(zhǔn)化測試基準(zhǔn)就像是將一座復(fù)雜的工廠改造成一個(gè)教學(xué)實(shí)驗(yàn)室。原始的代碼庫包含了成千上萬行代碼和相應(yīng)的證明,這些內(nèi)容相互關(guān)聯(lián),形成了一個(gè)復(fù)雜的知識(shí)網(wǎng)絡(luò)。研究團(tuán)隊(duì)需要將這個(gè)網(wǎng)絡(luò)分解為獨(dú)立的測試單元,每個(gè)單元都能夠單獨(dú)進(jìn)行評(píng)估。
這個(gè)過程的第一步是識(shí)別和提取所有的定理證明。在HOL Light中,每個(gè)證明都以"let THM = prove(goal, proof)"的形式存在,其中g(shù)oal是要證明的數(shù)學(xué)命題,proof是證明過程。研究團(tuán)隊(duì)開發(fā)了自動(dòng)化工具來掃描整個(gè)代碼庫,找出所有這樣的證明,并為每個(gè)證明生成一個(gè)唯一的標(biāo)識(shí)符。
標(biāo)識(shí)符的設(shè)計(jì)很有講究,采用了"架構(gòu).文件名.定理名.序號(hào)"的格式。比如"arm.bignum_montsqr_p256.lemma1.0"就表示這是ARM架構(gòu)下,bignum_montsqr_p256文件中的第一個(gè)引理的第0個(gè)實(shí)例。這樣的命名方式確保了每個(gè)問題都有一個(gè)穩(wěn)定的身份標(biāo)識(shí),即使在基準(zhǔn)測試的不同版本之間也能保持一致。
接下來的挑戰(zhàn)是如何為每個(gè)證明問題提供合適的上下文環(huán)境。每個(gè)證明都依賴于大量的先前定義、引理和定理。就像做菜需要準(zhǔn)備所有的原料和調(diào)料一樣,要讓AI系統(tǒng)能夠進(jìn)行證明,就必須為它提供所有必要的數(shù)學(xué)定義和已知結(jié)果。
研究團(tuán)隊(duì)采用了一種巧妙的方法來解決這個(gè)問題。他們?yōu)槊總€(gè)問題創(chuàng)建了一個(gè)獨(dú)立的"setup.ml"文件,這個(gè)文件包含了進(jìn)行該證明所需的所有前置知識(shí),但將原始的證明過程替換為了一個(gè)占位符"CHEAT_TAC"。這樣,AI系統(tǒng)就能夠獲得進(jìn)行證明所需的所有工具,但必須自己找出正確的證明步驟。
為了確保測試的公平性和防止作弊行為,研究團(tuán)隊(duì)還設(shè)計(jì)了多重安全機(jī)制。系統(tǒng)會(huì)檢查提交的證明是否使用了被禁止的策略,比如CHEAT_TAC或new_axiom函數(shù)。這些函數(shù)就像是考試中的"作弊小抄",能夠繞過正常的證明過程直接得到結(jié)果。系統(tǒng)還會(huì)監(jiān)控證明過程中是否引入了新的公理,確保所有的推理都基于已建立的數(shù)學(xué)基礎(chǔ)。
四、測試問題的分類體系
經(jīng)過仔細(xì)分析,研究團(tuán)隊(duì)將2284個(gè)測試問題劃分為四個(gè)主要類別,每個(gè)類別都代表了密碼學(xué)匯編驗(yàn)證中的不同挑戰(zhàn)。
第一類是位向量引理,包含311個(gè)問題。這類問題就像是數(shù)字電路設(shè)計(jì)中的基礎(chǔ)邏輯門驗(yàn)證。在計(jì)算機(jī)中,所有的數(shù)據(jù)都以二進(jìn)制位的形式存儲(chǔ),而密碼學(xué)運(yùn)算需要對(duì)這些位進(jìn)行各種復(fù)雜的操作。比如,如何證明兩個(gè)位向量的邏輯與運(yùn)算滿足某種數(shù)學(xué)性質(zhì),或者如何驗(yàn)證位移操作不會(huì)丟失重要信息。這些看似簡單的操作在大規(guī)模并行處理時(shí)會(huì)變得異常復(fù)雜。
第二類是程序狀態(tài)引理,共552個(gè)問題。這類問題關(guān)注的是程序執(zhí)行過程中系統(tǒng)狀態(tài)的變化。每當(dāng)程序執(zhí)行一條指令,計(jì)算機(jī)的寄存器和內(nèi)存狀態(tài)都會(huì)發(fā)生改變。這類證明需要跟蹤這些狀態(tài)變化,確保它們符合預(yù)期的數(shù)學(xué)模型。就像是記錄一場復(fù)雜手術(shù)的每一個(gè)步驟,確保每個(gè)動(dòng)作都不會(huì)對(duì)患者造成意外傷害。
第三類是功能正確性證明,這是整個(gè)基準(zhǔn)測試的核心,包含859個(gè)問題。這些問題分為437個(gè)ARM架構(gòu)問題和422個(gè)x86架構(gòu)問題。功能正確性證明要求證明整個(gè)匯編函數(shù)確實(shí)實(shí)現(xiàn)了其數(shù)學(xué)規(guī)范所描述的功能。這就像是要證明一臺(tái)復(fù)雜機(jī)器確實(shí)能夠按照設(shè)計(jì)圖紙完成預(yù)定任務(wù)。
這類證明特別具有挑戰(zhàn)性,因?yàn)樗枰獙⒏呒?jí)的數(shù)學(xué)概念與底層的機(jī)器操作聯(lián)系起來。比如,要證明一個(gè)模冪運(yùn)算函數(shù)的正確性,就需要驗(yàn)證數(shù)百條匯編指令的組合確實(shí)能夠計(jì)算出正確的數(shù)學(xué)結(jié)果,同時(shí)還要考慮各種邊界條件和異常情況。
第四類是通用引理,包含562個(gè)問題。這些是支持其他證明的輔助性結(jié)果,就像是工具箱中的各種工具。雖然它們本身可能不直接解決主要問題,但在構(gòu)建復(fù)雜證明時(shí)卻是不可或缺的。這類引理涵蓋了數(shù)論、代數(shù)、邏輯等多個(gè)數(shù)學(xué)領(lǐng)域的基礎(chǔ)結(jié)果。
五、評(píng)估機(jī)制與防作弊系統(tǒng)
設(shè)計(jì)一個(gè)公平且嚴(yán)格的評(píng)估系統(tǒng)就像是設(shè)計(jì)一場重要的考試,需要考慮各種可能的作弊方式并加以防范。研究團(tuán)隊(duì)為此開發(fā)了一套多層次的評(píng)估機(jī)制。
評(píng)估過程分為三個(gè)階段。首先是語法檢查階段,就像是檢查考生是否用正確的語言答題。系統(tǒng)會(huì)驗(yàn)證提交的證明是否符合HOL Light的語法規(guī)則,能否正確編譯。任何包含語法錯(cuò)誤或類型錯(cuò)誤的提交都會(huì)在這一階段被拒絕,避免浪費(fèi)后續(xù)的計(jì)算資源。
通過語法檢查的提交會(huì)進(jìn)入證明執(zhí)行階段。在這個(gè)階段,系統(tǒng)會(huì)實(shí)際運(yùn)行提交的證明代碼,嘗試驗(yàn)證其正確性。這個(gè)過程就像是讓學(xué)生的答案接受嚴(yán)格的邏輯檢驗(yàn)。為了防止某些證明消耗過多時(shí)間,系統(tǒng)為每個(gè)問題設(shè)置了時(shí)間限制。這些時(shí)間限制是基于原始證明的實(shí)際運(yùn)行時(shí)間精心調(diào)整的,既要給合理的解答留出足夠時(shí)間,又要避免無效的嘗試消耗大量資源。
最后是結(jié)果判定階段,系統(tǒng)會(huì)為每次提交給出明確的判定結(jié)果:成功、失敗、作弊、超時(shí)或錯(cuò)誤。這種明確的分類幫助研究人員準(zhǔn)確評(píng)估不同方法的性能表現(xiàn)。
為了防止各種形式的作弊行為,系統(tǒng)實(shí)施了嚴(yán)格的監(jiān)控措施。除了檢查明顯的作弊函數(shù)外,系統(tǒng)還會(huì)監(jiān)控證明過程中的公理使用情況。在數(shù)學(xué)證明中,公理就像是不證自明的基本假設(shè)。如果允許隨意添加新公理,那么任何命題都可以被"證明",這就失去了證明的意義。
系統(tǒng)還防范一種被稱為"SQL注入"式的攻擊,即通過提交復(fù)雜的代碼片段來繞過正常的評(píng)估流程。為此,系統(tǒng)會(huì)解析每個(gè)提交的內(nèi)容,確保它確實(shí)是一個(gè)有效的證明表達(dá)式,而不是其他類型的代碼。
六、初步測試結(jié)果與挑戰(zhàn)分析
為了驗(yàn)證基準(zhǔn)測試的有效性,研究團(tuán)隊(duì)使用GPT-5.3-Codex進(jìn)行了初步測試。結(jié)果顯示,即使是當(dāng)前最先進(jìn)的大語言模型,在這個(gè)基準(zhǔn)測試上的表現(xiàn)也相當(dāng)有限。在中等努力模式下,模型的成功率為4.4%,而在高努力模式下也僅達(dá)到5.3%。
這個(gè)結(jié)果并不令人意外,但卻很有啟發(fā)性。它清楚地表明了抽象數(shù)學(xué)推理能力與具體代碼驗(yàn)證能力之間的差距。模型在不同類別的問題上表現(xiàn)差異很大:在通用引理上的成功率最高,達(dá)到10.5%到11.7%,這可能是因?yàn)檫@類問題更接近傳統(tǒng)的數(shù)學(xué)證明。而在功能正確性證明上,模型的表現(xiàn)幾乎為零,ARM和x86架構(gòu)的問題都沒有得到任何正確解答。
這種差異反映了工業(yè)級(jí)代碼驗(yàn)證的獨(dú)特挑戰(zhàn)。功能正確性證明需要深入理解計(jì)算機(jī)架構(gòu)的細(xì)節(jié),包括指令集、內(nèi)存模型、數(shù)據(jù)表示等方面的知識(shí)。這些知識(shí)在傳統(tǒng)的數(shù)學(xué)訓(xùn)練中很少涉及,因此即使是在抽象推理方面表現(xiàn)出色的模型,在面對(duì)這類問題時(shí)也會(huì)感到"力不從心"。
研究團(tuán)隊(duì)還注意到,許多失敗的嘗試都因?yàn)檎Z法錯(cuò)誤而被排除在外。在中等努力模式下,只有743個(gè)提交通過了語法檢查,約占總數(shù)的32.5%。這表明,模型在理解HOL Light證明語言的語法方面還存在基礎(chǔ)性困難。
七、技術(shù)創(chuàng)新與質(zhì)量保證
這個(gè)基準(zhǔn)測試在技術(shù)實(shí)現(xiàn)上有幾個(gè)重要?jiǎng)?chuàng)新。首先是問題的模塊化設(shè)計(jì),每個(gè)測試問題都被包裝成一個(gè)獨(dú)立的單元,包含所需的所有依賴關(guān)系。這就像是將復(fù)雜的化學(xué)實(shí)驗(yàn)分解為一系列標(biāo)準(zhǔn)化的試管實(shí)驗(yàn),每個(gè)實(shí)驗(yàn)都有明確的輸入輸出和操作步驟。
其次是靈活的超時(shí)機(jī)制。不同的證明問題有著完全不同的計(jì)算復(fù)雜度,從幾毫秒的簡單引理到數(shù)小時(shí)的復(fù)雜定理都有。研究團(tuán)隊(duì)通過反復(fù)運(yùn)行原始證明來測量其實(shí)際執(zhí)行時(shí)間,然后為每個(gè)問題設(shè)置個(gè)性化的超時(shí)限制。這種方法既保證了復(fù)雜證明有足夠的執(zhí)行時(shí)間,又避免了失敗嘗試的無謂等待。
第三是完整性檢查機(jī)制。系統(tǒng)不僅驗(yàn)證證明的正確性,還檢查證明的合理性。比如,如果一個(gè)證明在幾毫秒內(nèi)就完成了原本需要幾分鐘的復(fù)雜推理,那么很可能存在某種形式的作弊行為。
為了應(yīng)對(duì)數(shù)據(jù)污染問題,研究團(tuán)隊(duì)還實(shí)現(xiàn)了一種基于類型注釋混淆的防護(hù)機(jī)制。在機(jī)器學(xué)習(xí)中,數(shù)據(jù)污染指的是訓(xùn)練數(shù)據(jù)中包含了測試問題的答案,導(dǎo)致模型性能被高估。通過改變問題的表述方式而不改變其數(shù)學(xué)含義,這種機(jī)制能夠降低模型直接記憶答案的可能性。
八、實(shí)際應(yīng)用前景與未來發(fā)展
s2n-bignum-bench的意義遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)研究的范疇。隨著軟件系統(tǒng)變得越來越復(fù)雜,自動(dòng)化驗(yàn)證工具的需求也在快速增長。特別是在安全關(guān)鍵的應(yīng)用領(lǐng)域,如航空航天、金融系統(tǒng)、醫(yī)療設(shè)備等,軟件錯(cuò)誤可能帶來災(zāi)難性后果。
當(dāng)前的軟件驗(yàn)證主要依賴人工專家,這不僅成本高昂,而且容易出錯(cuò)。如果AI系統(tǒng)能夠在這個(gè)基準(zhǔn)測試上取得突破,就意味著它們有可能承擔(dān)起實(shí)際的軟件驗(yàn)證工作。這將極大降低高質(zhì)量軟件的開發(fā)成本,提高軟件系統(tǒng)的可靠性。
特別是在密碼學(xué)領(lǐng)域,正確性驗(yàn)證具有特殊的重要性。任何微小的實(shí)現(xiàn)錯(cuò)誤都可能被攻擊者利用,導(dǎo)致整個(gè)加密系統(tǒng)的破解。當(dāng)前,只有少數(shù)幾個(gè)密碼學(xué)庫接受了完整的形式化驗(yàn)證,主要原因就是驗(yàn)證成本過高。如果AI能夠自動(dòng)化這個(gè)過程,就能夠讓更多的密碼學(xué)實(shí)現(xiàn)獲得數(shù)學(xué)級(jí)別的安全保證。
研究團(tuán)隊(duì)也指出了未來可能的擴(kuò)展方向。當(dāng)前的基準(zhǔn)測試主要關(guān)注功能正確性,但現(xiàn)代密碼學(xué)還需要考慮其他重要性質(zhì),比如常數(shù)時(shí)間執(zhí)行、側(cè)信道安全性等。這些性質(zhì)的驗(yàn)證更加復(fù)雜,需要更精細(xì)的分析方法。
另一個(gè)有趣的方向是跨架構(gòu)驗(yàn)證。s2n-bignum同時(shí)包含ARM和x86兩種架構(gòu)的實(shí)現(xiàn),理論上這兩種實(shí)現(xiàn)應(yīng)該在數(shù)學(xué)上完全等價(jià)。如果AI系統(tǒng)能夠自動(dòng)驗(yàn)證這種等價(jià)性,就能夠幫助開發(fā)者確保跨平臺(tái)代碼的一致性。
說到底,這項(xiàng)研究展現(xiàn)了AI技術(shù)發(fā)展過程中的一個(gè)重要轉(zhuǎn)折點(diǎn)。我們正在從追求在人工構(gòu)造的測試上獲得高分,轉(zhuǎn)向解決真實(shí)世界中的實(shí)際問題。s2n-bignum-bench就像是一面鏡子,它讓我們看到了當(dāng)前AI系統(tǒng)在面對(duì)真實(shí)工程挑戰(zhàn)時(shí)的真實(shí)水平,同時(shí)也為未來的改進(jìn)指明了方向。
這個(gè)基準(zhǔn)測試的出現(xiàn)標(biāo)志著AI輔助軟件驗(yàn)證領(lǐng)域進(jìn)入了一個(gè)新階段。雖然當(dāng)前的結(jié)果還不夠理想,但它為整個(gè)研究社區(qū)提供了一個(gè)明確的目標(biāo)和標(biāo)準(zhǔn)化的評(píng)估工具。隨著更多研究團(tuán)隊(duì)在這個(gè)基準(zhǔn)上進(jìn)行嘗試和改進(jìn),我們有理由相信,AI在軟件驗(yàn)證方面的能力將會(huì)快速提升。
對(duì)于普通用戶來說,這項(xiàng)研究的長遠(yuǎn)影響可能是讓我們使用的軟件變得更加安全可靠。當(dāng)AI系統(tǒng)能夠自動(dòng)驗(yàn)證密碼學(xué)代碼的正確性時(shí),我們的個(gè)人數(shù)據(jù)、金融信息、通信隱私都將得到更好的保護(hù)。這不僅是技術(shù)進(jìn)步,更是對(duì)數(shù)字時(shí)代生活質(zhì)量的重要保障。
有興趣深入了解這項(xiàng)研究的讀者可以通過論文編號(hào)arXiv:2603.14628v1查詢完整的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)數(shù)據(jù)。研究團(tuán)隊(duì)也承諾會(huì)持續(xù)更新和維護(hù)這個(gè)基準(zhǔn)測試,為AI輔助軟件驗(yàn)證的發(fā)展提供長期支持。
Q&A
Q1:s2n-bignum-bench是什么?
A:s2n-bignum-bench是由史蒂文斯理工學(xué)院和亞馬遜云服務(wù)聯(lián)合開發(fā)的測試基準(zhǔn),專門用來評(píng)估AI系統(tǒng)能否為真實(shí)的工業(yè)級(jí)密碼學(xué)匯編代碼編寫正確的數(shù)學(xué)證明,包含2284個(gè)來自實(shí)際生產(chǎn)環(huán)境的測試問題。
Q2:為什么需要專門的工業(yè)代碼驗(yàn)證基準(zhǔn)而不是傳統(tǒng)數(shù)學(xué)測試?
A:傳統(tǒng)數(shù)學(xué)測試就像奧數(shù)競賽,雖然有挑戰(zhàn)性但相對(duì)"干凈"。而工業(yè)代碼驗(yàn)證需要理解計(jì)算機(jī)底層架構(gòu)、內(nèi)存管理、指令執(zhí)行等復(fù)雜細(xì)節(jié),就像修理真正的汽車發(fā)動(dòng)機(jī),兩者需要完全不同的技能集合。
Q3:目前AI在s2n-bignum-bench上的表現(xiàn)如何?
A:即使是最先進(jìn)的GPT-5.3-Codex模型,在這個(gè)基準(zhǔn)測試上的成功率也只有4.4%到5.3%,特別是在功能正確性證明方面幾乎完全失敗,這表明AI在真實(shí)工業(yè)代碼驗(yàn)證方面還有很大提升空間。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.