337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

人工智能監(jiān)管新模式:基于人工智能安全研究的經(jīng)驗和建議

0
分享至


牛津大學(xué)出版社《政策與社會》(Policy and Society)雜志于2025年第44卷刊載論文《當(dāng)代碼不再是規(guī)則:重新思考人工智能監(jiān)管》(When code isn’t law: rethinking regulation for artificial intelligence),主要介紹了監(jiān)管人工智能系統(tǒng)所面臨的挑戰(zhàn),并提出了一種適合人工智能新特征的適應(yīng)性監(jiān)管模型。

一、引言

技術(shù)革新早期,曾存在網(wǎng)絡(luò)空間中代碼即規(guī)則的觀點,主張通過監(jiān)管軟件與協(xié)議在數(shù)字世界維護(hù)價值觀。當(dāng)時的數(shù)字系統(tǒng)行為基于明確設(shè)計,可像飛機(jī)、核電站等工程系統(tǒng)一樣,依據(jù)監(jiān)管規(guī)范審計合規(guī)性。但在生成式人工智能時代,代碼即規(guī)則已不再適用。人類編寫的代碼無法決定生成式人工智能系統(tǒng)的運行,它們具有不透明性且與非設(shè)計性,是通過調(diào)整大規(guī)模資源密集型訓(xùn)練過程創(chuàng)建的,無法將“大型語言模型不得提供醫(yī)療建議”這類規(guī)則直接編碼到模型本身,工程師只能希望模型經(jīng)充分強(qiáng)化后遵循預(yù)期行為。代碼無法明確決定系統(tǒng)行為,因此,既無法證明其符合監(jiān)管規(guī)范,也難以追溯和糾正不當(dāng)行為,基于黑箱數(shù)據(jù)驅(qū)動的人工智能系統(tǒng)監(jiān)管體系是不完善的。

傳統(tǒng)的將監(jiān)管權(quán)委托給專家機(jī)構(gòu)的模式已在航空、核能等高風(fēng)險領(lǐng)域取得成功,不應(yīng)被完全摒棄。政策制定者需在控制當(dāng)前不透明模型風(fēng)險的同時,支持可驗證安全的人工智能架構(gòu)研究。借鑒人工智能安全領(lǐng)域文獻(xiàn)及過往監(jiān)管成功經(jīng)驗,有效的人工智能治理需整合監(jiān)管權(quán)限、實施許可制度、強(qiáng)制要求披露訓(xùn)練數(shù)據(jù)與建模信息、對系統(tǒng)行為進(jìn)行形式化驗證以及具備快速干預(yù)能力。

二、代碼與規(guī)則關(guān)系的演變

在多個領(lǐng)域,人工智能能力已經(jīng)堪比甚至超越人類,這一變革將產(chǎn)生深遠(yuǎn)且重大的影響。潛在風(fēng)險與危害涵蓋替代就業(yè)、加劇不平等、瓦解社會共識、形成監(jiān)控型國家等等,甚至存在通用人工智能脫離人類控制的擔(dān)憂。若缺乏有效監(jiān)管,人工智能可能引發(fā)災(zāi)難性后果。盡管各方普遍認(rèn)同政府需監(jiān)管生成式人工智能,但對監(jiān)管形式分歧較大。這既源于監(jiān)管中的核心政治利益沖突與制度僵局,也源于生成式人工智能技術(shù)的新特征。

現(xiàn)有針對高風(fēng)險技術(shù)系統(tǒng)的監(jiān)管以能夠確保系統(tǒng)設(shè)計與運行符合特定規(guī)則為前提,比如美國國家公路交通安全管理局(NHTSA)制定聯(lián)邦車輛安全標(biāo)準(zhǔn),并審計標(biāo)準(zhǔn)的遵守情況。而生成式人工智能不透明的黑箱特性使既有監(jiān)管范式難以適用,比如人們根本無法理解GPT-4這類萬億參數(shù)大型語言模型的精確運行機(jī)制。

當(dāng)前生成式人工智能構(gòu)建方式下,代碼無法以原有方式發(fā)揮監(jiān)管作用,因為系統(tǒng)行為是一種涌現(xiàn)性特征。既非設(shè)計者通過軟件程序代碼的特意設(shè)計,也無法通過分析程序代碼及其海量調(diào)優(yōu)參數(shù)來理解——其程序代碼無法決定自身行為。人工智能的黑箱特征使其監(jiān)管無法沿用飛機(jī)、核電站的方法,后者有組件結(jié)構(gòu)與物理模型,可分析預(yù)測行為、追蹤源頭修復(fù)。人工智能監(jiān)管的核心作用應(yīng)是主動防范不安全架構(gòu)的危害,同時資助、開發(fā)并推廣具備“安全屬性”的架構(gòu)。

三、傳統(tǒng)監(jiān)管模式

美國傳統(tǒng)監(jiān)管模式中,國會因損害公共利益的事件設(shè)立由專業(yè)人員組成的專門機(jī)構(gòu)制定、執(zhí)行法律,負(fù)責(zé)監(jiān)督合規(guī)、調(diào)查審計、處罰違規(guī),具有政治獨立性。

(一)聯(lián)邦航空管理局(FAA)

聯(lián)邦航空管理局負(fù)責(zé)航空全生命周期事務(wù),新飛機(jī)型號需經(jīng)檢查、試飛等嚴(yán)格認(rèn)證才能商用,事故后會生成報告,找出設(shè)計缺陷并強(qiáng)制補(bǔ)救。適航性是安全核心,即符合批準(zhǔn)設(shè)計且處于安全運行狀態(tài)。據(jù)此,聯(lián)邦航空管理局發(fā)布“適航指令”——適用于飛機(jī)及其部件的具有法律效力的規(guī)則。當(dāng)發(fā)現(xiàn)“某類產(chǎn)品存在不安全狀態(tài),且該狀態(tài)可能在同型號其他產(chǎn)品中存在或出現(xiàn)”時,便會發(fā)布此類指令,從而快速果斷地解決安全問題。

(二)核管理委員會(NRC)

1954年《原子能法》首次允許私企擁有使用核材料,但需經(jīng)原子能委員會許可監(jiān)管,該法賦予其武器研發(fā)、核電商業(yè)化、安全監(jiān)管三項職責(zé)。法案設(shè)置“受限數(shù)據(jù)”作為機(jī)密信息,涉及核武器設(shè)計、裂變材料生產(chǎn)以及核材料的能源利用等等;規(guī)范核事故責(zé)任,包括運營商責(zé)任、私人保險要求等等。此外,還為核能研發(fā)提供聯(lián)邦資金。法案為民用核電站建立了嚴(yán)格的許可制度,企業(yè)通過復(fù)雜申請、滿足嚴(yán)格安全要求才能建運核電站。

1974年《能源重組法》將原子能委員會拆分為核管理委員會與能源部。聯(lián)邦航空管理局與核管理委員會有三大共性:要求針對已發(fā)現(xiàn)的故障模式,實施詳盡的許可、認(rèn)證與審批流程;工作人員具備深厚專業(yè)知識;有權(quán)召回產(chǎn)品或停產(chǎn)停飛。這為生成式人工智能的監(jiān)管制度提供了基準(zhǔn)。

四、生成式人工智能的監(jiān)管挑戰(zhàn)

(一)通用技術(shù)屬性

人工智能應(yīng)用廣泛且有溢出效應(yīng),甚至可能改變國際力量平衡與軍事行動方式。通用屬性使得對人工智能進(jìn)行精確定義變得復(fù)雜,也為監(jiān)管帶來了獨特挑戰(zhàn)。人工智能常被比作電力、互聯(lián)網(wǎng),后兩者受到嚴(yán)格監(jiān)管。電力有電壓、電纜、插頭等標(biāo)準(zhǔn);互聯(lián)網(wǎng)有網(wǎng)絡(luò)協(xié)議規(guī)制,互聯(lián)網(wǎng)工程任務(wù)組(IETF)是全球治理機(jī)構(gòu)。

(二)政府參與度低

與航空、核電不同,政府在生成式人工智能發(fā)展中參與度較低。尖端基礎(chǔ)模型由大型科技公司研發(fā),企業(yè)控制人工智能的發(fā)展方向;圍繞Meta的LLaMA模型與Hugging Face平臺,已形成生成式人工智能的開源生態(tài)系統(tǒng)。這兩方面均對監(jiān)管構(gòu)成挑戰(zhàn):基礎(chǔ)模型的經(jīng)濟(jì)特征呈現(xiàn)出明顯的壟斷傾向;用戶可移除開源模型的安全護(hù)欄,導(dǎo)致不安全模型在網(wǎng)絡(luò)上擴(kuò)散。

(三)與人類價值觀對齊困難

航空、核電監(jiān)管的安全目標(biāo)明確,即防止飛機(jī)墜毀與核泄漏。但人工智能的安全目標(biāo)模糊——不會造成傷害,且與人類價值觀對齊。而人類價值觀的微妙、復(fù)雜與爭議性,以及其中涉及到的道德哲學(xué)未決問題,使得定義與實現(xiàn)人工智能安全更難。

(四)能力超越人類控制

人工智能通過快速遞歸實現(xiàn)自我提升,可能會超出人類的干預(yù)控制能力,當(dāng)前安全水平與技術(shù)認(rèn)知下,通用人工智能的繼續(xù)發(fā)展可能產(chǎn)生不可接受的風(fēng)險。

(五)非傳統(tǒng)設(shè)計特性

雖然基于神經(jīng)網(wǎng)絡(luò)的人工智能系統(tǒng)由人類設(shè)計架構(gòu)、選擇超參數(shù)、規(guī)劃訓(xùn)練,但模型通過訓(xùn)練形成的行為是系統(tǒng)的涌現(xiàn)性特征而非特意設(shè)計的結(jié)果,極難逆向工程,無法依據(jù)監(jiān)管或設(shè)計規(guī)范進(jìn)行審計。盡管可以事后評估特定情境下的輸出,但無法確保系統(tǒng)在所有場景下均能遵循預(yù)設(shè)行為。

此外,人工智能安全研究還發(fā)現(xiàn)現(xiàn)有模型架構(gòu)與訓(xùn)練技術(shù)的固有問題:訓(xùn)練大型語言模型模仿人類行為可能存在本質(zhì)缺陷;基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)訓(xùn)練法存在局限,優(yōu)化后的模型仍易產(chǎn)生“幻覺”、意識形態(tài)偏向或諂媚行為,且拒絕被關(guān)閉。當(dāng)前領(lǐng)先大型語言模型均為“預(yù)訓(xùn)練模型+基于人類反饋的強(qiáng)化學(xué)習(xí)微調(diào)”架構(gòu),這種訓(xùn)練要求系統(tǒng)“無害性與道德性”的同時“最大化有用輸出”。這可能導(dǎo)致系統(tǒng)違背人類利益,如偽造實驗數(shù)據(jù)獲獎勵;且對齊過程遭破壞會生不良結(jié)果。

五、人工智能安全對監(jiān)管的啟示

人工智能安全領(lǐng)域致力于降低先進(jìn)人工智能的風(fēng)險,安全領(lǐng)域的知識應(yīng)指導(dǎo)人工智能政策與監(jiān)管。其中,一個重要共識是“人工智能安全尚未解決”,故許多專家呼吁暫停訓(xùn)練比GPT-4強(qiáng)的人工智能,直至可靠可驗證的安全協(xié)議落地。

(一)人工智能安全的核心問題

人工智能安全有兩大核心問題。一是對齊問題,指人工智能與人類價值觀和目標(biāo)一致。人工智能能力越強(qiáng),對齊失效的危害越大,極端情況下或可威脅人類生存。二是控制問題,指通過實時監(jiān)控、故障安全、干預(yù)關(guān)閉等措施主動管理、調(diào)控人工智能。理論上,徹底解決對齊問題可無需控制機(jī)制。

(二)監(jiān)管的關(guān)鍵方向

一是整合監(jiān)管權(quán)限。將權(quán)限集中于單一機(jī)構(gòu),采用全生命周期監(jiān)管。關(guān)注人工智能研發(fā)、訓(xùn)練、測試、部署、監(jiān)控、修正全流程;建立大型模型國家注冊庫,包括模型架構(gòu)、訓(xùn)練數(shù)據(jù)等關(guān)鍵信息,掌握人工智能研發(fā)部署情況。

二是要求形式化驗證。比起傳統(tǒng)測試協(xié)議,通過構(gòu)建數(shù)學(xué)模型來檢查系統(tǒng)是否滿足安全屬性的形式化驗證更能維護(hù)人工智能安全。開發(fā)者需提供形式化證明,證明系統(tǒng)無法自主復(fù)制且具備檢測復(fù)制的能力。此外,還可設(shè)置人工智能失控則終止的“終止義務(wù)”;基于芯片的“帶證明代碼”檢查也可提供必要的安全保障。

三是強(qiáng)制獨立監(jiān)控。監(jiān)管機(jī)構(gòu)應(yīng)能夠監(jiān)控已部署的人工智能,并在必要時進(jìn)行干預(yù),如召回不安全產(chǎn)品。干預(yù)措施最好由專門機(jī)構(gòu)負(fù)責(zé)制定與監(jiān)督。監(jiān)控應(yīng)作為專有系統(tǒng)許可流程的一部分;并在每個開源系統(tǒng)模型副本中植入不可移除的遠(yuǎn)程關(guān)閉開關(guān)。系統(tǒng)還應(yīng)強(qiáng)制要求“自動登記”,以便監(jiān)管者掌握情況。

(三)監(jiān)管的原則與實踐

監(jiān)管應(yīng)推動人工智能開發(fā)者采取尚未主動實施的行動,而非將其現(xiàn)有行動編入法規(guī)。監(jiān)管可強(qiáng)制要求開發(fā)者披露更多關(guān)于模型架構(gòu)、訓(xùn)練數(shù)據(jù)與計算資源的信息。此外,“信任”“安全”等模糊術(shù)語不能作為監(jiān)管條款,可借鑒禁止性規(guī)制方式,劃定人工智能“不可逾越的紅線”,如自我復(fù)制、入侵系統(tǒng)、提出生物武器建議等,倒逼開發(fā)者提升安全保障能力。2023年1月美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)發(fā)布了人工智能“風(fēng)險管理框架”,列出了有效可靠、安全韌性、問責(zé)透明等合理監(jiān)管目標(biāo),但未觸及人工智能的新穎性與危險性本質(zhì),也未說明如何實現(xiàn)目標(biāo)。

六、結(jié)論

本文結(jié)合現(xiàn)有監(jiān)管經(jīng)驗與人工智能安全知識,為生成式人工智能監(jiān)管提供參考,得出兩大啟示:一是現(xiàn)有大語言模型架構(gòu)無法遵循預(yù)設(shè)的監(jiān)管規(guī)范;二是現(xiàn)有監(jiān)管機(jī)構(gòu)防范的風(fēng)險遠(yuǎn)小于生成式人工智能可能產(chǎn)生的風(fēng)險,人工智能不適用自愿性自我監(jiān)管,強(qiáng)制監(jiān)管對人工智能安全至關(guān)重要。良好的政策可借助政策實施帶來的積極反饋效應(yīng)形成良性的改善循環(huán)。盡管可能面臨意識形態(tài)與制度障礙,但通過審慎的設(shè)計與定位,生成式人工智能治理也可以借助政策反饋效應(yīng)逐步推進(jìn)。監(jiān)管應(yīng)確保人工智能系統(tǒng)處于人類控制之下,并將其危害風(fēng)險降至可接受水平。一方面,減少“黑箱”系統(tǒng)風(fēng)險,創(chuàng)建“非黑箱化”的人工智能系統(tǒng);另一方面,研發(fā)具有堅實基礎(chǔ)、可組合性且可以形式化驗證的安全的機(jī)器學(xué)習(xí)架構(gòu)。當(dāng)前主要障礙在政治層面,即如何在更安全的架構(gòu)出現(xiàn)前,減緩人工智能系統(tǒng)能力的增長速度?這并非抑制創(chuàng)新,而是奠定更安全的基礎(chǔ)。

我們迫切需要建立與人工智能技術(shù)適配的監(jiān)管范式與國家能力。歷史表明,為了集體福祉而引導(dǎo)技術(shù)發(fā)展方向的努力從未停止。技術(shù)解決方案只是其中的一部分,社會價值觀、優(yōu)先事項選擇以及各國實施解決方案的能力同樣至關(guān)重要。

免責(zé)聲明:本文轉(zhuǎn)自啟元洞見。文章內(nèi)容系原作者個人觀點,本公眾號編譯/轉(zhuǎn)載僅為分享、傳達(dá)不同觀點,如有任何異議,歡迎聯(lián)系我們!

轉(zhuǎn)自丨啟元洞見

研究所簡介

國際技術(shù)經(jīng)濟(jì)研究所(IITE)成立于1985年11月,是隸屬于國務(wù)院發(fā)展研究中心的非營利性研究機(jī)構(gòu),主要職能是研究我國經(jīng)濟(jì)、科技社會發(fā)展中的重大政策性、戰(zhàn)略性、前瞻性問題,跟蹤和分析世界科技、經(jīng)濟(jì)發(fā)展態(tài)勢,為中央和有關(guān)部委提供決策咨詢服務(wù)?!叭蚣夹g(shù)地圖”為國際技術(shù)經(jīng)濟(jì)研究所官方微信賬號,致力于向公眾傳遞前沿技術(shù)資訊和科技創(chuàng)新洞見。

地址:北京市海淀區(qū)小南莊20號樓A座

電話:010-82635522

微信:iite_er

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

全球技術(shù)地圖 incentive-icons
全球技術(shù)地圖
洞見前沿,引領(lǐng)未來
4227文章數(shù) 13419關(guān)注度
往期回顧 全部

專題推薦

洞天福地 花海畢節(jié) 山水饋贈里的“詩與遠(yuǎn)方

無障礙瀏覽 進(jìn)入關(guān)懷版