人工智能監(jiān)管新模式：基于人工智能安全研究的經(jīng)驗和建議

2026-01-23 21:53:37　來源: 全球技術(shù)地圖

北京舉報

分享至

牛津大學(xué)出版社《政策與社會》（Policy and Society）雜志于2025年第44卷刊載論文《當(dāng)代碼不再是規(guī)則：重新思考人工智能監(jiān)管》（When code isn’t law: rethinking regulation for artificial intelligence），主要介紹了監(jiān)管人工智能系統(tǒng)所面臨的挑戰(zhàn)，并提出了一種適合人工智能新特征的適應(yīng)性監(jiān)管模型。

一、引言

技術(shù)革新早期，曾存在網(wǎng)絡(luò)空間中代碼即規(guī)則的觀點，主張通過監(jiān)管軟件與協(xié)議在數(shù)字世界維護(hù)價值觀。當(dāng)時的數(shù)字系統(tǒng)行為基于明確設(shè)計，可像飛機(jī)、核電站等工程系統(tǒng)一樣，依據(jù)監(jiān)管規(guī)范審計合規(guī)性。但在生成式人工智能時代，代碼即規(guī)則已不再適用。人類編寫的代碼無法決定生成式人工智能系統(tǒng)的運行，它們具有不透明性且與非設(shè)計性，是通過調(diào)整大規(guī)模資源密集型訓(xùn)練過程創(chuàng)建的，無法將“大型語言模型不得提供醫(yī)療建議”這類規(guī)則直接編碼到模型本身，工程師只能希望模型經(jīng)充分強(qiáng)化后遵循預(yù)期行為。代碼無法明確決定系統(tǒng)行為，因此，既無法證明其符合監(jiān)管規(guī)范，也難以追溯和糾正不當(dāng)行為，基于黑箱數(shù)據(jù)驅(qū)動的人工智能系統(tǒng)監(jiān)管體系是不完善的。

傳統(tǒng)的將監(jiān)管權(quán)委托給專家機(jī)構(gòu)的模式已在航空、核能等高風(fēng)險領(lǐng)域取得成功，不應(yīng)被完全摒棄。政策制定者需在控制當(dāng)前不透明模型風(fēng)險的同時，支持可驗證安全的人工智能架構(gòu)研究。借鑒人工智能安全領(lǐng)域文獻(xiàn)及過往監(jiān)管成功經(jīng)驗，有效的人工智能治理需整合監(jiān)管權(quán)限、實施許可制度、強(qiáng)制要求披露訓(xùn)練數(shù)據(jù)與建模信息、對系統(tǒng)行為進(jìn)行形式化驗證以及具備快速干預(yù)能力。

二、代碼與規(guī)則關(guān)系的演變

在多個領(lǐng)域，人工智能能力已經(jīng)堪比甚至超越人類，這一變革將產(chǎn)生深遠(yuǎn)且重大的影響。潛在風(fēng)險與危害涵蓋替代就業(yè)、加劇不平等、瓦解社會共識、形成監(jiān)控型國家等等，甚至存在通用人工智能脫離人類控制的擔(dān)憂。若缺乏有效監(jiān)管，人工智能可能引發(fā)災(zāi)難性后果。盡管各方普遍認(rèn)同政府需監(jiān)管生成式人工智能，但對監(jiān)管形式分歧較大。這既源于監(jiān)管中的核心政治利益沖突與制度僵局，也源于生成式人工智能技術(shù)的新特征。

現(xiàn)有針對高風(fēng)險技術(shù)系統(tǒng)的監(jiān)管以能夠確保系統(tǒng)設(shè)計與運行符合特定規(guī)則為前提，比如美國國家公路交通安全管理局（NHTSA）制定聯(lián)邦車輛安全標(biāo)準(zhǔn)，并審計標(biāo)準(zhǔn)的遵守情況。而生成式人工智能不透明的黑箱特性使既有監(jiān)管范式難以適用，比如人們根本無法理解GPT-4這類萬億參數(shù)大型語言模型的精確運行機(jī)制。

當(dāng)前生成式人工智能構(gòu)建方式下，代碼無法以原有方式發(fā)揮監(jiān)管作用，因為系統(tǒng)行為是一種涌現(xiàn)性特征。既非設(shè)計者通過軟件程序代碼的特意設(shè)計，也無法通過分析程序代碼及其海量調(diào)優(yōu)參數(shù)來理解——其程序代碼無法決定自身行為。人工智能的黑箱特征使其監(jiān)管無法沿用飛機(jī)、核電站的方法，后者有組件結(jié)構(gòu)與物理模型，可分析預(yù)測行為、追蹤源頭修復(fù)。人工智能監(jiān)管的核心作用應(yīng)是主動防范不安全架構(gòu)的危害，同時資助、開發(fā)并推廣具備“安全屬性”的架構(gòu)。

三、傳統(tǒng)監(jiān)管模式

美國傳統(tǒng)監(jiān)管模式中，國會因損害公共利益的事件設(shè)立由專業(yè)人員組成的專門機(jī)構(gòu)制定、執(zhí)行法律，負(fù)責(zé)監(jiān)督合規(guī)、調(diào)查審計、處罰違規(guī)，具有政治獨立性。

（一）聯(lián)邦航空管理局（FAA）

聯(lián)邦航空管理局負(fù)責(zé)航空全生命周期事務(wù)，新飛機(jī)型號需經(jīng)檢查、試飛等嚴(yán)格認(rèn)證才能商用，事故后會生成報告，找出設(shè)計缺陷并強(qiáng)制補(bǔ)救。適航性是安全核心，即符合批準(zhǔn)設(shè)計且處于安全運行狀態(tài)。據(jù)此，聯(lián)邦航空管理局發(fā)布“適航指令”——適用于飛機(jī)及其部件的具有法律效力的規(guī)則。當(dāng)發(fā)現(xiàn)“某類產(chǎn)品存在不安全狀態(tài)，且該狀態(tài)可能在同型號其他產(chǎn)品中存在或出現(xiàn)”時，便會發(fā)布此類指令，從而快速果斷地解決安全問題。

（二）核管理委員會（NRC）

1954年《原子能法》首次允許私企擁有使用核材料，但需經(jīng)原子能委員會許可監(jiān)管，該法賦予其武器研發(fā)、核電商業(yè)化、安全監(jiān)管三項職責(zé)。法案設(shè)置“受限數(shù)據(jù)”作為機(jī)密信息，涉及核武器設(shè)計、裂變材料生產(chǎn)以及核材料的能源利用等等；規(guī)范核事故責(zé)任，包括運營商責(zé)任、私人保險要求等等。此外，還為核能研發(fā)提供聯(lián)邦資金。法案為民用核電站建立了嚴(yán)格的許可制度，企業(yè)通過復(fù)雜申請、滿足嚴(yán)格安全要求才能建運核電站。

1974年《能源重組法》將原子能委員會拆分為核管理委員會與能源部。聯(lián)邦航空管理局與核管理委員會有三大共性：要求針對已發(fā)現(xiàn)的故障模式，實施詳盡的許可、認(rèn)證與審批流程；工作人員具備深厚專業(yè)知識；有權(quán)召回產(chǎn)品或停產(chǎn)停飛。這為生成式人工智能的監(jiān)管制度提供了基準(zhǔn)。

四、生成式人工智能的監(jiān)管挑戰(zhàn)

（一）通用技術(shù)屬性

人工智能應(yīng)用廣泛且有溢出效應(yīng)，甚至可能改變國際力量平衡與軍事行動方式。通用屬性使得對人工智能進(jìn)行精確定義變得復(fù)雜，也為監(jiān)管帶來了獨特挑戰(zhàn)。人工智能常被比作電力、互聯(lián)網(wǎng)，后兩者受到嚴(yán)格監(jiān)管。電力有電壓、電纜、插頭等標(biāo)準(zhǔn)；互聯(lián)網(wǎng)有網(wǎng)絡(luò)協(xié)議規(guī)制，互聯(lián)網(wǎng)工程任務(wù)組（IETF）是全球治理機(jī)構(gòu)。

（二）政府參與度低

與航空、核電不同，政府在生成式人工智能發(fā)展中參與度較低。尖端基礎(chǔ)模型由大型科技公司研發(fā)，企業(yè)控制人工智能的發(fā)展方向；圍繞Meta的LLaMA模型與Hugging Face平臺，已形成生成式人工智能的開源生態(tài)系統(tǒng)。這兩方面均對監(jiān)管構(gòu)成挑戰(zhàn)：基礎(chǔ)模型的經(jīng)濟(jì)特征呈現(xiàn)出明顯的壟斷傾向；用戶可移除開源模型的安全護(hù)欄，導(dǎo)致不安全模型在網(wǎng)絡(luò)上擴(kuò)散。

（三）與人類價值觀對齊困難

航空、核電監(jiān)管的安全目標(biāo)明確，即防止飛機(jī)墜毀與核泄漏。但人工智能的安全目標(biāo)模糊——不會造成傷害，且與人類價值觀對齊。而人類價值觀的微妙、復(fù)雜與爭議性，以及其中涉及到的道德哲學(xué)未決問題，使得定義與實現(xiàn)人工智能安全更難。

（四）能力超越人類控制

人工智能通過快速遞歸實現(xiàn)自我提升，可能會超出人類的干預(yù)控制能力，當(dāng)前安全水平與技術(shù)認(rèn)知下，通用人工智能的繼續(xù)發(fā)展可能產(chǎn)生不可接受的風(fēng)險。

（五）非傳統(tǒng)設(shè)計特性

雖然基于神經(jīng)網(wǎng)絡(luò)的人工智能系統(tǒng)由人類設(shè)計架構(gòu)、選擇超參數(shù)、規(guī)劃訓(xùn)練，但模型通過訓(xùn)練形成的行為是系統(tǒng)的涌現(xiàn)性特征而非特意設(shè)計的結(jié)果，極難逆向工程，無法依據(jù)監(jiān)管或設(shè)計規(guī)范進(jìn)行審計。盡管可以事后評估特定情境下的輸出，但無法確保系統(tǒng)在所有場景下均能遵循預(yù)設(shè)行為。

此外，人工智能安全研究還發(fā)現(xiàn)現(xiàn)有模型架構(gòu)與訓(xùn)練技術(shù)的固有問題：訓(xùn)練大型語言模型模仿人類行為可能存在本質(zhì)缺陷；基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）訓(xùn)練法存在局限，優(yōu)化后的模型仍易產(chǎn)生“幻覺”、意識形態(tài)偏向或諂媚行為，且拒絕被關(guān)閉。當(dāng)前領(lǐng)先大型語言模型均為“預(yù)訓(xùn)練模型+基于人類反饋的強(qiáng)化學(xué)習(xí)微調(diào)”架構(gòu)，這種訓(xùn)練要求系統(tǒng)“無害性與道德性”的同時“最大化有用輸出”。這可能導(dǎo)致系統(tǒng)違背人類利益，如偽造實驗數(shù)據(jù)獲獎勵；且對齊過程遭破壞會生不良結(jié)果。

五、人工智能安全對監(jiān)管的啟示

人工智能安全領(lǐng)域致力于降低先進(jìn)人工智能的風(fēng)險，安全領(lǐng)域的知識應(yīng)指導(dǎo)人工智能政策與監(jiān)管。其中，一個重要共識是“人工智能安全尚未解決”，故許多專家呼吁暫停訓(xùn)練比GPT-4強(qiáng)的人工智能，直至可靠可驗證的安全協(xié)議落地。

（一）人工智能安全的核心問題

人工智能安全有兩大核心問題。一是對齊問題，指人工智能與人類價值觀和目標(biāo)一致。人工智能能力越強(qiáng)，對齊失效的危害越大，極端情況下或可威脅人類生存。二是控制問題，指通過實時監(jiān)控、故障安全、干預(yù)關(guān)閉等措施主動管理、調(diào)控人工智能。理論上，徹底解決對齊問題可無需控制機(jī)制。

（二）監(jiān)管的關(guān)鍵方向

一是整合監(jiān)管權(quán)限。將權(quán)限集中于單一機(jī)構(gòu)，采用全生命周期監(jiān)管。關(guān)注人工智能研發(fā)、訓(xùn)練、測試、部署、監(jiān)控、修正全流程；建立大型模型國家注冊庫，包括模型架構(gòu)、訓(xùn)練數(shù)據(jù)等關(guān)鍵信息，掌握人工智能研發(fā)部署情況。

二是要求形式化驗證。比起傳統(tǒng)測試協(xié)議，通過構(gòu)建數(shù)學(xué)模型來檢查系統(tǒng)是否滿足安全屬性的形式化驗證更能維護(hù)人工智能安全。開發(fā)者需提供形式化證明，證明系統(tǒng)無法自主復(fù)制且具備檢測復(fù)制的能力。此外，還可設(shè)置人工智能失控則終止的“終止義務(wù)”；基于芯片的“帶證明代碼”檢查也可提供必要的安全保障。

三是強(qiáng)制獨立監(jiān)控。監(jiān)管機(jī)構(gòu)應(yīng)能夠監(jiān)控已部署的人工智能，并在必要時進(jìn)行干預(yù)，如召回不安全產(chǎn)品。干預(yù)措施最好由專門機(jī)構(gòu)負(fù)責(zé)制定與監(jiān)督。監(jiān)控應(yīng)作為專有系統(tǒng)許可流程的一部分；并在每個開源系統(tǒng)模型副本中植入不可移除的遠(yuǎn)程關(guān)閉開關(guān)。系統(tǒng)還應(yīng)強(qiáng)制要求“自動登記”，以便監(jiān)管者掌握情況。

（三）監(jiān)管的原則與實踐

監(jiān)管應(yīng)推動人工智能開發(fā)者采取尚未主動實施的行動，而非將其現(xiàn)有行動編入法規(guī)。監(jiān)管可強(qiáng)制要求開發(fā)者披露更多關(guān)于模型架構(gòu)、訓(xùn)練數(shù)據(jù)與計算資源的信息。此外，“信任”“安全”等模糊術(shù)語不能作為監(jiān)管條款，可借鑒禁止性規(guī)制方式，劃定人工智能“不可逾越的紅線”，如自我復(fù)制、入侵系統(tǒng)、提出生物武器建議等，倒逼開發(fā)者提升安全保障能力。2023年1月美國國家標(biāo)準(zhǔn)與技術(shù)研究院（NIST）發(fā)布了人工智能“風(fēng)險管理框架”，列出了有效可靠、安全韌性、問責(zé)透明等合理監(jiān)管目標(biāo)，但未觸及人工智能的新穎性與危險性本質(zhì)，也未說明如何實現(xiàn)目標(biāo)。

六、結(jié)論

本文結(jié)合現(xiàn)有監(jiān)管經(jīng)驗與人工智能安全知識，為生成式人工智能監(jiān)管提供參考，得出兩大啟示：一是現(xiàn)有大語言模型架構(gòu)無法遵循預(yù)設(shè)的監(jiān)管規(guī)范；二是現(xiàn)有監(jiān)管機(jī)構(gòu)防范的風(fēng)險遠(yuǎn)小于生成式人工智能可能產(chǎn)生的風(fēng)險，人工智能不適用自愿性自我監(jiān)管，強(qiáng)制監(jiān)管對人工智能安全至關(guān)重要。良好的政策可借助政策實施帶來的積極反饋效應(yīng)形成良性的改善循環(huán)。盡管可能面臨意識形態(tài)與制度障礙，但通過審慎的設(shè)計與定位，生成式人工智能治理也可以借助政策反饋效應(yīng)逐步推進(jìn)。監(jiān)管應(yīng)確保人工智能系統(tǒng)處于人類控制之下，并將其危害風(fēng)險降至可接受水平。一方面，減少“黑箱”系統(tǒng)風(fēng)險，創(chuàng)建“非黑箱化”的人工智能系統(tǒng)；另一方面，研發(fā)具有堅實基礎(chǔ)、可組合性且可以形式化驗證的安全的機(jī)器學(xué)習(xí)架構(gòu)。當(dāng)前主要障礙在政治層面，即如何在更安全的架構(gòu)出現(xiàn)前，減緩人工智能系統(tǒng)能力的增長速度？這并非抑制創(chuàng)新，而是奠定更安全的基礎(chǔ)。

我們迫切需要建立與人工智能技術(shù)適配的監(jiān)管范式與國家能力。歷史表明，為了集體福祉而引導(dǎo)技術(shù)發(fā)展方向的努力從未停止。技術(shù)解決方案只是其中的一部分，社會價值觀、優(yōu)先事項選擇以及各國實施解決方案的能力同樣至關(guān)重要。

免責(zé)聲明：本文轉(zhuǎn)自啟元洞見。文章內(nèi)容系原作者個人觀點，本公眾號編譯/轉(zhuǎn)載僅為分享、傳達(dá)不同觀點，如有任何異議，歡迎聯(lián)系我們！

轉(zhuǎn)自丨啟元洞見

研究所簡介

國際技術(shù)經(jīng)濟(jì)研究所（IITE）成立于1985年11月，是隸屬于國務(wù)院發(fā)展研究中心的非營利性研究機(jī)構(gòu)，主要職能是研究我國經(jīng)濟(jì)、科技社會發(fā)展中的重大政策性、戰(zhàn)略性、前瞻性問題，跟蹤和分析世界科技、經(jīng)濟(jì)發(fā)展態(tài)勢，為中央和有關(guān)部委提供決策咨詢服務(wù)?！叭蚣夹g(shù)地圖”為國際技術(shù)經(jīng)濟(jì)研究所官方微信賬號，致力于向公眾傳遞前沿技術(shù)資訊和科技創(chuàng)新洞見。

地址：北京市海淀區(qū)小南莊20號樓A座

電話：010-82635522

微信：iite_er

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

人工智能監(jiān)管新模式：基于人工智能安全研究的經(jīng)驗和建議