![]()
基礎模型的能力突破在很大程度上得益于規模龐大、來源廣泛且文檔記錄不足的訓練數據集。但當前的數據收集實踐在追蹤真實性、驗證同意權、保護隱私、解決代表性與偏見問題、尊重版權以及整體開發符合倫理且可信的基礎模型等方面面臨諸多挑戰。對此,監管層面正強調訓練數據透明度的重要性,以明確基礎模型的局限性。基于對基礎模型訓練數據現狀及現有解決方案的大規模分析,本文揭示了支撐負責任基礎模型開發所缺失的關鍵基礎設施,分析了現有數據真實性、同意權與文檔記錄追蹤工具的局限性,并闡述了政策制定者、開發者和數據創作者如何通過采用統一的數據來源標準來促進負責任的基礎模型開發。
一、數據來源追蹤的必要性
過去十年間,來自網絡新聞、社交媒體、百科全書等數據,已成為GPT-4、Whisper等通用生成式智能消費技術的關鍵資源。這些模型的訓練數據多樣,涵蓋從網絡爬取、人工生成或手動整理的文本、圖像和音頻數據。然而,這種大規模爬取、獲取和批量生產松散結構化數據的競賽帶來了一系列后果。當前的數據收集實踐普遍存在來源廣泛且打包使用的情況,卻未追蹤或審查原始來源、創作者意圖、版權和許可狀態,甚至基本的構成和屬性。元數據缺乏透明度,且缺乏可追蹤這些元數據的公共基礎設施,導致開發者陷入倫理和法律困境。未經充分調查就用于訓練的數據已引發諸多現實問題。例如,LAION-5B數據集曾是Hugging Face平臺上最廣泛使用的文本到圖像數據集之一,但在被報告包含數千張兒童性虐待材料(CSAM)圖像后被下架。部分數據源的使用引發了知識產權糾紛,最終導致Stability AI、OpenAI等公司面臨訴訟。此外,有證據表明,基礎模型可能泄露個人身份信息(PII)、生成非自愿私密圖像(NCII)、制造虛假信息或深度偽造內容,并放大偏見或歧視。訓練完成后從模型中撤回或“遺忘”數據的相關方法,當前仍存在可靠性不足的問題。這類方法往往難以徹底清除目標數據對應的信息殘留,且在數據撤回過程中,可能對生產模型的既有性能、泛化能力等其他關鍵維度造成負面影響,進而顯著制約了其在實際場景中的推廣應用價值。因此,關于訓練數據的早期選擇具有長期影響,迫切需要相關資源幫助開發者發現并充分了解不同訓練數據集的收益與風險。這些問題推動了新的數據基礎設施和框架的發展,以克服負責任地獲取訓練數據所面臨的挑戰。現有生態系統中存在一些用于基礎模型數據管理的工具,但這些工具往往忽略了問題的關鍵方面,與并行標準或工具缺乏互操作性,或尚未實現廣泛采用。本文認為,盡管針對該問題的不同要素存在多種解決方案,但完整的數據來源追蹤系統尚未形成,亟需一個致力于數據屬性結構化文檔記錄的統一框架,這需要多個利益相關者共同采取行動。
二、數據來源追蹤的關注度與監管動向
現有追蹤人工智能數據來源的規范存在顯著缺陷,熱門智能系統甚至不披露其訓練數據的基本信息。業界呼吁進行更系統、更全面的數據文檔記錄體系,然而從實際落地情況來看,這些呼吁的采納程度與執行標準存在顯著差異。對于所謂的“數據集的數據集”,其文檔記錄問題尤為突出,這類大規模集合包含數百個數據集,由于缺乏標準結構,原始來源信息往往被忽視或丟失。同時,從業者呼吁提高數據透明度、加強數據供應鏈和生態系統監測、進行內容真實性驗證、為可重復、可解釋和可信的智能系統提供詳細的來源追蹤,并專門建立一個標準化數據庫來記錄可信數據。這些需求引起許多國家的監管機構和立法者的廣泛關注并積極響應。美國和歐盟已在數據透明度方面采取了重要措施,所頒布的系列政策中均包含與透明度、來源追蹤以及深入了解人工智能模型輸入相關的條款。其中,《歐盟人工智能法案》特別明確了基礎模型提供商在訓練數據來源追蹤方面的具體要求。加拿大當局提出的自愿行為準則呼吁模型開發者發布訓練數據描述,聯合國機構也建議制定關于數據權利的國際法規,將透明度納入其中。研究人員和立法者的關注,推動了本文關于數據來源追蹤和透明度統一框架的研究。雖然此類標準不能直接解決人工智能風險,但它們是評估風險和促進更負責任的人工智能發展的關鍵前提。
三、數據來源追蹤的法律維度
(一)來源追蹤和版權
人工智能模型可能通過兩種方式侵犯版權權益。一是訓練模型可能侵犯訓練數據中作品的創作者或訓練數據語料庫創建者的版權;二是人工智能模型的特定輸出可能侵犯訓練數據中單個作品相關的版權。人工智能模型有時會產生與預訓練數據中的內容高度相似的輸出,從而可能侵犯這些作品創作者的權利,而這些創作者很少同意其內容被使用。需要強調的是,盡管預訓練數據的使用可能受合理使用原則保護,但這并不意味著特定輸出不會構成版權侵權。同時,指令微調和平行數據集的使用方式往往不符合其許可協議,這些數據集包含專為訓練機器學習模型而創建的表達元素,因此其用于該目的不太可能受合理使用原則保護。強大的數據來源追蹤標準有助于解決與人工智能訓練中使用受版權保護材料相關的諸多重要問題。對于預訓練和微調而言,標準的數據來源追蹤框架能幫助降低法律風險,助力版權權益的執行。版權侵權的關鍵在于是否接觸過受保護作品,因此了解訓練模型所使用的數據集以及這些數據集中包含的作品,對于評估版權問題至關重要。
(二)人工智能監管
《歐盟人工智能法案》和拜登發布的《關于安全、可靠和負責任地發展和使用人工智能的行政命令》均直接或間接地強調了人工智能系統透明度的必要性。兩份文件都要求向消費者明確傳達人工智能系統的局限性。法案要求高風險人工智能系統披露其訓練、驗證和測試數據集的相關信息,以及基礎模型所使用的受版權保護訓練數據的摘要,其中的技術規范包括數據獲取、標注和處理方式等具體的來源追蹤信息。同時,行政命令鼓勵監管機構強調人工智能模型的透明度要求,以保護消費者。
(三)立法者在鼓勵負責任人工智能實踐中的作用
本文呼吁數據集創作者、模型開發者、研究人員和立法者采取行動。通過了解人工智能生態系統的本質,立法者可以制定激勵措施,鼓勵更好地記錄新數據集和審計現有數據。盡管“透明度”在人工智能監管中往往定義不明確,但監管機構可以利用透明度義務,鼓勵模型開發者記錄其訓練數據的相關信息。此外,政策制定者可以為數據來源追蹤相關研究提供資金支持。目前,存在一些不合理的激勵因素阻礙許多公司披露其數據集信息,因為這樣做可能會增加面臨法律訴訟的概率。立法機關可以考慮為向監管機構和公眾提供其數據集必要信息的組織提供安全港保護。
四、現有數據來源相關解決方案及局限
當前不存在完整的來源追蹤系統,解決方案分為四類,均存在不足:一是內容真實性技術。此類技術通過嵌入信息驗證數據來源,應對虛假信息風險。例如C2PA聯盟通過加密方式在媒體中嵌入可驗證來源信息,數字水印則用于標識機器生成內容,但文本水印易被移除,且技術僅適用于單個數據單元,難以覆蓋多模態訓練中的衍生或匯編數據,無法滿足版權、偏見等元數據需求。二是選擇加入與退出工具。Robots.txt協議擴展提案(如ai.txt、“noai”標簽)及谷歌、OpenAI的定制工具,為網站提供數據使用偏好設置,但普及度低且僅支持“二元選擇”,無法滿足非商業使用等細致需求。三是數據集來源標準。數據集說明書、數據聲明與數據卡片標準化了數據創作者、偏見、收集過程等文檔記錄,數據營養標簽通過表單實現自動化文檔,數據與信任聯盟標準整合多行業需求,提供結構化記錄與譜系追蹤。但這類標準采納不均,且存在準確性不足、激勵缺失等問題。
五、推進數據來源規范化的多方行動建議
現有數據來源解決方案較為零散。若缺乏強大、資源充足的數據來源追蹤框架,開發者將難以從眾多可能性中準確識別和評估數據集的安全性、版權影響和相關性。數據創作者也將難以了解其內容的使用方式和位置。若沒有數據集來源標準和文檔記錄,構建這樣的框架將變得日益困難,最終難以實現。盡管現有每項解決方案都能為了解數據生態系統提供重要見解,但仍需要一個強大的框架來為數據集附加元數據,以追蹤數據集的混合、匯編和使用情況。不同利益相關者應采取行動,以增強數據真實性、同意權和來源追蹤應對未來挑戰的能力。一是監管者,監管機構通過政策和指導方針在塑造人工智能未來方面發揮著關鍵作用。以數據為中心的人工智能監管方法有助于識別和減輕關鍵風險。政策制定者可以為數據來源追蹤相關研究提供資金支持,并集中力量記錄和構建來源追蹤基礎設施。目前,不合理的法律激勵因素阻礙了公司披露其數據信息,監管機構應考慮為組織提供必要的數據透明度制定法律或立法激勵措施,并將標準化文檔記錄作為人工智能透明度義務的一部分。此類激勵措施有助于推動數據真實性、同意權和來源追蹤的通用且可互操作的標準。二是開發者,人工智能開發者處于創建模型的前沿,因此在確保倫理實踐方面承擔著重大責任。開發者必須優先履行文檔記錄義務,并公開其訓練數據的來源追蹤信息。如果出于令人信服的商業原因需要保密,至少應發布有關數據來源追蹤的匯總統計數據。這種透明度對于與用戶和更廣泛的社區建立信任,以及培育負責任的人工智能生態系統至關重要。三是數據創作與匯編者。這類主體在人工智能開發中發揮關鍵作用,需詳細記錄數據同意標準及來源追蹤信息(包括數據來源與處理流程);當前已有專門的存儲庫和數據庫用于登記此類信息,詳實的記錄能有效協助人工智能開發者尊重相關權利、明晰數據屬性。四是科研界。科研界在制定來源追蹤披露規范與標準方面具備獨特地位,可將來源追蹤披露納入研究發表要求,以此補充可重復性清單相關工作,最終助力科學進步。
事實上,單一利益相關方難以獨立構建完善的數據來源追蹤框架,唯有多方協作才能有效推動相關標準的制定。由各利益相關方代表組成的聯盟,可協調各類主體行動并推動特定標準落地,這一模式可參考主導萬維網標準制定的萬維網聯盟(W3C),以及由多行業企業、機構組成的非營利聯盟——數據與信任聯盟。
免責聲明:本文轉自啟元洞見。文章內容系原作者個人觀點,本公眾號編譯/轉載僅為分享、傳達不同觀點,如有任何異議,歡迎聯系我們!
研究所簡介
國際技術經濟研究所(IITE)成立于1985年11月,是隸屬于國務院發展研究中心的非營利性研究機構,主要職能是研究我國經濟、科技社會發展中的重大政策性、戰略性、前瞻性問題,跟蹤和分析世界科技、經濟發展態勢,為中央和有關部委提供決策咨詢服務。“全球技術地圖”為國際技術經濟研究所官方微信賬號,致力于向公眾傳遞前沿技術資訊和科技創新洞見。
地址:北京市海淀區小南莊20號樓A座
電話:010-82635522
微信:iite_er
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.