網易首頁 > 網易號 > 正文申請入駐

AI訓練版權重大判決：合法掃描可接受，盜版下載仍侵權

2025-07-02 22:37:06　來源: 游云庭律師

上海舉報

分享至

通用人工智能的訓練素材是不是需要取得版權許可的問題一直是版權人和人工智能公司博弈的焦點，近日美國加州北區法院連出兩個簡易判決，對通用人工智能訓練做出認定，構成合理使用。雖然兩案都是個案，但這是中美兩個人工智能科技領先的國家的法院第一次對此問題給出了答案，今天筆者就和大家聊聊這兩個案子涉及的法律問題。

一、案情簡介

1、作家訴Anthropic案。三位作家起訴Anthropic公司，指控其使用盜版材料訓練其 Claude模型系列。原告指稱Anthropic從盜版網站免費下載了數百萬本受版權保護的書籍，并將其數字化以構建一個中央圖書館，然后使用這些書籍訓練其大語言模型，特別是Claude。Anthropic后來購買了原告的書籍紙質書籍，然后撕掉裝訂、剪裁頁面，然后將其掃描保存至中央電子圖書館，但仍然保留了從盜版網站獲取的書籍副本。

法院經審理后認定：將合法購買的紙質書籍數字化屬于合理使用，并且使用這些數字副本來訓練大語言模型也具有足夠的變革性，因此也屬于合理使用。但非法下載的圖書副本的使用未被認定為合理使用。后續法院將對Anthropic公司非法下載的盜版內容及其造成的損害進行審判。

2、作家訴Meta案。原告是13位作家，發現他們的作品被Facebook和Instagram的母公司Meta用于訓練人工智能，遂起訴。審理查明，Meta需要圖書訓練人工智能，曾先和出版社協商，發現除了要支付上億美元授權費用，談判也會很復雜，因為圖書版權多數在作者手里，遂轉向盜版獲取，其利用bt種子下載了大量盜版圖書，而bt是P2P技術，在下載的同時也會上傳盜版文件。

法院判決Meta的行為構成合理使用，駁回了原告的版權侵權指控。判決認定，Meta的使用具有高度的轉換性，因為其目的是開發能夠生成多樣化文本的工具，而不是簡單地復制或替代原告的書籍。雖然原告的書籍是高度表達性的作品，受到較強的版權保護，且Meta復制了原告的書籍的全部內容，但由于Meta的Llama模型不會輸出任何有意義的部分原告的書籍內容，這種使用是合理的。同時，盡管原告的書籍市場可能受到間接競爭的影響，但原告未能提供足夠的證據證明這種影響，因此Meta的行為不構成市場替代。

二、判決的意義

目前的人工智能訓練，有兩大博弈，一個是版權人和人工智能公司的博弈。另一個是重點發展人工智能產業的國家，如中國和美國，和加強合規監管的國家，如歐盟間的博弈。

1、版權人和人工智能公司的分歧

如果訓練素材需要授權，那人工智能公司如果獲取授權需要和每個版權人單獨談，會耗費很高的時間成本和金錢成本，發展就會慢非常多，同時，在關鍵的高質量內容上，還會受制于傳統的版權人，比如紐約時報這樣的大型出版集團。此時，人工智能公司就只能使用超過版權保護期的內容進行訓練了，目前的版權保護期，中國是至少50年，美國是95年。

OpenAi公司曾在給英國上議院的一封回函中提到：由于當今的版權幾乎涵蓋了所有類型的人類表達，包括博客文章、照片、論壇帖子、軟件代碼片段和政府文件，因此如果不用受版權保護的材料，就不可能訓練出當今領先的人工智能模型。將訓練數據限制在一個多世紀前創建的公共領域書籍和繪圖可能會產生一個有趣的實驗，但不會提供滿足當今公民需求的人工智能系統。

雖然Meta案中法院認為：這項判決并不代表Meta使用受版權保護的材料來訓練其語言模型是合法的。它僅僅代表這些原告提出了錯誤的論點，并且未能提供支持其正確論點的證據。但加州北區法院的兩位法官確實在不同的案件中選擇支持了人工智能公司的觀點，判決如果生效，會讓訓練行為脫離了版權權利人的控制，是人工智能產業的一大產業博弈勝利。

2、國際監管分歧

使用版權內容訓練是不是構成合理使用，還涉及國與國之間的博弈，中美兩國人工智能產業起步較早，政策上對人工智能訓練的版權問題比較寬松，美國法院到現在才出了第一個通用人工智能涉及訓練的判決，我國更是如此，實際法院目前擱置審理，推遲為此類案件定性，給產業發展以時間。

而歐盟的合規則較嚴格，其現有法規就要求人工智能服務者為版權人提供退出選項，英國也在立法考慮此選項。如果這個法規被嚴格執行，可以想見所有的大型版權機構，唱片公司聯盟、電影公司聯盟、出版社聯盟、圖片公司聯盟，都會毫不猶豫的向人工智能公司發出通知，要求不得將其作品作為訓練素材，除非人工智能公司支付版稅，這實際上會使人工智能公司被迫刪除多數訓練素材。

三、判決解決了哪些問題？

目前，人工智能訓練涉及的版權問題主要有三方面，數據的取得，數據的訓練和數據的輸出，下面逐一介紹。

美國的版權法律對合理使用的認定有四要素：使用的目的和性質，包括此類使用是否屬于商業性質或用于非營利性教育目的；受版權保護作品的特性；所使用部分相對于整個版權作品的數量和實質性；以及使用對版權作品的潛在市場或價值的影響。人工智能涉及的合理使用問題需要套用這四要素進行比對。

1、數據的取得：下載盜版素材用于訓練不算合理使用

如果訓練素材是盜版，意味著人工智能服務有使用未經授權的素材進行訓練的版權原罪。對這個問題，Anthropic案的判決做了很好的回應。法院認為盜版獲取無合理理由，從盜版來源復制的中心圖書館副本不能適用合理使用，而且，通過后來購買同一作品的副本，無法撤銷因盜版副本造成的損害。所以即使訓練用途合理，但初始復制行為（盜版下載）本身侵權，無法通過后續合理使用抗辯。同時，法院認定，若書籍未被用于訓練且長期保留，構成“永久性通用圖書館”，超出合理使用范圍。而Meta案并沒有做這方面的分析，主要原因是Anthropic公司被訴后做了訓練素材正版化的努力，而Meta沒有，所以法院就沒有分析此問題。

筆者認為，如果我國法院如果審理此類案件，除非版權人能證明人工智能公司使用了盜版內容進行訓練，否則，法院可能不會就人工智能公司素材來源做正版和盜版的區分，而會將案件審判聚焦于訓練行為是否構成合理使用。

2、數據的取得：在線取得的數據有爭議

寫到這里，筆者想到幾個問題：如果OpenAi購買到創刊以來所有的《紐約時報》，然后和Anthropic公司一樣，把報紙掃描做出電子圖書館，并銷毀報紙原件，這樣他們用紐約時報內容做訓練不也合法了。再進一步，如果他們購買了紐約時報的會員，利用會員身份下載所有原版文章，然后進行訓練，是不是也是合法的？

根據Anthropic案的判決，買報紙掃描電子版訓練肯定是合法的，買會員下載電子版如果是系統許可的應該也是合法的，但如果系統對于會員訪問文章的數量有限制的，則下載行為不一定合法。同時，如果網站有付費墻的技術保護措施，但被人工智能公司破解了，這種情況下獲得的內容是不是侵權的？根據我國《著作權法》，破解技術保護措施獲取內容的行為構成版權侵權，性質和本案中的下載盜版文件相同，所以以破解技術保護措施下載的付費內容進行訓練的，不構成合理使用。

還有一個問題，人工智能公司大規模抓取在線內容，多數情況下甚至漠視了網站的robots文件，這種情況下獲得的內容是不是侵權的？這里我們基于我國法律討論，我國是以《反不正當競爭法》規制此類行為的，繞過robots文件爬取內容并不侵犯版權，但涉嫌不正當競爭。所以，繞過robots文件抓取的內容進行訓練，并不算以侵犯版權的內容進行訓練。但這部分訓練素材的取得是不是合規，可能還要看法院的認定。

3、數據的取得：將正版圖書轉化為電子版構成合理使用

Anthropic公司在美國的訴訟中，購買到了涉案的三位原告的正版圖書作品，根據判決書，Anthropic公司聘請了谷歌圖書館項目的負責人作為他們的掃描負責人，他們購買了數以百萬計的圖書，將其拆開掃描成電子版，然后保存了掃描的電子版并銷毀了紙質版圖書。

該行為被法院認定構成合理使用，理由是：將合法購買的實體書掃描為數字格式，這種轉換僅為方便存儲和檢索，未新增復制或分發；且掃描行為是為了建立公司內部研究圖書館，而非直接用于商業化或替代原作品市場；合法購買的書籍轉換為數字格式后，未新增復制或分發，未對原作品的銷售市場造成負面影響；同時，美國法院在類似案例（如谷歌圖書案）中認定，將實體書掃描為數字格式以提供搜索功能屬于合理使用。

筆者認為，這里法院體現出了對人工智能產業有利的導向性。人工智能公司購買書籍作為訓練素材，一方面訓練時書籍會被人工智能記憶下來，另一方面一本書的電子版可以用來訓練無數次，這個和個人買一本書讀一下，使用方式可謂天差地別。但法院在本案中認定了，只要人工智能公司訓練用的書籍是正版就行，而且可以把書轉化成電子版，以后反復使用。

4、數據的訓練：訓練行為本身構成合理使用

在訓練行為本身構成合理使用問題上，加州北區法院的兩個判決雖然做出了相似的認定，但邏輯還是有不同的：

Anthropic案中，訓練人工智能的行為被認為是高度變革性的，類似于人類學習和創作的過程，因此偏向合理使用。法院認為，當用戶用文本提示Claude時，Claude迅速以模仿人類閱讀和寫作的方式回應文本。Claude之所以能夠這樣做，是因為人文主義訓練了Claude，或者更準確地說，訓練了支撐各種Claude版本的大型語言模型，使用的是從人文主義匯編的中心圖書館中挑選的書籍和其他文本。

Meta案判決的邏輯則是原告舉證不力，法院認為Meta的使用具有高度的轉換性，因為其目的是開發能夠生成多樣化文本的工具，而不是簡單地復制或替代原告的書籍。但重點是，盡管原告的書籍市場可能受到間接競爭的影響，但原告未能提供足夠的證據證明這種影響，因此Meta的行為不構成市場替代。

同時，判決還認為人工智能訓練可能通過市場稀釋間接損害原作品市場。例如，Ai生成大量同類作品（如浪漫小說、新聞文章）可能擠占人類作者的市場份額，削弱創作激勵。即使人工智能未直接復制原作品，但其生成的競爭內容若泛濫成災，仍可能構成市場損害。

5、數據的輸出：向用戶輸出訓練數據涉嫌侵權

對于人工智能公司要不要就輸出內容進行限制，避免輸出和訓練素材一致的內容的問題上，其實根據目前所有國家著作權法的規定都是明確的，輸出的內容不能侵犯他人版權，也就是說，如果人工智能輸出了和訓練素材相同或者近似的內容，則涉嫌侵權。這在本文討論的兩個案例里，人工智能公司都做了預防。

Anthropic案中，判決書查明，原告沒有主張任何大語言模型提供給用戶的輸出內容侵犯了他們的作品。因為Claude設置了技術圍欄，以確保沒有任何侵權輸出傳達給用戶。Meta案中，判決書查明，在利用下載文件訓練人工智能時，Meta做了預訓練，以防止它們“記憶”并輸出訓練數據中的某些文本，包括受版權保護的材料，經測試。專家也無法讓任何模型生成超過50個單詞和標點符號的原告書籍內容。

我國也有兩個案例，廣州互聯網法院和杭州互聯網法院先后對兩起奧特曼版權人起訴人工智能公司的案件進行了判決，也都認定人工智能公司根據用戶要求輸出帶奧特曼特征的美術作品構成侵權。

6、數據的輸出：繞開技術措施誘導人工智能輸出訓練數據的爭議

目前業界審理的很多案件中，有一個問題比較有爭議，就是如果用提示詞多次調校人工智能，誘導其輸出和訓練素材相同相似的作品，是不是也涉嫌侵權。比如紐約時報訴OpenAi的案件中，OpenAi就認為紐約時報故意操縱模型進行反流（反流，英文為Regurgitation，醫學名詞，也稱“反芻”，指經過咀嚼的食物從胃返回到嘴里，筆者注），因為其采取了一些措施來限制無意中的記憶，防止在模型輸出中出現重復內容。所以，這種操縱行為不是對OpenAi技術的適當使用，也違反了其使用條款。

這里筆者認同OpenAi的觀點，因為人工智能公司已經采取了技術措施防止復現訓練素材內容，此時通過提示詞多次調校讓人工智能回復出訓練素材內容，就不是一個普通用戶能實現的方法，法院審理時也可能會將其認定為破壞技術保護措施的行為，所以應該不會就此追究人工智能公司的侵權責任。

最后，隨著美國兩個人工智能訓練涉及版權問題判決的做出，筆者預計我國近期應該也會有進展，目前業界比較關注的幾個涉及人工智能訓練合理使用的案件，近期說不定會出一審判決。

本文作者：游云庭，上海大邦律師事務所高級合伙人，知識產權律師。本文僅代表作者觀點。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.