網易首頁 > 網易號 > 正文申請入駐

大英百科全書的反擊：一場被低估的AI版權戰

2026-03-19 15:37:42　來源: 硅嶼手記

北京舉報

分享至

當ChatGPT能流暢回答"什么是黑洞"時，你有沒有想過——這些答案是從哪來的？

2025年3月，兩個名字突然聯手把OpenAI告上法庭：大英百科全書（Encyclopedia Britannica）和韋氏詞典（Merriam-Webster）。不是科技公司，不是媒體集團，而是兩家加起來超過400歲的"知識老字號"。

它們指控ChatGPT在訓練中使用了近10萬篇受版權保護的文章，且未獲授權。這場訴訟的微妙之處在于：原告不是追著要錢的版權流氓，而是本身就代表"權威知識"的建制派。它們的出手，可能預示著AI內容戰爭進入了新階段。

為什么是這兩家？時間線里的信號

要理解這場訴訟的分量，得先看清原告的特殊身份。

大英百科全書創立于1768年，紙質時代的人類知識圖騰。2012年停止印刷版后，它成功轉型為數字訂閱服務，靠高質量內容和教育機構授權活著。韋氏詞典更老，1828年創刊，至今仍是美國最權威的英語詞典品牌，其在線版每月有數千萬訪問量。

這兩家的共同點：它們的內容不是新聞，是"結構化知識"——經過專業編輯整理、事實核查、持續更新的條目。這種內容的制作成本極高，但一旦被AI模型消化，就變成了ChatGPT回答用戶提問的"原材料"。

訴訟文件的核心指控很具體：OpenAI在訓練大語言模型（Large Language Model，一種通過海量文本學習語言規律的AI系統）時，抓取了它們網站上的條目內容。更麻煩的是，ChatGPT生成的回答有時會"復述"這些條目的獨特表述，甚至包含只有原文才有的錯誤——這成了"實質性相似"的證據。

原告的訴求也很實際：經濟賠償，外加禁令阻止進一步侵權。但它們真正在意的，恐怕是更深層的問題——當用戶直接問AI就能得到答案，誰還會去訂閱百科全書？

2023-2025：AI版權訴訟的升級曲線

這場訴訟不是孤立事件。把時間線拉長，能看到一條清晰的升級軌跡。

2023年，第一波訴訟潮針對的是"訓練數據"本身。美國作家Sarah Silverman、Michael Chabon等起訴OpenAI，指控其用盜版書庫訓練模型。《紐約時報》同年11月的訴訟更轟動，聲稱ChatGPT能生成與其文章幾乎一致的段落。

這些案件的共同點是：原告多為內容生產者，訴求集中在"訓練階段"的侵權。但法律爭議極大——"合理使用"（Fair Use）原則是否覆蓋AI訓練？業界爭論至今沒有定論。

2024年，戰場開始轉移。一些出版商選擇與AI公司達成授權協議——美聯社、Axel Springer、新聞集團（News Corp）先后與OpenAI簽約，換取現金和流量分成。這被部分人解讀為"妥協模式"：既然攔不住，不如收點錢。

但大英百科全書和韋氏詞典選擇了另一條路。它們的訴訟發生在2025年3月，時機耐人尋味：此時OpenAI已與多家出版商達成協議，但顯然沒有覆蓋所有"知識型"內容提供者。這兩家的聯手，暗示著"授權談判"并非萬能解藥。

更關鍵的是訴訟策略的變化。它們不僅指控訓練階段的抓取，還強調"輸出階段"的損害——ChatGPT的回答直接替代了用戶訪問原網站的需求。這種"市場替代"論證，比單純的版權侵權更難辯護，也更貼近商業現實。

技術細節：AI如何"吃掉"百科全書

要理解原告的憤怒，需要拆解大語言模型的工作方式。

這類模型的核心能力是"預測下一個詞"。通過分析海量文本中的統計規律，它學會什么詞通常跟在什么詞后面。當你問"黑洞是什么"，模型并非去"查資料"，而是基于訓練時見過的無數相關文本，生成最可能的回答序列。

問題在于，這種生成有時會越過"學習"的邊界，進入"復制"的領地。如果訓練數據中某段文本出現頻率極高、結構獨特，模型可能將其"記住"并在特定提示下原樣輸出。

大英百科全書的條目恰好是這種"高風險內容"：表述精確、結構固定、在訓練數據中被大量引用。原告聲稱發現ChatGPT的回答包含其條目的"獨特措辭和錯誤"——這是版權訴訟中的經典證據，證明被告接觸并復制了原告作品。

另一個技術細節是"檢索增強生成"（Retrieval-Augmented Generation，一種讓AI在回答時實時查詢外部數據庫的技術）的缺席。OpenAI的GPT-4等模型主要依賴預訓練知識，而非實時檢索權威來源。這意味著它們的回答可能基于過時的訓練數據，卻無法指向原始出處——對依賴準確性和可溯源性的百科全書業務，這是雙重打擊。

商業模式的生死局

這場訴訟的真正賭注，不是賠償金額，而是兩種知識分發模式的未來。

大英百科全書的商業模式很清晰：專業團隊生產高質量內容→用戶付費訂閱→機構客戶（學校、圖書館）購買授權。它的護城河是"權威性"和"可信賴性"，代價是高昂的生產成本和相對封閉的訪問。

ChatGPT的模式完全相反：用爬蟲抓取公開內容訓練模型→免費或低價向終端用戶提供答案→通過API和企業服務變現。它的護城河是"便利性"和"覆蓋廣度"，代價是內容來源不透明、事實準確性不穩定。

原告的核心論點是：OpenAI的模式是寄生性的。它用別人的內容訓練模型，再用模型輸出搶走別人的用戶。更微妙的是，ChatGPT的回答往往不注明來源，切斷了用戶回溯原始內容的路徑——這對依賴品牌認知和直接流量的出版商是致命傷。

數據支撐這一焦慮。2023年以來，多個研究顯示"零點擊搜索"（用戶直接在搜索結果頁獲得答案，無需訪問網站）的比例持續上升。AI聊天機器人將這種趨勢推向極致：用戶甚至不需要看到搜索結果的鏈接列表，直接獲得整合后的答案。

對于大英百科全書這類垂直內容提供者，這意味著它們精心維護的"權威入口"地位正在被架空。一個中學生寫論文時，更可能直接問ChatGPT"解釋量子糾纏"，而非去 Britannica.com 查閱條目。

OpenAI的防御困境

面對訴訟，OpenAI的標準辯護策略有三層，但在這起案件中都可能遭遇挑戰。

第一層是"合理使用"。美國版權法允許為"轉化性目的"（如評論、研究、教學）有限使用受保護作品。OpenAI主張AI訓練屬于"轉化性學習"，模型提取的是統計規律而非表達形式。但大英百科全書案的微妙在于：原告的內容是"事實性"的（詞典定義、百科條目），而版權法對"事實"的保護本就弱于創造性表達。如果法院認定AI復制的是"事實的組織方式"而非事實本身，合理使用的天平可能傾斜。

第二層是"技術中立"。OpenAI可能辯稱，模型只是工具，具體輸出取決于用戶提示。但原告已經展示了ChatGPT主動生成與其條目高度相似的回答，這削弱了"工具中立"的論證。

第三層是"市場替代不成立"——即AI回答并未真正替代原始內容，因為用戶需求不同。但大英百科全書和韋氏詞典的內容屬性讓這一辯護尤為困難：用戶查詢"某個詞的定義"或"某個概念的解釋"，ChatGPT的回答與原始條目的功能完全重疊。

更深層的問題是：如果OpenAI選擇和解或賠償，會開創什么先例？目前它與新聞集團的授權協議金額未公開，但據行業傳聞在數千萬美元級別。大英百科全書的內容體量雖小于大型新聞機構，但其"知識基礎設施"的獨特地位可能讓要價更高。

而如果OpenAI選擇硬抗訴訟，風險在于法院可能做出不利判決，不僅影響本案，還會為其他AI公司的類似訴訟樹立判例。美國版權局目前正在研究AI訓練的法律地位，任何司法判決都可能影響最終的立法走向。

行業連鎖反應：誰會是下一個？

這起訴訟的漣漪效應，可能遠超案件本身。

首先是對"知識型"內容行業的喚醒。維基百科（Wikipedia）雖然采用開放授權，但其內容被商業AI大量使用卻從未獲得補償，社區內部早有不滿。專業數據庫如JSTOR、LexisNexis，醫學資源如UpToDate，都可能重新評估與AI公司的關系。

其次是授權模式的復雜化。目前已有的出版商-AI協議多針對"新聞內容"，即時效性強、更新頻繁的文字。但大英百科全書代表的是"常青內容"——經過時間檢驗、持續維護的知識條目。這類內容的授權談判需要不同的定價邏輯：不是按文章數量，而是按"知識單元"的價值和替代風險。

第三是對AI產品設計的倒逼。如果法院要求AI公司披露訓練數據來源，或強制在輸出中標注引用來源，現有的大語言模型架構將面臨重構。OpenAI已經在測試"瀏覽"功能（讓模型實時檢索網頁并引用），但這會增加延遲和成本，與"即時回答"的核心賣點沖突。

最深遠的影響可能是對"開放網絡"的重新定義。過去三十年，互聯網的精神是信息自由流動、搜索引擎索引一切。但AI時代，內容生產者開始質疑這種"流動"的公平性——如果我的內容被用來訓練替代我的機器，我是否應該有權拒絕？

判決之前：我們能觀察什么

這起案件目前處于早期階段，關鍵時間節點值得追蹤。

首先是"證據開示"（Discovery）階段，雙方將就訓練數據來源展開博弈。OpenAI是否會披露完整的爬蟲日志和訓練數據集？這將揭示AI公司實際使用了哪些內容，以及這些內容在模型中的權重。

其次是"集體訴訟"的可能性。如果法院認定原告的主張成立，其他百科全書、詞典、專業數據庫可能加入訴訟，形成針對AI訓練數據的集體行動。這將大幅增加OpenAI的法律風險和和解壓力。

第三是立法動態。美國國會正在審議多項AI相關法案，包括要求透明度報告和建立內容使用補償機制。司法判決與立法進程的互動，將塑造未來十年的AI內容生態。

對于科技從業者，這起案件提供了一個觀察窗口：技術能力與法律框架的摩擦點在哪里？當"學習"與"復制"的邊界被技術模糊，社會如何重新協商知識產權的規則？

大英百科全書和韋氏詞典的聯手，或許標志著AI內容戰爭從"創意產業"向"知識基礎設施"的蔓延。它們的特殊身份——既是內容生產者，也是"權威"的象征——讓這場訴訟超越了單純的商業糾紛，觸及更深層的命題：在AI時代，誰擁有定義"知識"的權力？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.