當ChatGPT能流暢回答"什么是黑洞"時,你有沒有想過——這些答案是從哪來的?
2025年3月,兩個名字突然聯手把OpenAI告上法庭:大英百科全書(Encyclopedia Britannica)和韋氏詞典(Merriam-Webster)。不是科技公司,不是媒體集團,而是兩家加起來超過400歲的"知識老字號"。
![]()
它們指控ChatGPT在訓練中使用了近10萬篇受版權保護的文章,且未獲授權。這場訴訟的微妙之處在于:原告不是追著要錢的版權流氓,而是本身就代表"權威知識"的建制派。它們的出手,可能預示著AI內容戰爭進入了新階段。
為什么是這兩家?時間線里的信號
要理解這場訴訟的分量,得先看清原告的特殊身份。
大英百科全書創立于1768年,紙質時代的人類知識圖騰。2012年停止印刷版后,它成功轉型為數字訂閱服務,靠高質量內容和教育機構授權活著。韋氏詞典更老,1828年創刊,至今仍是美國最權威的英語詞典品牌,其在線版每月有數千萬訪問量。
這兩家的共同點:它們的內容不是新聞,是"結構化知識"——經過專業編輯整理、事實核查、持續更新的條目。這種內容的制作成本極高,但一旦被AI模型消化,就變成了ChatGPT回答用戶提問的"原材料"。
訴訟文件的核心指控很具體:OpenAI在訓練大語言模型(Large Language Model,一種通過海量文本學習語言規律的AI系統)時,抓取了它們網站上的條目內容。更麻煩的是,ChatGPT生成的回答有時會"復述"這些條目的獨特表述,甚至包含只有原文才有的錯誤——這成了"實質性相似"的證據。
原告的訴求也很實際:經濟賠償,外加禁令阻止進一步侵權。但它們真正在意的,恐怕是更深層的問題——當用戶直接問AI就能得到答案,誰還會去訂閱百科全書?
2023-2025:AI版權訴訟的升級曲線
這場訴訟不是孤立事件。把時間線拉長,能看到一條清晰的升級軌跡。
2023年,第一波訴訟潮針對的是"訓練數據"本身。美國作家Sarah Silverman、Michael Chabon等起訴OpenAI,指控其用盜版書庫訓練模型。《紐約時報》同年11月的訴訟更轟動,聲稱ChatGPT能生成與其文章幾乎一致的段落。
這些案件的共同點是:原告多為內容生產者,訴求集中在"訓練階段"的侵權。但法律爭議極大——"合理使用"(Fair Use)原則是否覆蓋AI訓練?業界爭論至今沒有定論。
2024年,戰場開始轉移。一些出版商選擇與AI公司達成授權協議——美聯社、Axel Springer、新聞集團(News Corp)先后與OpenAI簽約,換取現金和流量分成。這被部分人解讀為"妥協模式":既然攔不住,不如收點錢。
但大英百科全書和韋氏詞典選擇了另一條路。它們的訴訟發生在2025年3月,時機耐人尋味:此時OpenAI已與多家出版商達成協議,但顯然沒有覆蓋所有"知識型"內容提供者。這兩家的聯手,暗示著"授權談判"并非萬能解藥。
更關鍵的是訴訟策略的變化。它們不僅指控訓練階段的抓取,還強調"輸出階段"的損害——ChatGPT的回答直接替代了用戶訪問原網站的需求。這種"市場替代"論證,比單純的版權侵權更難辯護,也更貼近商業現實。
技術細節:AI如何"吃掉"百科全書
要理解原告的憤怒,需要拆解大語言模型的工作方式。
這類模型的核心能力是"預測下一個詞"。通過分析海量文本中的統計規律,它學會什么詞通常跟在什么詞后面。當你問"黑洞是什么",模型并非去"查資料",而是基于訓練時見過的無數相關文本,生成最可能的回答序列。
問題在于,這種生成有時會越過"學習"的邊界,進入"復制"的領地。如果訓練數據中某段文本出現頻率極高、結構獨特,模型可能將其"記住"并在特定提示下原樣輸出。
大英百科全書的條目恰好是這種"高風險內容":表述精確、結構固定、在訓練數據中被大量引用。原告聲稱發現ChatGPT的回答包含其條目的"獨特措辭和錯誤"——這是版權訴訟中的經典證據,證明被告接觸并復制了原告作品。
另一個技術細節是"檢索增強生成"(Retrieval-Augmented Generation,一種讓AI在回答時實時查詢外部數據庫的技術)的缺席。OpenAI的GPT-4等模型主要依賴預訓練知識,而非實時檢索權威來源。這意味著它們的回答可能基于過時的訓練數據,卻無法指向原始出處——對依賴準確性和可溯源性的百科全書業務,這是雙重打擊。
商業模式的生死局
這場訴訟的真正賭注,不是賠償金額,而是兩種知識分發模式的未來。
大英百科全書的商業模式很清晰:專業團隊生產高質量內容→用戶付費訂閱→機構客戶(學校、圖書館)購買授權。它的護城河是"權威性"和"可信賴性",代價是高昂的生產成本和相對封閉的訪問。
ChatGPT的模式完全相反:用爬蟲抓取公開內容訓練模型→免費或低價向終端用戶提供答案→通過API和企業服務變現。它的護城河是"便利性"和"覆蓋廣度",代價是內容來源不透明、事實準確性不穩定。
原告的核心論點是:OpenAI的模式是寄生性的。它用別人的內容訓練模型,再用模型輸出搶走別人的用戶。更微妙的是,ChatGPT的回答往往不注明來源,切斷了用戶回溯原始內容的路徑——這對依賴品牌認知和直接流量的出版商是致命傷。
數據支撐這一焦慮。2023年以來,多個研究顯示"零點擊搜索"(用戶直接在搜索結果頁獲得答案,無需訪問網站)的比例持續上升。AI聊天機器人將這種趨勢推向極致:用戶甚至不需要看到搜索結果的鏈接列表,直接獲得整合后的答案。
對于大英百科全書這類垂直內容提供者,這意味著它們精心維護的"權威入口"地位正在被架空。一個中學生寫論文時,更可能直接問ChatGPT"解釋量子糾纏",而非去 Britannica.com 查閱條目。
OpenAI的防御困境
面對訴訟,OpenAI的標準辯護策略有三層,但在這起案件中都可能遭遇挑戰。
第一層是"合理使用"。美國版權法允許為"轉化性目的"(如評論、研究、教學)有限使用受保護作品。OpenAI主張AI訓練屬于"轉化性學習",模型提取的是統計規律而非表達形式。但大英百科全書案的微妙在于:原告的內容是"事實性"的(詞典定義、百科條目),而版權法對"事實"的保護本就弱于創造性表達。如果法院認定AI復制的是"事實的組織方式"而非事實本身,合理使用的天平可能傾斜。
第二層是"技術中立"。OpenAI可能辯稱,模型只是工具,具體輸出取決于用戶提示。但原告已經展示了ChatGPT主動生成與其條目高度相似的回答,這削弱了"工具中立"的論證。
第三層是"市場替代不成立"——即AI回答并未真正替代原始內容,因為用戶需求不同。但大英百科全書和韋氏詞典的內容屬性讓這一辯護尤為困難:用戶查詢"某個詞的定義"或"某個概念的解釋",ChatGPT的回答與原始條目的功能完全重疊。
更深層的問題是:如果OpenAI選擇和解或賠償,會開創什么先例?目前它與新聞集團的授權協議金額未公開,但據行業傳聞在數千萬美元級別。大英百科全書的內容體量雖小于大型新聞機構,但其"知識基礎設施"的獨特地位可能讓要價更高。
而如果OpenAI選擇硬抗訴訟,風險在于法院可能做出不利判決,不僅影響本案,還會為其他AI公司的類似訴訟樹立判例。美國版權局目前正在研究AI訓練的法律地位,任何司法判決都可能影響最終的立法走向。
行業連鎖反應:誰會是下一個?
這起訴訟的漣漪效應,可能遠超案件本身。
首先是對"知識型"內容行業的喚醒。維基百科(Wikipedia)雖然采用開放授權,但其內容被商業AI大量使用卻從未獲得補償,社區內部早有不滿。專業數據庫如JSTOR、LexisNexis,醫學資源如UpToDate,都可能重新評估與AI公司的關系。
其次是授權模式的復雜化。目前已有的出版商-AI協議多針對"新聞內容",即時效性強、更新頻繁的文字。但大英百科全書代表的是"常青內容"——經過時間檢驗、持續維護的知識條目。這類內容的授權談判需要不同的定價邏輯:不是按文章數量,而是按"知識單元"的價值和替代風險。
第三是對AI產品設計的倒逼。如果法院要求AI公司披露訓練數據來源,或強制在輸出中標注引用來源,現有的大語言模型架構將面臨重構。OpenAI已經在測試"瀏覽"功能(讓模型實時檢索網頁并引用),但這會增加延遲和成本,與"即時回答"的核心賣點沖突。
最深遠的影響可能是對"開放網絡"的重新定義。過去三十年,互聯網的精神是信息自由流動、搜索引擎索引一切。但AI時代,內容生產者開始質疑這種"流動"的公平性——如果我的內容被用來訓練替代我的機器,我是否應該有權拒絕?
判決之前:我們能觀察什么
這起案件目前處于早期階段,關鍵時間節點值得追蹤。
首先是"證據開示"(Discovery)階段,雙方將就訓練數據來源展開博弈。OpenAI是否會披露完整的爬蟲日志和訓練數據集?這將揭示AI公司實際使用了哪些內容,以及這些內容在模型中的權重。
其次是"集體訴訟"的可能性。如果法院認定原告的主張成立,其他百科全書、詞典、專業數據庫可能加入訴訟,形成針對AI訓練數據的集體行動。這將大幅增加OpenAI的法律風險和和解壓力。
第三是立法動態。美國國會正在審議多項AI相關法案,包括要求透明度報告和建立內容使用補償機制。司法判決與立法進程的互動,將塑造未來十年的AI內容生態。
對于科技從業者,這起案件提供了一個觀察窗口:技術能力與法律框架的摩擦點在哪里?當"學習"與"復制"的邊界被技術模糊,社會如何重新協商知識產權的規則?
大英百科全書和韋氏詞典的聯手,或許標志著AI內容戰爭從"創意產業"向"知識基礎設施"的蔓延。它們的特殊身份——既是內容生產者,也是"權威"的象征——讓這場訴訟超越了單純的商業糾紛,觸及更深層的命題:在AI時代,誰擁有定義"知識"的權力?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.