近日,《紐約時報》在紐約南區法院起訴微軟和OpenAI,訴狀稱:被告未經許可使用大量版權文章訓練人工智能模型,開發與《紐約時報》競爭的產品,賺取了豐厚的利潤,《紐約時報》試圖與被告達成協議,保障內容使用的公平價值,但未達成解決方案。被告聲稱行為屬于“合理使用”,但實際并不具備“轉換性”。《紐約時報》要求其停止侵權、恢復原狀、賠償損失。今天和大家聊聊,微軟和OpenAI對《紐約時報》有哪些侵權行為,以及根據我國法律,這些行為應如何定性。
一、訓練素材侵權
因為《紐約時報》文章的質量非常高,所以其網站內容被作為了ChatGPT的訓練數據來源。OpenAI承認,與其他低質量來源的內容相比,包括來自《紐約時報》在內的高質量內容,對于訓練GPT 模型來說更重要、更有價值。訴狀稱微軟和 OpenAI在訓練大模型時使用了《紐約時報》作品,并且其多個產品中包含了《紐約時報》的作品。
OpenAI的GPT-2的訓練數據集包括一個名為WebText的 OpenAI內部語料庫,其中有Reddit社交網絡用戶發布的 4500 萬個鏈接的文本內容,這些是公認的高質量網絡內容。WebText數據集的鏈接被OpenAI通過網絡抓取,其中包含了大量《紐約時報》內容。《紐約時報》的NYTimes.com 域名是WebText數據集中數量最多的 15 個域名”之一,并被列為WebText 數據集中第五個“頂級域”,擁有333,160個條目。
在GPT-3中權重最高的用于訓練的數據集Common Crawl中,《紐約時報》網站域名www.nytimes.com域名是最具代表性的專有來源之一(排名第三,僅次于維基百科和美國專利文獻數據庫),Common Crawl數據集包含至少 1600 萬條獨特的內容記錄來自《紐約時報》的 News、Cooking、Wirecutter和 The Athletic等板塊。
根據 Common Crawl, WebText和 WebText2訓練數據集估算,被告可能完整使用了數百萬份《紐約時報》擁有版權的作品來訓練 GPT 模型,且沒有任何向《紐約時報》提供許可或其他補償。
例如,2019年,《紐約時報》發表了一篇榮獲普利策獎的關于紐約市出租車行業掠奪性貸款的系列文章。歷時18個月的調查包括600次訪談、100余條記錄請求、大規模數據分析、審核數千頁內部銀行記錄和其他文件,最終導致犯罪調查,以及促成新法律以防止未來的濫用行為。OpenAI在創作過程中沒有發揮任何作用,但只需很少的提示,其產品就會逐字背誦其中的大部分內容。
在訴狀中,《紐約時報》的訴訟請求除了要求法院判令被告賠償損失外,還要求恢復原狀、以及法律或衡平法允許的任何其他救濟永久禁止被告從事非法、不公平和侵權行為、銷毀所有 GPT 或其他大型語言模型以及包含《紐約時報》內容的訓練素材。筆者認為,對被告方OpenAI和微軟而言,恢復原狀和銷毀訓練素材的訴求如果被法院支持,會是一個麻煩,但不至于導致ChatGPT崩潰或者停擺。
雖然ChatGPT的訓練素材的記憶方式和傳統的電腦復制、粘貼、存儲內容的過程有一定區別,而且人工智能服務機構對此也諱莫如深,但從網上泄露的內容看,有些技術漏洞可以導致輸入一次提示詞,ChatGPT就會向使用者反饋原始的訓練素材,說明其也是存在存儲區的[i],所以哪怕法院判決刪除侵權素材、恢復原狀,OpenAI和微軟應該也可以通過刪除存儲的爭議內容來履行判決。
二、必應ChatGPT插件截取網站流量
微軟通過與OpenAI合作,將OpenAI的GPT商業化,并將其與自己的必應搜索相結合。2023年5月,微軟和 OpenAI推出了Browse with Bing,這是一個 ChatGPT插件,其可以通過必應搜索引擎訪問互聯網上的最新內容。必應聊天和Browse with Bing 結合了ChatGPT-4 模仿人類表達的能力,必應用戶可以直接閱讀搜索結果中的《紐約時報》文章自然語言摘要內容,從而無需訪問《紐約時報》自己的網站。
不同于傳統搜索引擎只顯示網頁摘要,必應搜索引擎頁面上的“合成”搜索結果可以直接回答用戶查詢,并且可能將《紐約時報》報道中廣泛的內容進行釋義和直接引用。對于《紐約時報》而言,這種方式實際意味著替代,用戶無需訪問其網站就可以使用他們的內容,這將導致商業利益受損。
由于互聯網的興起,傳統媒體如《紐約時報》的紙質版內容已經被嚴重打擊了,這使得他們損失了報紙訂閱費用和廣告收入。所以不得已,他們在網站上推出了付費墻,也就是少部分內容免費或者每月少量內容免費,要多閱讀就要付費。這里面有兩部分收入,免費閱讀的廣告收入以及收費閱讀的訂閱收入。
傳統的搜索引擎的搜索結果一般只顯示兩到三行文章的報紙網站摘要內容,用戶要閱讀還是要打開報紙網站,所以能和付費墻兼容。但必應聊天和 Browse with Bing這兩個功能的出現使平衡被打破。用戶無需訪問網站就能獲得他們的內容會使他們拿不到廣告收入以及收費閱讀的訂閱收入,這也是他們起訴的重要原因。
除了復制《紐約時報》新聞媒體內容外,必應ChatGPT插件和瀏覽器使用 Bing for ChatGPT 時,還會顯示《紐約時報》Wirecutter(意為“鋼絲鉗”)板塊內容的大量摘錄或釋義提示。該板塊的記者以完全的編輯獨立性和誠信,在長達數十年的時間里每年花費數千小時研究和測試產品,以確保只推薦最好的產品。這些建議在呈現給讀者時,包括被介紹的產品在購物網站的直接鏈接,用戶購買后,《紐約時報》公司也會有收益。
但必應的ChatGPT插件有效截取了Wirecutter 的精華部分直接呈現給用戶,這會降低用戶訪問到《紐約時報》原始來源的動力。減少Wirecutter 文章的流量,進而減少附屬鏈接的流量,最終導致《紐約時報》的收入損失。比如通過訪問必應的ChatGPT插件,用戶已經了解 Wirecutter推薦的最好的無繩真空吸塵器,以及這些建議的基礎,沒有理由訪問原始文章并點擊其網站內的鏈接。這樣,被告的人工智能產品通過不公平競爭,奪取了《紐約時報》的商業機會。
根據我國法律,如果搜索引擎提供的內容實質性替代了原始網站,涉嫌構成著作權侵權,《紐約時報》在美國也就微軟必應搜索引擎的類似行為起訴,說明根據美國法律,這個行為也涉嫌侵權。
三、人工智能的幻覺造成誤導
訴狀稱,ChatGPT將“幻覺”定義為一種機器的現象,如聊天機器人,產生看似真實的感官體驗,不符合任何現實世界的輸入。被告的GPT模型將自信地提供信息,而不是說“我不知道”,這些信息在最好的情況下是不完全準確的,在最壞的情況下,是明顯錯誤的(但無法識別)。而用戶會很難區分“幻覺”和真實的輸出。
例如,在回答請求提供《紐約時報》文章,題為“亞馬遜內部在傷痕累累的工作場所中爭奪大創意”的第六段時,必應的ChatGPT插件Bing Chat自信地聲稱要復制第六段。如果其真的這樣做了,它會已實施侵犯版權行為。但Bing Chat完全捏造了一個段落。
用戶給了Bing Chat《紐約時報》一篇名為“有益心臟健康的飲食方式”的鏈接,要求其摘錄出“15種最有益心臟健康的食物”, BingChat向用戶列舉了15種有益心臟健康的食物,還包括適量的紅酒。事實上《紐約時報》的文章并沒有列出這 15 種食品中的 12 種。而且《紐約時報》的最新報道得出的結論是,紅酒不利于心臟健康。
此外,訴狀還列舉了ChatGPT捏造了不少健康領域的文章。筆者認為,如果人工智能提供的服務出現幻覺,就會提供虛構的事實,在法律上,以虛構的事實描述他人的,涉嫌誹謗,也就是名譽侵權,損害了《紐約時報》的聲譽。ChatGPT作為人工智能沒有人格,所以無法負責,應當負責的是其服務提供者OpenAI和微軟。
最后,《紐約時報》作為一家老牌的很有影響力的媒體,本次其起訴OpenAI和微軟,在業界引發了很大反響,說明雖然生成式人工智能還是新生事物,但重量級媒體已經關注其破壞行業秩序的問題了。事實上,除了此案,美國發生了很多對于生成式人工智能的維權案件,筆者寫過的就包括小說作者維權的《《權力的游戲》作者起訴ChatGPT侵權,AI訓練要不要獲得著作權人的授權?》、軟件開發者維權的《用GitHub上的開源代碼訓練人工智能違法嗎?》、唱片產業版權人維權的《環球唱片起訴人工智能引擎Claude案有哪些法律看點?》、以及綜合性的《AI生成的作品受版權保護嗎?我與ChatGPT各抒己見》等,大家有興趣也可以看看。
本文作者:游云庭,上海大邦律師事務所高級合伙人,知識產權律師。本文僅代表作者觀點。
![]()
[i] https://blog.csdn.net/richerg85/article/details/134940746
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.