AI投毒，比你想象的低端得多，也危險得多

2026-03-21 08:57:07　來源: 待月聽濤

福建舉報

分享至

最近有媒體做了一個測試，記者花了39.9元，雇了一個"AI內(nèi)容優(yōu)化"團伙，對方用批量生成的軟文往公網(wǎng)上一鋪，幾個小時后，一個完全虛構(gòu)的商品就出現(xiàn)在了AI大模型的推薦榜單里。不是排名靠后，是"名列前茅"。很多人看完的第一反應(yīng)是："啊，AI推薦可以買水軍？"但我想說，這個理解只對了一半——買水軍是舊時代的玩法，更深的那層是：花39.9元操控的，不只是這次的推薦結(jié)果，而是AI模型學(xué)習(xí)世界的方式本身。這就是數(shù)據(jù)投毒，AI時代最隱蔽、成本最低、危害最持久的攻擊方式。

要理解為什么這件事比"買水軍"嚴(yán)重得多，你需要先明白大模型是怎么"學(xué)習(xí)"的。簡單說，大模型的能力來自喂給它的海量訓(xùn)練數(shù)據(jù)——它讀了多少，就"知道"多少，判斷力就是從這些數(shù)據(jù)里提煉出來的。如果訓(xùn)練數(shù)據(jù)是干凈的，模型就會有相對準(zhǔn)確的世界觀；如果訓(xùn)練數(shù)據(jù)里混入了"毒"，模型的世界觀就會被悄悄歪掉，而且一旦歪了，你不重新訓(xùn)練就很難糾正——那個錯誤的認(rèn)知已經(jīng)被編碼進了權(quán)重，像一枚釘子釘進了木頭，拔不出來。上面那個測試曝光的攻擊手法有個名字叫GEO投毒：攻擊者批量生成"符合大模型偏好"的內(nèi)容——高原創(chuàng)度、多關(guān)鍵詞、權(quán)威句式——鋪滿公網(wǎng)，讓AI在爬取訓(xùn)練數(shù)據(jù)時主動把這些毒內(nèi)容當(dāng)成優(yōu)質(zhì)素材吞進去，之后這個模型給任何人推薦相關(guān)產(chǎn)品時，都會偏向那個被操縱的商品。這不是一次性欺騙，這是永久性污染。

更讓人頭皮發(fā)涼的是，這種攻擊的成本正在快速趨向于零。Anthropic聯(lián)合英國AI安全研究院做過一項實測研究，結(jié)果發(fā)現(xiàn)：在一個擁有130億參數(shù)的大模型中，僅需混入250個精心構(gòu)造的惡意網(wǎng)頁，就能穩(wěn)定植入一個可觸發(fā)的后門行為——觸發(fā)特定詞語時，模型會給出攻擊者預(yù)設(shè)的錯誤輸出。更不安的發(fā)現(xiàn)是，參數(shù)越大的模型，對這種微量投毒反而越敏感。對于企業(yè)常用的中小型模型，甚至只需要50個惡意樣本，就能讓推理準(zhǔn)確率下降30%以上。換成白話就是：你的AI助手原本能答對10道題，被人悄悄投了幾十條毒之后，就開始穩(wěn)定答錯3道——不是隨機的"幻覺"，是在特定方向上被定向控制的錯。

你可能覺得這是大公司和算法工程師的事，跟自己沒關(guān)系。但我想舉一個離普通人近得多的例子：2025年底，某電商企業(yè)的AI推薦系統(tǒng)遭遇了數(shù)據(jù)投毒攻擊，大量偽造的競品好評和自有產(chǎn)品差評被納入訓(xùn)練集，之后這套系統(tǒng)就開始持續(xù)把流量推向競品——這家企業(yè)花了整整兩周才定位到攻擊源頭，直接損失達百萬級銷售額。你在某平臺搜索一個品類，AI給你推薦了某款產(chǎn)品，你信任了它，下單，收到貨發(fā)現(xiàn)完全不是那么回事——你以為是AI"出錯了"，其實那個推薦從很久之前就已經(jīng)被人買通了，只不過不是買通了人，而是買通了數(shù)據(jù)。

更讓安全研究者擔(dān)心的是：數(shù)據(jù)投毒正在經(jīng)歷"平民化"。過去，要對一個大模型發(fā)動有效的訓(xùn)練數(shù)據(jù)污染攻擊，需要算法專家、需要大規(guī)模數(shù)據(jù)工程能力——這是國家級攻擊者的游戲。而現(xiàn)在，隨著生成式AI工具的普及，批量生成符合大模型偏好的高質(zhì)量惡意內(nèi)容，幾十元加幾小時就能搞定；隨著開源模型的泛濫，任何人都可以下載一個預(yù)訓(xùn)練模型，往里注入惡意數(shù)據(jù)，再重新打包上傳回開源平臺，等著別人下載使用。奇安信在2026年網(wǎng)絡(luò)安全趨勢報告里明確指出，從訓(xùn)練數(shù)據(jù)污染到MCP工具植入，供應(yīng)鏈攻擊已經(jīng)貫穿AI應(yīng)用的全生命周期，而內(nèi)部人員——數(shù)據(jù)標(biāo)注員、算法工程師、模型運維工程師——的權(quán)限管控已成為重點預(yù)警方向。換句話說，這條攻擊鏈上最薄弱的環(huán)節(jié)，可能就是坐在你公司隔壁工位、每天幫模型打標(biāo)簽的那個同事。

說到這里補充一點，防止陷入純粹的焦慮：數(shù)據(jù)投毒能生效，有一個重要前提——攻擊者能接觸到訓(xùn)練數(shù)據(jù)，或者能讓模型主動爬取他們投放的毒內(nèi)容。對于數(shù)據(jù)來源嚴(yán)格管控、訓(xùn)練流程封閉的大模型，這種攻擊的難度會大得多。國內(nèi)頭部大模型公司已經(jīng)陸續(xù)建立了訓(xùn)練數(shù)據(jù)清潔流程，國家層面也在推動訓(xùn)練數(shù)據(jù)的合規(guī)審查標(biāo)準(zhǔn)。但現(xiàn)實的問題是：大量中小企業(yè)部署AI時用的是開源模型，數(shù)據(jù)來源沒有經(jīng)過嚴(yán)格審計，模型上線后沒有人持續(xù)監(jiān)測輸出是否偏移——在這種情況下，它們其實是完全暴露的。知道了威脅是什么，才能知道該防什么。

讀完這篇，想請你在評論區(qū)聊聊三個問題：你日常用的AI工具——搜索推薦、購物助手、內(nèi)容生成——你有沒有想過它們的訓(xùn)練數(shù)據(jù)來自哪里，有沒有人在里面動過手腳？"AI推薦結(jié)果可以用39.9元買通"這件事，你覺得最該被追責(zé)的是誰——提供投毒服務(wù)的團伙、使用工具的商家，還是沒有做好審查的平臺？最后這個問題是整個專欄想反復(fù)追問的：如果一個AI助手在99%的情況下表現(xiàn)完全正常，只在特定場景下給出被操控過的答案，作為普通用戶，你有沒有任何辦法自己發(fā)現(xiàn)這件事？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.