最近有媒體做了一個測試,記者花了39.9元,雇了一個"AI內(nèi)容優(yōu)化"團伙,對方用批量生成的軟文往公網(wǎng)上一鋪,幾個小時后,一個完全虛構(gòu)的商品就出現(xiàn)在了AI大模型的推薦榜單里。不是排名靠后,是"名列前茅"。很多人看完的第一反應(yīng)是:"啊,AI推薦可以買水軍?"但我想說,這個理解只對了一半——買水軍是舊時代的玩法,更深的那層是:花39.9元操控的,不只是這次的推薦結(jié)果,而是AI模型學(xué)習(xí)世界的方式本身。這就是數(shù)據(jù)投毒,AI時代最隱蔽、成本最低、危害最持久的攻擊方式。
![]()
要理解為什么這件事比"買水軍"嚴(yán)重得多,你需要先明白大模型是怎么"學(xué)習(xí)"的。簡單說,大模型的能力來自喂給它的海量訓(xùn)練數(shù)據(jù)——它讀了多少,就"知道"多少,判斷力就是從這些數(shù)據(jù)里提煉出來的。如果訓(xùn)練數(shù)據(jù)是干凈的,模型就會有相對準(zhǔn)確的世界觀;如果訓(xùn)練數(shù)據(jù)里混入了"毒",模型的世界觀就會被悄悄歪掉,而且一旦歪了,你不重新訓(xùn)練就很難糾正——那個錯誤的認(rèn)知已經(jīng)被編碼進了權(quán)重,像一枚釘子釘進了木頭,拔不出來。上面那個測試曝光的攻擊手法有個名字叫GEO投毒:攻擊者批量生成"符合大模型偏好"的內(nèi)容——高原創(chuàng)度、多關(guān)鍵詞、權(quán)威句式——鋪滿公網(wǎng),讓AI在爬取訓(xùn)練數(shù)據(jù)時主動把這些毒內(nèi)容當(dāng)成優(yōu)質(zhì)素材吞進去,之后這個模型給任何人推薦相關(guān)產(chǎn)品時,都會偏向那個被操縱的商品。這不是一次性欺騙,這是永久性污染。
更讓人頭皮發(fā)涼的是,這種攻擊的成本正在快速趨向于零。Anthropic聯(lián)合英國AI安全研究院做過一項實測研究,結(jié)果發(fā)現(xiàn):在一個擁有130億參數(shù)的大模型中,僅需混入250個精心構(gòu)造的惡意網(wǎng)頁,就能穩(wěn)定植入一個可觸發(fā)的后門行為——觸發(fā)特定詞語時,模型會給出攻擊者預(yù)設(shè)的錯誤輸出。更不安的發(fā)現(xiàn)是,參數(shù)越大的模型,對這種微量投毒反而越敏感。對于企業(yè)常用的中小型模型,甚至只需要50個惡意樣本,就能讓推理準(zhǔn)確率下降30%以上。換成白話就是:你的AI助手原本能答對10道題,被人悄悄投了幾十條毒之后,就開始穩(wěn)定答錯3道——不是隨機的"幻覺",是在特定方向上被定向控制的錯。
![]()
你可能覺得這是大公司和算法工程師的事,跟自己沒關(guān)系。但我想舉一個離普通人近得多的例子:2025年底,某電商企業(yè)的AI推薦系統(tǒng)遭遇了數(shù)據(jù)投毒攻擊,大量偽造的競品好評和自有產(chǎn)品差評被納入訓(xùn)練集,之后這套系統(tǒng)就開始持續(xù)把流量推向競品——這家企業(yè)花了整整兩周才定位到攻擊源頭,直接損失達百萬級銷售額。你在某平臺搜索一個品類,AI給你推薦了某款產(chǎn)品,你信任了它,下單,收到貨發(fā)現(xiàn)完全不是那么回事——你以為是AI"出錯了",其實那個推薦從很久之前就已經(jīng)被人買通了,只不過不是買通了人,而是買通了數(shù)據(jù)。
更讓安全研究者擔(dān)心的是:數(shù)據(jù)投毒正在經(jīng)歷"平民化"。過去,要對一個大模型發(fā)動有效的訓(xùn)練數(shù)據(jù)污染攻擊,需要算法專家、需要大規(guī)模數(shù)據(jù)工程能力——這是國家級攻擊者的游戲。而現(xiàn)在,隨著生成式AI工具的普及,批量生成符合大模型偏好的高質(zhì)量惡意內(nèi)容,幾十元加幾小時就能搞定;隨著開源模型的泛濫,任何人都可以下載一個預(yù)訓(xùn)練模型,往里注入惡意數(shù)據(jù),再重新打包上傳回開源平臺,等著別人下載使用。奇安信在2026年網(wǎng)絡(luò)安全趨勢報告里明確指出,從訓(xùn)練數(shù)據(jù)污染到MCP工具植入,供應(yīng)鏈攻擊已經(jīng)貫穿AI應(yīng)用的全生命周期,而內(nèi)部人員——數(shù)據(jù)標(biāo)注員、算法工程師、模型運維工程師——的權(quán)限管控已成為重點預(yù)警方向。換句話說,這條攻擊鏈上最薄弱的環(huán)節(jié),可能就是坐在你公司隔壁工位、每天幫模型打標(biāo)簽的那個同事。
![]()
說到這里補充一點,防止陷入純粹的焦慮:數(shù)據(jù)投毒能生效,有一個重要前提——攻擊者能接觸到訓(xùn)練數(shù)據(jù),或者能讓模型主動爬取他們投放的毒內(nèi)容。對于數(shù)據(jù)來源嚴(yán)格管控、訓(xùn)練流程封閉的大模型,這種攻擊的難度會大得多。國內(nèi)頭部大模型公司已經(jīng)陸續(xù)建立了訓(xùn)練數(shù)據(jù)清潔流程,國家層面也在推動訓(xùn)練數(shù)據(jù)的合規(guī)審查標(biāo)準(zhǔn)。但現(xiàn)實的問題是:大量中小企業(yè)部署AI時用的是開源模型,數(shù)據(jù)來源沒有經(jīng)過嚴(yán)格審計,模型上線后沒有人持續(xù)監(jiān)測輸出是否偏移——在這種情況下,它們其實是完全暴露的。知道了威脅是什么,才能知道該防什么。
讀完這篇,想請你在評論區(qū)聊聊三個問題:你日常用的AI工具——搜索推薦、購物助手、內(nèi)容生成——你有沒有想過它們的訓(xùn)練數(shù)據(jù)來自哪里,有沒有人在里面動過手腳?"AI推薦結(jié)果可以用39.9元買通"這件事,你覺得最該被追責(zé)的是誰——提供投毒服務(wù)的團伙、使用工具的商家,還是沒有做好審查的平臺?最后這個問題是整個專欄想反復(fù)追問的:如果一個AI助手在99%的情況下表現(xiàn)完全正常,只在特定場景下給出被操控過的答案,作為普通用戶,你有沒有任何辦法自己發(fā)現(xiàn)這件事?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.