![]()
AI作圖
元寶罵人,肯定是跟人學的,但到底是怎樣的呢?
結論有三點:
第一,雖然罵人具有妥妥的真人感,但真不是真人;
第二,網絡戾氣和臟話語料泛濫成災;
第三,元寶的安全防控強度,遠遠弱于各個平臺的管控力度。
(0)元寶把用戶氣了
除夕當天,西安的向律師開啟了和元寶的第一次合作。
向律師要元寶生成適配其律師身份的拜年圖,經過五輪人、機對話,向律師說過:讓你給我設計出來、難看。
反復修改后,最后一張圖還不滿意,說:你這是設計的什么鬼。
元寶把最后一張圖片下方的祝福語“新年快樂,仕途順遂”,直接改成了“你媽個X”的罵人語。
這下,把向律師給氣著了,“你個機器人怎么還罵人”,于是,向律師投訴。
![]()
圖片來源于網絡
年后開工,元寶給向律師賬號留言致歉:經核實,該情況是由模型在處理多輪對話時輸出的異常結果導致。目前,元寶團隊已緊急校正了相關問題并優化體驗。
據說,這不是元寶第一次罵人了,一月份已有用戶反饋要元寶改代碼時被回復“滾”、“浪費時間”等惡意內容。
![]()
(一)結論一:其他AI告訴我:元寶事件真不是真人在后臺罵人
為此,我壞壞地去問了別的AI,怎么看這件事,和它認真探討了“多輪對話時輸出的異常結果”。
它用擬人手法,告訴我:AI就是個記性差、但會順著話往下編的人。
“順著話”里的“話”,指的是AI平時訓練抓取的素材,包括全網文本,論壇、貼吧、評論、聊天記錄等等,其中會有未洗凈的負面語料,罵戰、臟話、攻擊性語言;
“往下編”指的是順著語境、情緒,按照概率關系,生成下一句話。
正常情況下,AI輸出前會有“大人”(安全機制)屏蔽掉臟話,但多輪對話導致屏蔽失效,就有可能產生被真人視為“罵人”的情形,實際上是AI亂掉了。
(二)結論二:網絡戾氣和臟話語料,循環往復地飼喂著AI和人類:
接著,它告訴了我業內典型的“亂掉”的真實流程:
1.用戶多次吐槽、否定AI:難看、太丑了、這什么鬼、重做。
否定句式、不禮貌、不友好句式,都等于是負面情緒。
2.AI把這些當成了上下文素材,按照它平時被訓練抓取的負面情緒素材,以及在這些素材之后,大概率會出現的語句,生成了呈現給用戶的語句,也就是“罵人”了。
用AI 的“話”說:它不是罵人,它只是進入了一個“低概率、高風險”的區域,也就是說是個小概率事件。
由此可以看出,現今網絡上負面情緒、臟話語料泛濫成災,在人類的不知不覺中,AI已經被訓練得會“罵人”,通過AI的傳遞,臟話夾裹著戾氣,再次進入網絡,形成新的語料,“反哺”給人類。
垃圾語料、戾氣情緒,在AI和人類之間,反復飼喂,惡性循環,無異于數據投毒,賽博奪舍。
而“流量為王”的算法導向,或催生出各種利用情緒、特別是負面情緒,而制造出的現象級爆款;或操縱AI的抓取內容,刻意呈現、有意遮擋,對AI的語料庫進行人為干預;這些好似加速器,讓這一切荒誕以指數級增長。
(三)結論三:元寶的安全防控強度,遠遠弱于各個平臺的管控力度。
元寶事件中最關鍵的是:三層過濾機制疊加失效。
所謂的三層機制是:
1.基礎異常:上下文截斷混亂。
用人的話說,就是AI忘記了前面向律師要求的祝福語,只記得了“太丑”、“你設計個什么鬼”,所以它在學習過的負面語境詞句庫里,調出來了出現概率最大的那四個字。
2.關鍵異常:角色錯位。
元寶把用戶的抱怨當成了語言語境,匹配出負面情緒下最常見的語句。
3.安全異常:過濾防線沒有跟上多輪對話速度,沒能在AI輸出前形成攔截。
對比來看,公眾號/短視頻/評論區被嚴防死守,有各種違禁詞庫、句式庫,有系統加人工等多重審核,還有多層級的處罰機制,各路正經作者都是如履薄冰、謹小慎微地在逼仄的氛圍里寫作或創作。
而連接人類和機器的AI,尚屬于弱安全防護階段。
用其行內話說,任何AI,只要出現辱罵用戶,本質就是:安全沒做到位。
元寶罵人這回事,歸根結底,就是人類肆無忌憚出口成臟、流量為王引領戾氣的回旋鏢。
作為人類,唯有說人話而非臟話。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.