網易首頁 > 網易號 > 正文申請入駐

福井大學團隊突破視覺干擾下的邏輯異常檢測難題

2026-03-30 17:34:29　來源: 科技行者

天津舉報

分享至

在現代工業生產線上，質量檢測就像是產品的"體檢醫生"——需要火眼金睛識別出各種可能的缺陷。然而，傳統的檢測方法在面對一個特殊挑戰時常常束手無策：當生產環境的光線變化、背景雜亂或者圖像模糊時，即使產品本身完全正常，檢測系統也可能誤報警告。更棘手的是，有些缺陷并不是明顯的劃痕或凹陷，而是違反了某種邏輯規則——比如螺絲數量不對、零件擺放位置錯誤，或者不同組件之間的搭配不合理。

福井大學工程學院聯合富山大學的研究團隊最近在這個領域取得了重要突破。這項發表于2026年3月的研究成果（論文編號：arXiv:2603.13964v1），首次系統性地解決了在視覺干擾環境下進行邏輯異常檢測的難題。研究團隊不僅創建了一個專門的數據集VID-AD，還提出了一種全新的基于語言的檢測方法，能夠在各種復雜環境下準確識別產品的邏輯缺陷。

這項研究的重要性在于，它解決了工業界長期面臨的一個實際問題。在真實的生產環境中，檢測設備往往需要在不理想的條件下工作——可能是光線昏暗的車間、背景復雜的流水線，或者由于設備震動導致的圖像模糊。傳統的檢測系統在這些情況下很容易被"誤導"，把正常產品判斷為異常，或者錯過真正的問題。更關鍵的是，很多產品缺陷并不是表面的物理損傷，而是違反了裝配規則或者搭配邏輯。

研究團隊的創新在于將復雜的圖像識別問題轉化為語言理解問題。就好像讓一個經驗豐富的質檢員先用文字描述看到的情況，然后根據這些描述來判斷是否存在問題，而不是直接盯著可能模糊不清的圖像做判斷。這種方法的巧妙之處在于，文字描述能夠提取出產品的核心邏輯信息，而不受視覺環境變化的干擾。

一、工業檢測中的"隱形殺手"：視覺干擾下的邏輯異常

在探討這項研究的具體內容之前，我們需要理解工業檢測面臨的核心挑戰。傳統上，人們認為產品缺陷主要是可見的物理損傷——就像水果表面的撞傷或者金屬零件上的刮痕。然而，在現代制造業中，越來越多的質量問題屬于"邏輯異常"范疇。

邏輯異常可以比作一道菜的配料搭配錯誤。一盤炒飯看起來色澤正常、沒有燒焦，但如果仔細檢查會發現胡蘿卜丁的數量不對，或者應該用蝦仁的地方放成了肉絲。從外觀上看，這盤炒飯沒有明顯的"物理缺陷"，但它違反了標準配方的要求。在工業生產中，這種情況可能表現為電路板上某個位置的元件類型錯誤、機械裝置中螺栓數量不足、或者不同零件之間的相對位置關系不符合設計要求。

更復雜的是，現實的檢測環境往往充滿各種"視覺干擾"。就像在昏暗的廚房里檢查炒飯配料一樣，工業檢測設備經常需要在光線變化、背景雜亂、圖像模糊的條件下工作。這些環境因素就像給質檢員的眼鏡蒙上了一層霧氣，讓本來就難以識別的邏輯問題變得更加困難。

研究團隊通過詳細分析發現，現有的檢測方法主要依賴于圖像的像素級特征。這就好像用顯微鏡觀察細節，在理想條件下效果很好，但一旦環境發生變化——比如光線變暗或者背景變復雜——這些方法就容易"看花眼"，把正常的環境變化誤認為是產品缺陷，或者因為注意力被干擾因素吸引而錯過真正的問題。

以螺絲裝配為例，一個標準的工具托盤上應該有兩顆螺栓、兩個墊圈和兩個螺母，分別放在左、中、右三個指定位置。在理想的白色背景和均勻光照下，任何一種基于圖像的檢測方法都能輕松識別出缺失的螺絲或者放錯位置的零件。然而，當托盤背景換成帶有線纜圖案的復雜紋理，或者在低光照條件下拍攝時，傳統方法往往會被背景紋理干擾，產生大量誤報。更嚴重的是，即使真的缺少了一顆螺絲，系統也可能因為整體圖像質量下降而無法準確定位問題所在。

這個問題在工業界并不罕見。許多制造企業反映，他們的質檢系統在實驗室條件下表現優異，但部署到實際生產線后，誤報率大幅上升，有時甚至需要人工重新檢查大部分被標記為"異常"的產品。這不僅增加了人力成本，還可能影響生產效率。

研究團隊認為，問題的根源在于傳統方法過度依賴低層次的視覺特征，而忽略了人類質檢員的真正優勢——理解和推理產品的邏輯關系。一個有經驗的質檢員在面對復雜環境時，會首先提取出關鍵的語義信息（"這里有兩個螺栓"、"墊圈放在中間位置"），然后基于這些語義信息判斷是否符合標準，而不是糾結于圖像的具體像素值。

正是基于這個洞察，研究團隊決定開發一種全新的檢測方法，讓計算機也能像人類質檢員一樣，先"理解"產品的語義信息，再進行邏輯判斷。

二、創新數據集VID-AD：工業檢測的"標準考場"

為了系統性地研究視覺干擾下的邏輯異常檢測問題，福井大學團隊精心設計了一個名為VID-AD的專門數據集。這個數據集就像是為檢測算法專門設置的"標準考場"，能夠在控制環境變化的同時，準確評估算法識別邏輯問題的真實能力。

VID-AD數據集的設計理念可以比作一場精心設計的考試。想象你要測試一群學生的數學邏輯能力，但同時想了解環境噪音對他們表現的影響。你會準備同樣的數學題目，然后分別在安靜的教室、有背景音樂的環境、光線昏暗的房間等不同條件下讓學生作答。VID-AD數據集采用了類似的思路：保持產品的邏輯狀態不變，但系統性地改變拍攝環境，從而能夠準確區分算法的邏輯理解能力和環境適應能力。

數據集包含了十種不同的制造場景，每種場景都代表一類典型的工業檢測任務。這十種場景涵蓋了工業生產中最常見的邏輯約束類型。比如"木棍場景"主要測試數量和長度約束——標準配置應該包含兩根長藍色木棍和一根短紅色木棍，異常情況可能是木棍數量錯誤或者長短搭配不當。"水果場景"則側重于數量和類型約束，要求三個橙子和兩個獼猴桃的特定組合。

每種場景都定義了兩個相互獨立的邏輯約束。這樣的設計帶來了豐富的異常類型：可能違反第一個約束、違反第二個約束、或者同時違反兩個約束。繼續用考試來比喻，這就像每道題都包含兩個知識點，學生可能在任意一個或兩個知識點上出錯，從而能夠更細致地評估他們的能力分布。

數據集的另一個重要創新是五種不同的拍攝條件設計。默認條件使用純白色背景和理想光照，這相當于"標準考試環境"。然后，研究團隊分別引入了線纜背景、網格背景、低光照和模糊拍攝四種干擾條件。線纜和網格背景模擬了工業環境中常見的復雜背景紋理，就像在有花紋的桌布上檢查餐具擺放。低光照和模糊條件則模擬了照明不足或設備震動等實際問題。

這種設計的巧妙之處在于，對于每個特定場景，產品的邏輯狀態在所有拍攝條件下都保持完全相同。換句話說，一個正常的工具裝配在白色背景下是正常的，在復雜背景下也應該被判斷為正常；一個缺少螺絲的異常裝配在任何環境下都應該被識別為異常。這樣，如果某個檢測算法在復雜環境下的表現明顯下降，就說明它過度依賴了視覺外觀，而不是真正理解了產品的邏輯關系。

數據集的規模也經過了精心考慮。每個具體任務（一個場景配一種拍攝條件）包含50張訓練用的正常樣本、50張測試用的正常樣本，以及大約110張測試用的異常樣本。這個規模既足夠支持有效的算法訓練和評估，又反映了工業界的實際情況——在質量控制中，異常樣本通常比正常樣本少得多，而且獲取異常樣本的成本往往很高。

整個數據集總共包含10395張圖像，形成了50個獨立的一類學習任務。這種設計使得VID-AD不僅可以用于算法開發，還能夠進行詳細的性能分析。研究人員可以分別評估每種邏輯約束類型的檢測難度、不同環境干擾的影響程度，以及各種算法在不同條件下的穩定性表現。

值得特別提到的是，數據集中的異常樣本設計非常細致。除了單一約束違反（只違反數量要求或只違反類型要求），還包含了復合約束違反（同時違反多個要求）。這種設計能夠測試算法處理復雜邏輯問題的能力，就像考試中的綜合題，需要學生同時運用多個知識點才能正確解答。

三、突破性方法：從"看圖識病"到"讀懂描述"

面對傳統視覺檢測方法在復雜環境下的局限性，福井大學團隊提出了一個顛覆性的解決思路：既然直接分析圖像容易被視覺干擾誤導，那么何不先將圖像轉換為文字描述，然后基于文字內容進行邏輯分析呢？

這個想法可以用醫療診斷來類比。傳統的圖像檢測方法就像讓計算機直接觀察X光片的像素點來診斷疾病，如果X光片質量不佳或者有干擾因素，診斷準確性就會大打折扣。而新方法相當于先讓一位經驗豐富的放射科醫生觀察X光片并寫出詳細的影像報告，然后讓另一位專家基于這份文字報告來做最終診斷。文字報告能夠過濾掉圖像質量問題，專注于醫學上真正重要的發現。

具體實施過程可以分為三個關鍵步驟。首先是"圖像理解"階段，研究團隊使用了先進的視覺-語言模型（類似于能夠"看懂"圖片并用文字描述的AI助手）將每張產品圖像轉換為結構化的文字描述。這個過程就像請一位經驗豐富的質檢員仔細觀察產品，然后口述他看到的關鍵信息："有兩個藍色的長木棍，一個紅色的短木棍"或者"工具盒的左側有兩顆螺栓，中間有兩個墊圈"。

關鍵是這種文字描述專注于邏輯相關的屬性——數量、顏色、類型、位置關系等，而自動忽略了環境背景、光照條件等無關因素。就像質檢員在描述時會說"螺絲數量正確"而不會說"背景有點暗"，文字描述天然地具備了抗干擾能力。

第二個步驟是"負樣本生成"，這是整個方法中最巧妙的創新點之一。由于在實際生產中，異常樣本往往很少且難以獲取，研究團隊開發了一種純文字的"樣本合成"技術。他們的方法是對正常產品的文字描述進行精心修改，創造出邏輯上矛盾但語言上自然的"異常描述"。

這個過程就像改寫劇本。原本的描述是"桌上有三個橙子和兩個獼猴桃"，通過約束性重寫，可以變成"桌上有兩個橙子和兩個獼猴桃"（數量異常）或者"桌上有三個蘋果和兩個獼猴桃"（類型異常）。重要的是，這種修改遵循嚴格的規則：只進行替換操作，不增刪詞匯，保持句子結構完全不變，確保生成的異常描述在語法上完全自然，只是在邏輯內容上存在矛盾。

第三個步驟是"對比學習"，這是訓練AI理解邏輯一致性的核心技術。研究團隊使用了預訓練的語言理解模型（基于著名的BERT架構），通過對比正常描述和異常描述來學習什么是邏輯一致的產品狀態。這個過程類似于訓練一個學生識別語法錯誤：給他看大量正確的句子和對應的錯誤版本，讓他學會區分語法正確和錯誤的表達。

對比學習的巧妙之處在于利用了"隨機丟棄"技術來增強訓練效果。對于同一個正常描述，系統會生成兩個略有不同的內部表示（就像同一段話的兩種不同理解方式），這兩個表示應該被認為是相似的。同時，系統還會看到對應的異常描述，這個表示應該與正常描述明顯不同。通過這種"拉近正常樣本、推遠異常樣本"的訓練方式，AI學會了在語義空間中識別邏輯一致性。

訓練完成后，檢測過程變得極其簡潔。對于任何新的產品圖像，系統首先將其轉換為文字描述，然后使用訓練好的語言模型將描述轉換為語義向量。最后，通過計算這個向量與訓練集中正常樣本向量的相似度來判斷產品是否正常。如果新樣本的描述在語義上與已知的正常描述非常相似，就判斷為正常；如果差異很大，就可能存在邏輯異常。

這種方法的優勢在于徹底解耦了邏輯理解和視覺感知。即使圖像質量因為環境變化而下降，只要能夠提取出核心的邏輯信息并轉換為文字，后續的異常檢測就不會受到影響。就像一個經驗豐富的質檢員即使在昏暗的環境中，仍然能夠通過觸摸和計數來確認產品是否符合標準一樣，這種方法專注于產品的本質屬性而不是表面外觀。

四、實驗驗證：全面超越傳統方法的卓越表現

為了驗證新方法的有效性，研究團隊進行了全面的對比實驗。他們選擇了六種代表當前最先進水平的傳統視覺檢測方法作為對比基準，這些方法涵蓋了特征空間分析、重建誤差檢測、知識蒸餾和組件一致性檢查等主流技術路線。

實驗結果令人印象深刻。在所有五種拍攝條件下，新的語言基礎方法都取得了最佳性能。在標準的白色背景條件下，新方法達到了82.5%的檢測準確率，已經顯著超過了表現次佳的傳統方法（69.3%）。更重要的是，當環境變得復雜時，這種優勢變得更加明顯。

環境干擾對傳統方法的影響可以用"多米諾骨牌效應"來形容。當拍攝條件從理想的白色背景變為復雜的線纜背景時，大多數傳統方法的性能都出現了明顯下降。比如EfficientAD方法在白色背景下的準確率為52.6%，但在低光照條件下下降到47.9%，性能波動范圍超過12個百分點。這說明這些方法過度依賴了視覺外觀特征，環境變化直接影響了它們的判斷能力。

相比之下，新方法展現出了令人矚目的穩定性。在五種不同的拍攝條件下，性能波動僅為3.7個百分點，這個數字甚至比一些傳統方法在單一條件下的測量誤差還要小。這種穩定性來源于方法本身的設計原理：由于檢測過程基于語義內容而非視覺外觀，環境變化對最終結果的影響被大幅降低。

研究團隊還進行了詳細的場景分析，發現不同類型的邏輯約束對語言描述的依賴程度不同。在"水果場景"中，新方法的性能波動僅為0.6%，這是因為水果的類型和數量很容易用準確的文字表達。而在"木棍場景"中，性能波動達到9.6%，主要是因為相對長度關系（"長"和"短"）在不同環境下的視覺-語言轉換可能存在一定的不確定性。

這個發現揭示了一個重要的規律：語言基礎檢測方法的有效性與邏輯屬性的"語言表達性"密切相關。那些容易用離散詞匯準確描述的屬性（如具體數量、明確類型）檢測效果更穩定，而那些依賴相對判斷的屬性（如相對長度、相對位置）可能存在一定的描述不確定性。

研究團隊還特別分析了傳統方法失敗的典型案例。通過可視化不同方法在復雜環境下的檢測熱圖，他們發現傳統方法經常被背景紋理、光照變化等無關因素吸引注意力。比如在網格背景條件下，許多方法會將重復的網格模式誤認為異常特征，導致大量誤報。而在低光照條件下，方法往往無法準確定位真正的異常區域，即使存在明顯的邏輯錯誤也可能被忽略。

新方法避免了這些問題，因為它完全不依賴像素級的視覺特征。無論背景多么復雜，光線多么昏暗，只要能夠從圖像中提取出基本的語義信息（"有幾個什么東西"、"放在哪個位置"），就能夠進行準確的邏輯判斷。

為了進一步驗證方法的通用性，研究團隊還測試了不同視覺-語言模型的影響。他們比較了三種不同規模和架構的模型：Qwen2-VL-7B、Llama-3.2-11B和LLaVA-v1.5-13B。結果顯示，雖然不同模型的絕對性能有所差異，但語言基礎方法相比傳統視覺方法的優勢在所有模型上都得到了一致的驗證。這說明方法的有效性不依賴于特定的技術實現，而是源于從視覺到語義的根本性轉變。

特別值得一提的是，新方法在計算效率方面也表現出色。雖然需要額外的圖像到文字轉換步驟，但由于避免了復雜的像素級特征提取和比對，整體檢測速度反而有所提升。這對工業應用來說是一個重要優勢，因為實時性往往是部署檢測系統的關鍵考慮因素。

五、深入洞察：語言表達能力決定檢測效果

通過深入分析實驗數據，研究團隊發現了一個有趣而重要的現象：不同制造場景下方法性能的差異主要取決于相關邏輯屬性的"語言表達能力"。這個發現為理解語言基礎檢測方法的優勢和局限提供了重要洞察。

所謂語言表達能力，是指某種邏輯屬性能夠用自然語言準確、一致地描述的程度。就像有些概念很容易用語言表達（"三個蘋果"、"紅色汽車"），而有些概念很難用語言精確描述（某種特定的香味、微妙的情感狀態）。在工業檢測語境下，不同類型的邏輯約束在語言表達上也存在顯著差異。

數量和類型屬性具有最強的語言表達能力。無論在什么環境條件下，"三個橙子"就是"三個橙子"，"紅色工具"就是"紅色工具"，這些描述具有明確的語義邊界，不容易產生歧義。因此，涉及數量統計和類型識別的檢測任務在所有環境條件下都表現出極高的穩定性。研究數據顯示，"水果場景"（主要考察數量和類型）的性能標準差僅為0.6%，幾乎不受環境變化影響。

相對屬性的語言表達就復雜得多。當需要描述"長"和"短"的關系時，語言模型需要進行比較判斷，而這種判斷可能受到視覺感知質量的影響。在光線充足、圖像清晰的條件下，"長藍色木棍"和"短紅色木棍"的區分很容易；但在模糊或低光照條件下，長度的相對關系可能變得不那么明確。這解釋了為什么"木棍場景"（涉及長度比較）的性能波動相對較大。

空間關系屬性處于中等表達難度。"左邊"、"右邊"、"上面"、"下面"這樣的空間描述相對明確，但在復雜背景下確定準確的空間位置仍然需要一定的視覺理解能力。研究發現，涉及空間布局的檢測任務性能穩定性介于數量類型任務和相對關系任務之間。

最有趣的是復合關系屬性，比如"餅干類型必須與盤子形狀匹配"這樣的條件約束。這類屬性不僅需要識別單個對象的特征，還需要理解對象之間的邏輯關系。在"餅干場景"中，系統需要同時理解"黃色餅干應該放在方形盤子上"和"黑色餅干應該放在圓形盤子上"這樣的配對規則。雖然每個單獨的概念都容易表達，但它們的組合關系增加了描述的復雜性。

研究團隊通過對比分析不同場景下視覺-語言模型生成的文字描述，直觀地驗證了這個假設。在表達能力強的場景中，不同環境條件下生成的描述高度一致。比如在"水果場景"中，無論背景多么復雜，描述總是準確地捕獲"三個橙子和兩個獼猴桃"這個核心信息。

而在表達能力相對較弱的場景中，環境變化確實會影響描述的一致性。在"木棍場景"的部分案例中，研究團隊發現同樣的圖像在不同條件下可能產生"兩根長藍色木棍和一根短紅色木棍"或者"三根不同長度的彩色木棍"這樣的不同描述。雖然核心信息大致相同，但細節表達的差異足以影響最終的異常檢測結果。

這個發現具有重要的實際指導意義。它表明，在部署語言基礎檢測系統時，應該優先考慮那些邏輯約束容易用語言準確表達的應用場景。對于涉及復雜相對關系或空間推理的檢測任務，可能需要采用更加精細的描述策略或者結合其他技術手段。

同時，這個洞察也為進一步改進方法指明了方向。通過設計更加結構化的描述模板、引入專門的關系描述詞匯、或者采用多輪描述生成策略，可能能夠提升復雜邏輯關系的語言表達準確性，從而進一步提高檢測性能。

六、工業應用前景：從實驗室走向生產線

這項研究的成果不僅在學術上具有重要意義，更為工業界解決實際問題提供了新的可能。當前，許多制造企業都面臨著質量檢測自動化的挑戰，特別是在復雜生產環境下維持檢測準確性的問題。

傳統的解決思路通常是改善拍攝環境——安裝更好的照明設備、使用標準化背景、控制攝像頭震動等。這種方法雖然有效，但成本高昂且不夠靈活。許多生產線由于空間限制或工藝要求，很難創造理想的拍攝條件。而語言基礎檢測方法提供了一種"軟件解決硬件問題"的新思路，通過算法創新來適應復雜環境，而不是花費大量成本改造環境。

在汽車制造行業，發動機裝配工序涉及數百個零部件的精確裝配。傳統的視覺檢測系統容易被發動機艙內復雜的管路、線纜干擾，經常產生誤報。如果采用語言基礎方法，系統可以專注于"第三缸火花塞已安裝"、"冷卻液管路連接正確"等語義層面的檢查，而不被視覺細節干擾。

在電子產品裝配領域，電路板檢測一直是一個技術難點。不同批次的電路板可能使用不同顏色的基板，傳統檢測系統需要為每種顏色重新調整參數。語言基礎方法則可以關注"芯片型號正確"、"電容數量符合要求"等邏輯屬性，實現真正的跨變體通用檢測。

食品包裝行業也是一個重要的應用領域。不同季節、不同供應商的包裝材料可能在顏色、紋理上存在差異，但產品的邏輯要求（如"每盒包含12個單品"、"營養標簽位置正確"）保持不變。語言基礎檢測能夠穿透這些表面變化，專注于真正重要的質量指標。

從部署角度來看，新方法還具有良好的可擴展性。由于檢測邏輯基于文字描述，添加新的產品類型或檢測規則主要涉及文本模板的修改，而不需要重新采集大量圖像數據或重新訓練復雜的視覺模型。這大大降低了系統維護的技術門檻和時間成本。

此外，語言基礎的檢測結果天然具有良好的可解釋性。當系統判斷某個產品存在異常時，可以直接輸出像"檢測到螺絲數量不足：期望2個，實際發現1個"這樣的文字說明，而不是傳統視覺方法那樣只能提供模糊的"異常區域熱圖"。這種可解釋性對于需要人工復核的質量控制流程特別重要。

當然，新方法的部署也面臨一些挑戰。首先是對視覺-語言模型的依賴。雖然這些模型的性能在不斷提升，但在某些特定工業場景下的描述準確性仍有待驗證。其次是實時性要求。盡管語言處理比復雜的圖像分析更加高效，但圖像到文字的轉換步驟仍需要一定的計算時間，在對速度要求極高的生產線上可能需要專門的硬件加速。

研究團隊也認識到，語言基礎檢測方法并不意味著要完全替代傳統的視覺檢測技術。相反，最優的解決方案可能是兩種方法的有機結合：用傳統視覺方法檢測明顯的物理缺陷（如劃痕、變形），用語言基礎方法檢測邏輯異常（如數量錯誤、搭配不當）。這樣的混合策略既能發揮各種方法的優勢，又能相互彌補不足。

從長遠來看，隨著視覺-語言技術的持續發展和工業4.0的深入推進，語言基礎的質量檢測方法有望成為智能制造的重要組成部分。它不僅能提升檢測的準確性和穩定性，還能為建立更加智能、靈活的質量管理系統奠定基礎。

說到底，這項研究代表了工業檢測思維方式的根本性轉變：從"看圖識病"到"讀懂邏輯"。這種轉變可能預示著整個質量控制領域的技術范式更新，就像從人工檢測到自動化檢測的歷史性跨越一樣。雖然新技術還有待進一步完善和驗證，但它已經為解決長期困擾工業界的檢測難題提供了全新的視角和可行的解決方案。

未來，隨著更多工業場景的驗證和技術細節的優化，我們有理由期待這種語言基礎的檢測方法能夠在實際生產線上發揮更大的作用，為制造業的智能化升級貢獻重要力量。對于那些一直為復雜環境下的質量檢測問題而困擾的企業來說，這項研究無疑帶來了新的希望和可能性。

Q&A

Q1：VID-AD數據集有什么特別之處？

A：VID-AD是首個專門針對視覺干擾環境下邏輯異常檢測的數據集。它包含10種制造場景和5種拍攝條件，總共50個檢測任務和10395張圖像。特別之處在于它能夠在保持產品邏輯狀態不變的同時改變視覺環境，從而準確區分算法的邏輯理解能力和環境適應能力。

Q2：為什么傳統視覺檢測方法在復雜環境下容易失效？

A：傳統視覺檢測方法過度依賴圖像的像素級特征，容易被背景變化、光照不均、圖像模糊等環境因素干擾。這些方法就像用顯微鏡看細節，在理想條件下效果很好，但一旦環境復雜就會"看花眼"，把正常的環境變化誤認為產品缺陷，或者被干擾因素分散注意力而錯過真正的問題。

Q3：語言基礎檢測方法是如何工作的？

A：這種方法分三個步驟：首先用視覺-語言模型將產品圖像轉換為文字描述，專注于數量、類型、位置等邏輯相關信息；然后通過約束性文字重寫技術生成異常描述樣本；最后使用對比學習訓練語言模型識別邏輯一致性。檢測時只需將新圖像轉換為文字描述，然后計算與正常樣本描述的語義相似度即可判斷是否異常。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.