Problem

工業檢測系統在辨識邏輯異常(如數量、類型或位置錯誤)時,常受背景雜訊、光照變化及影像模糊等視覺因素干擾,導致難以區分真正的規則違規與單純的視覺變異。目前的評測基準缺乏在固定邏輯狀態下、系統性變動環境因素的受控實驗設定。

Method

研究團隊開發了包含 10 種製造場景、5 種拍攝條件及 10,395 張影像的 VID-AD 資料集。同時提出一種基於語言的檢測框架,僅利用正常影像生成的文字描述,透過正向語句與合成的矛盾負向語句進行對比學習,使模型能擷取邏輯屬性而非低階像素特徵。

Results

實驗結果證實,該方法在 50 項單類別任務中均顯著優於現有的基準模型。即便在高度視覺干擾的環境下,新框架仍能精確辨識單一或組合式的規則違規,展現出極高的檢測穩定性與準確度。

Significance

此研究為工業異常檢測提供了更具挑戰性且貼近現實的基準,並證明透過語意屬性引導的學習機制,能有效克服視覺雜訊。這為未來開發具備高穩健性與邏輯推理能力的自動化品質控管系統奠定了重要基礎。