Problem
目前的人臉識別編碼器主要針對自然照片訓練,在處理卡通、素描或繪畫等風格化影像時表現極其脆弱。這些系統常將紋理與色彩變化誤判為身分更迭,或無法辨識藝術加工後的幾何誇張化,導致缺乏一套能跨越不同藝術風格與強度、且與人類判斷一致的評估標準。
Method
研究團隊開發了 StyleID 框架,包含兩項核心資料集:(1) StyleBench-H,用於記錄人類對不同擴散模型與流匹配風格化影像的辨識判斷;(2) StyleBench-S,透過二選一強迫選擇(2AFC)心理物理學實驗建構的監督集。藉此資料微調現有的語義編碼器,使其相似度排序能與人類跨風格的感官認知對齊。
Results
實驗結果顯示,經過校準後的模型與人類的主觀判斷呈現高度相關。此外,該模型在處理非訓練領域(Out-of-domain)的藝術家手繪肖像時,展現出顯著提升的魯棒性與辨識準確率。目前所有資料集、程式碼與預訓練模型均已公開發布。
Significance
此研究填補了風格化影像身分一致性評估的空白。透過引入符合人類感知的度量標準,不僅能為藝術化人臉生成任務提供更精準的監督,也為電腦視覺模型在處理多元視覺語義與非寫實影像時,奠定了更強而有力的基礎。