StyleID：提升風格化人臉辨識一致性的感知導向資料集與評估指標

本研究推出 StyleID 框架，透過 StyleBench-H 與 StyleBench-S 兩大資料集，解決現有人臉識別模型在藝術化影像下失準的問題，成功微調編碼器使其判斷標準更貼近人類感知。

Problem

目前的人臉識別編碼器主要針對自然照片訓練，在處理卡通、素描或繪畫等風格化影像時表現極其脆弱。這些系統常將紋理與色彩變化誤判為身分更迭，或無法辨識藝術加工後的幾何誇張化，導致缺乏一套能跨越不同藝術風格與強度、且與人類判斷一致的評估標準。

Method

研究團隊開發了 StyleID 框架，包含兩項核心資料集：(1) StyleBench-H，用於記錄人類對不同擴散模型與流匹配風格化影像的辨識判斷；(2) StyleBench-S，透過二選一強迫選擇（2AFC）心理物理學實驗建構的監督集。藉此資料微調現有的語義編碼器，使其相似度排序能與人類跨風格的感官認知對齊。

Results

實驗結果顯示，經過校準後的模型與人類的主觀判斷呈現高度相關。此外，該模型在處理非訓練領域（Out-of-domain）的藝術家手繪肖像時，展現出顯著提升的魯棒性與辨識準確率。目前所有資料集、程式碼與預訓練模型均已公開發布。

Significance

此研究填補了風格化影像身分一致性評估的空白。透過引入符合人類感知的度量標準，不僅能為藝術化人臉生成任務提供更精準的監督，也為電腦視覺模型在處理多元視覺語義與非寫實影像時，奠定了更強而有力的基礎。