跨模態情緒轉換技術 C-MET：讓 AI 說話臉孔生成更生動，精準捕捉諷刺等複雜表情

本研究提出 C-MET 模型，透過對齊語音與視覺的情緒語義向量，突破傳統方法難以生成複雜情緒的限制，大幅提升說話影片的表情真實度與準確性。

Problem

目前的 AI 說話臉孔生成技術在情緒編輯上面臨多重限制。標籤法因分類離散而缺乏細膩度；語音法常將情緒與語義內容混淆，難以精確轉換；影像法則依賴高品質正面參考圖，且難以取得「諷刺」等延伸情緒的參考資料。

提出「跨模態情緒轉換」（C-MET）架構，利用大型預訓練語音編碼器與解耦臉部表情編碼器，在語音與視覺特徵空間之間建立情緒語義向量。此向量能代表不同模態間情緒嵌入的差異，從而精準導引表情生成。

在 MEAD 與 CREMA-D 資料集的實驗證明，C-MET 的情緒準確度比現有最先進方法提升了 14%。即使是訓練過程中未曾見過的延伸情緒，該模型也能產出具備高度表現力的說話影片。

此研究顯著增強了生成式模型在虛擬人與影片編輯中的實用性，解決了跨模態情緒對齊的難題，為未來開發具備高度情感共鳴的人機介面與數位內容創作工具奠定基礎。