Problem
隨著 AI 生成音樂技術快速發展,現有的偵測模型往往面臨參數過於龐大、運算成本高昂,且在面對不同音訊格式時泛化能力不足的問題。特別是現有方法難以精準捕捉神經音訊編解碼器(Neural Audio Codecs)在生成過程中必然留下的微細物理痕跡。
Method
研究團隊開發了 ArtifactNet 框架,將偵測問題轉化為「法醫物理學」分析。該系統由僅 3.6M 參數的 ArtifactUNet 組成,負責從強度頻譜圖中提取編解碼殘差,再透過 HPSS 技術分解為 7 通道特徵,最後交由 0.4M 參數的輕量 CNN 進行分類。此外,研究引入了包含 6,183 首曲目的 ArtifactBench 基準測試集,並透過 WAV/MP3/AAC/Opus 等編解碼感知訓練來強化模型的魯棒性。
Results
在未見過的測試資料集中,ArtifactNet 取得了 F1 分數 0.9829 與僅 1.49% 誤判率(FPR)的優異成績,效能大幅領先 CLAM 與 SpecTTTra 等主流模型。值得注意的是,ArtifactNet 的參數總量僅為 CLAM 的 1/49,且透過編解碼感知訓練,成功將跨格式的機率漂移降低了 83%,有效解決了格式不變性的技術難題。
Significance
這項研究證明了直接提取編解碼層級的物理偽影,比傳統的表徵學習更具備泛化性與效率。ArtifactNet 的輕量化設計使其易於部署,為數位音樂的版權保護、內容真實性鑑定與 AI 治理提供了一套兼具高精確度與低硬體需求的可行方案。