ArtifactNet：透過鑑定殘差物理特徵，以輕量化框架精準偵測 AI 生成音樂

本研究提出 ArtifactNet 框架，透過提取音訊編解碼器留下的物理偽影，以極低參數量實現高準確率的 AI 音樂偵測，效能顯著超越現有深度學習模型。

Problem

隨著 AI 生成音樂技術快速發展，現有的偵測模型往往面臨參數過於龐大、運算成本高昂，且在面對不同音訊格式時泛化能力不足的問題。特別是現有方法難以精準捕捉神經音訊編解碼器（Neural Audio Codecs）在生成過程中必然留下的微細物理痕跡。

Method

研究團隊開發了 ArtifactNet 框架，將偵測問題轉化為「法醫物理學」分析。該系統由僅 3.6M 參數的 ArtifactUNet 組成，負責從強度頻譜圖中提取編解碼殘差，再透過 HPSS 技術分解為 7 通道特徵，最後交由 0.4M 參數的輕量 CNN 進行分類。此外，研究引入了包含 6,183 首曲目的 ArtifactBench 基準測試集，並透過 WAV/MP3/AAC/Opus 等編解碼感知訓練來強化模型的魯棒性。

Results

在未見過的測試資料集中，ArtifactNet 取得了 F1 分數 0.9829 與僅 1.49% 誤判率（FPR）的優異成績，效能大幅領先 CLAM 與 SpecTTTra 等主流模型。值得注意的是，ArtifactNet 的參數總量僅為 CLAM 的 1/49，且透過編解碼感知訓練，成功將跨格式的機率漂移降低了 83%，有效解決了格式不變性的技術難題。

Significance

這項研究證明了直接提取編解碼層級的物理偽影，比傳統的表徵學習更具備泛化性與效率。ArtifactNet 的輕量化設計使其易於部署，為數位音樂的版權保護、內容真實性鑑定與 AI 治理提供了一套兼具高精確度與低硬體需求的可行方案。