Problem
現有音訊評估基準忽視了波斯語獨特的挑戰,例如古典詩歌的複雜格律、傳統音樂風格以及日常生活中頻繁的程式碼切換(Code-switching),導致研究人員無法有效衡量模型對該語言文化特性的理解深度。
Method
研究團隊開發了 PARSA-Bench,這是首個針對波斯語與文化的音訊語言模型基準測試。該基準包含 16 項任務、超過 8,000 個樣本,內容涵蓋語音理解、副語言分析及文化音訊理解。其中 10 項為全新開發的任務,特別聚焦於詩歌格律(vazn)與風格偵測、傳統音樂辨識及語言混雜偵測。
Results
實驗發現純文字基線模型的表現一致優於音訊對應模型,顯示現有模型主要依賴逐字稿內容,而非音訊本身的資訊。此外,在具備文化背景的格律偵測任務中,不論模型規模大小,其準確率皆接近隨機猜測,反映出當前模型仍難以感知語音的韻律特徵。
Significance
這項研究填補了波斯語音語料庫的學術空白,並指出大型音訊語言模型在跨文化感知與非語義音訊特徵捕捉上的核心弱點,為未來發展更具文化敏感度與韻律感知能力的模型奠定了基礎。