突破波斯語音理解瓶頸：PARSA-Bench 全面評估大型音訊語言模型的文化與語義能力

本研究推出首個波斯語音語言模型基準 PARSA-Bench，涵蓋詩歌、音樂與程式碼切換等 16 項任務，揭示現有模型在處理語音韻律與文化細節上的重大缺陷。

Problem

現有音訊評估基準忽視了波斯語獨特的挑戰，例如古典詩歌的複雜格律、傳統音樂風格以及日常生活中頻繁的程式碼切換（Code-switching），導致研究人員無法有效衡量模型對該語言文化特性的理解深度。

研究團隊開發了 PARSA-Bench，這是首個針對波斯語與文化的音訊語言模型基準測試。該基準包含 16 項任務、超過 8,000 個樣本，內容涵蓋語音理解、副語言分析及文化音訊理解。其中 10 項為全新開發的任務，特別聚焦於詩歌格律（vazn）與風格偵測、傳統音樂辨識及語言混雜偵測。

實驗發現純文字基線模型的表現一致優於音訊對應模型，顯示現有模型主要依賴逐字稿內容，而非音訊本身的資訊。此外，在具備文化背景的格律偵測任務中，不論模型規模大小，其準確率皆接近隨機猜測，反映出當前模型仍難以感知語音的韻律特徵。

這項研究填補了波斯語音語料庫的學術空白，並指出大型音訊語言模型在跨文化感知與非語義音訊特徵捕捉上的核心弱點，為未來發展更具文化敏感度與韻律感知能力的模型奠定了基礎。