Problem
目前中亞地區缺乏大規模且標記完整的語言處理資源,特別是針對哈薩克地區特有的俄語、哈薩克語及其語碼轉換(Code-switching)混合文本,在情感分析任務上仍面臨資料匱乏與模型效能未明等挑戰。
Method
研究團隊從 kino.kz 網站收集了 2001 年至 2025 年間逾 10 萬筆影評,並進行人工標記語言與情感極性。技術上,本研究對比了傳統詞袋模型(BoW/TF-IDF)與多種多語言 Transformer 模型(如 mBERT、XLM-RoBERTa、RemBERT),針對三類極性分類與五類評分預測進行基準測試。
Results
實驗證明 Transformer 模型在極性分類任務中表現優異,一致超越傳統統計模型。但在五類評分預測任務中,受限於嚴重的類別不平衡,以及不同星等之間細微的情感差異,現有模型的預測表現仍有顯著的提升空間。
Significance
此資料集的釋出填補了中亞多語言 NLP 研究的空白,不僅包含珍貴的混合語言文本,更為跨文化情感分析與語言標記研究提供了具備 24 年跨度的重要基礎設施。