哈薩克跨語言影評資料集：100,000 筆俄、哈、語碼轉換評論的情感分析研究

本研究發布了來自哈薩克 kino.kz 的大型影評資料集，涵蓋俄語、哈薩克語及混合語言，並透過 Transformer 模型建立情感極性與評分分類的效能基準。

Problem

目前中亞地區缺乏大規模且標記完整的語言處理資源，特別是針對哈薩克地區特有的俄語、哈薩克語及其語碼轉換（Code-switching）混合文本，在情感分析任務上仍面臨資料匱乏與模型效能未明等挑戰。

Method

研究團隊從 kino.kz 網站收集了 2001 年至 2025 年間逾 10 萬筆影評，並進行人工標記語言與情感極性。技術上，本研究對比了傳統詞袋模型（BoW/TF-IDF）與多種多語言 Transformer 模型（如 mBERT、XLM-RoBERTa、RemBERT），針對三類極性分類與五類評分預測進行基準測試。

Results

實驗證明 Transformer 模型在極性分類任務中表現優異，一致超越傳統統計模型。但在五類評分預測任務中，受限於嚴重的類別不平衡，以及不同星等之間細微的情感差異，現有模型的預測表現仍有顯著的提升空間。

Significance

此資料集的釋出填補了中亞多語言 NLP 研究的空白，不僅包含珍貴的混合語言文本，更為跨文化情感分析與語言標記研究提供了具備 24 年跨度的重要基礎設施。