透過跨語言對齊提升資訊檢索之語義貼近度：解決多語模型中的英語偏向問題

本研究針對多語檢索模型偏好英語資料的現象，提出全新評估指標與訓練策略。僅需極少量樣本，即可顯著強化跨語言對齊能力，並有效解決同語言文件被低估的偏誤問題。

Problem

當檢索庫中同時存在英語與他國語言時，現有多語檢索模型常會優先檢索不相關的英語文件，而非與查詢語言相同且相關的資料。這種現象顯示出傳統模型在跨語言對齊上的侷限，以及過度偏袒英語資料的「英語偏向」問題，導致檢索結果不夠精確。

研究團隊設計了多元的測試情境與評估指標，用以精確量化模型在混合語言環境下的對齊效能。同時提出一種新型訓練策略，僅需使用 2,800 個樣本的小型資料集，即可針對現有的多語嵌入模型進行微調，強化其在不同語言間的語義對齊精度。

實驗證明該方法顯著提升了多種主流多語嵌入模型的跨語言檢索表現。除了成功緩解英語偏向問題，讓模型能更公平地處理同語言文件外，在異質語言環境下的檢索準確度也獲得了實質性的改善。

此研究突破了過去跨語言檢索評估的框架，為建立更公平且精準的多語資訊檢索系統提供了技術實證。僅需極低成本的訓練資料即可達成優化，對於處理包含多種語言的現實世界資料庫具有極高的實用價值與啟發性。