Problem
大型語言模型在處理時間推理任務時表現參差不齊,但學界尚不清楚這類能力的障礙究竟源於日期格式在「斷詞」(Tokenisation)階段的缺陷,還是模型對時間概念本身的「內部表徵」(Representation)能力不足。
Method
研究團隊建立涵蓋五種語言與三種曆法(公曆、伊斯蘭曆、農曆)的 MultiTempBench 基準測試。透過開發「多語系日期碎片化比率」(mDFR)並結合幾何探測分析與混合效應回歸,深入評估 20 種模型在日期運算、時區轉換與時間關係分析中的邏輯預測因素。
Results
斷詞品質是低資源語言與罕見曆法的效能瓶頸,嚴重的數位切分會破壞年、月、日的結構,導致準確率崩潰。然而,在高資源語言中,時間線性(Temporal Linearity)的表徵強度才是預測推理表現的最關鍵指標,顯示斷詞在穩定環境下的影響力會減弱。
Significance
本研究界定了跨語言時間推理的效能瓶頸,揭示了改善模型表現不能僅靠數據擴充。針對不同語系特徵,必須平衡斷詞策略優化與高階時間表徵能力的提升,為開發具備跨文化時間感知的人工智慧奠定科學基礎。