斷詞還是表徵？深入剖析大型語言模型在多語系與多曆法環境下的時間推理能力

透過 MultiTempBench 評估 20 種模型，發現低資源語言受限於日期斷詞的破碎化，而高資源語言的表現則取決於模型內部表徵的時間線性程度。

Problem

大型語言模型在處理時間推理任務時表現參差不齊，但學界尚不清楚這類能力的障礙究竟源於日期格式在「斷詞」（Tokenisation）階段的缺陷，還是模型對時間概念本身的「內部表徵」（Representation）能力不足。

研究團隊建立涵蓋五種語言與三種曆法（公曆、伊斯蘭曆、農曆）的 MultiTempBench 基準測試。透過開發「多語系日期碎片化比率」（mDFR）並結合幾何探測分析與混合效應回歸，深入評估 20 種模型在日期運算、時區轉換與時間關係分析中的邏輯預測因素。

斷詞品質是低資源語言與罕見曆法的效能瓶頸，嚴重的數位切分會破壞年、月、日的結構，導致準確率崩潰。然而，在高資源語言中，時間線性（Temporal Linearity）的表徵強度才是預測推理表現的最關鍵指標，顯示斷詞在穩定環境下的影響力會減弱。

本研究界定了跨語言時間推理的效能瓶頸，揭示了改善模型表現不能僅靠數據擴充。針對不同語系特徵，必須平衡斷詞策略優化與高階時間表徵能力的提升，為開發具備跨文化時間感知的人工智慧奠定科學基礎。