藉由重播真實事件評估 AI 適應力：FutureSim 模擬器挑戰模型對未來動態的預測與推理能力

FutureSim 透過依序重播真實新聞與事件，測試 AI 模型在知識截止日期後的適應與預測能力。研究發現目前頂尖模型在長期動態環境中的準確度仍有極大提升空間。

Problem

現有的 AI 代理程式在面對動態且開放的環境時，缺乏有效評估其吸收新資訊並進行即時適應能力的測試平台，傳統靜態基準測試難以衡量模型在現實世界長時程下的應變表現。

研究團隊開發了 FutureSim 框架，讓代理程式在模擬環境中與按時間順序播出的真實新聞互動，並針對 2026 年 1 月至 3 月間發生的全球事件進行預測，藉此測試模型在其訓練知識截止後，如何整合新訊息進行決策。

實驗揭示了模型能力的顯著落差，頂尖代理程式的預測準確率最高僅達 25%，且許多模型的布萊爾技術分數（Brier skill score）甚至低於不作任何預測的基準線，反映出目前的 AI 在處理長期動態事件上仍有嚴重缺陷。

此研究為長時程測試端適應、檢索增強、記憶及不確定性推理等新興領域提供了真實且嚴苛的評估設定。FutureSim 的設計為衡量 AI 在現實世界開放環境中的進展，開闢了一條標準化且具實作價值的路徑。