Problem

現有的 AI 代理程式在面對動態且開放的環境時,缺乏有效評估其吸收新資訊並進行即時適應能力的測試平台,傳統靜態基準測試難以衡量模型在現實世界長時程下的應變表現。

Method

研究團隊開發了 FutureSim 框架,讓代理程式在模擬環境中與按時間順序播出的真實新聞互動,並針對 2026 年 1 月至 3 月間發生的全球事件進行預測,藉此測試模型在其訓練知識截止後,如何整合新訊息進行決策。

Results

實驗揭示了模型能力的顯著落差,頂尖代理程式的預測準確率最高僅達 25%,且許多模型的布萊爾技術分數(Brier skill score)甚至低於不作任何預測的基準線,反映出目前的 AI 在處理長期動態事件上仍有嚴重缺陷。

Significance

此研究為長時程測試端適應、檢索增強、記憶及不確定性推理等新興領域提供了真實且嚴苛的評估設定。FutureSim 的設計為衡量 AI 在現實世界開放環境中的進展,開闢了一條標準化且具實作價值的路徑。