Problem

前沿 AI 模型在處理「不完全資訊(部分可觀察性)」、「賽局理論推理」以及「長程規劃(long-horizon planning)」時仍面臨嚴峻挑戰,而現有的基準測試極少能在真實條件下同時考驗並給予這三項核心能力足夠的壓力測試。

Method

建立「PokeAgent 挑戰賽」大型基準測試,透過兩大互補賽道進行評估: 1. 對戰賽道(Battling Track):專注於不完全資訊下的策略推理與泛化能力,釋出逾 2,000 萬筆對戰軌跡資料,並提供啟發式、強化學習(RL)與大型語言模型(LLM)的高水準基準模型。 2. 競速通關賽道(Speedrunning Track):首創角色扮演遊戲(RPG)競速的標準化評估框架,著重長程規劃與序列決策,並開源多代理協同編排系統以支援 LLM 方法的模組化與可重複評測。

Results

NeurIPS 2025 競賽吸引逾百支隊伍參與,評測結果顯示通用型模型(LLM)、專精型模型(RL)與頂尖人類玩家之間仍存在顯著的實力落差。透過 BenchPress 評估矩陣分析表明,寶可夢對戰與標準 LLM 基準測試幾乎呈正交(orthogonal)關係,能測量出現有測試套件無法捕捉的 AI 決策能力。

Significance

本研究將寶可夢環境確立為一個尚未被徹底攻克的高難度基準,有效填補了現有 LLM 評估工具在複雜決策上的空白。該專案目前已轉型為具備即時排行榜的動態基準平台,預期將持續推動強化學習與大型語言模型的前瞻研究發展。