Problem

當人工智慧從單純生成文字轉向完成複雜目標時,對環境動態的建模能力成為核心瓶頸。目前學術界對「世界模型」的定義與標準缺乏共識,導致模型強化學習、影片生成與軟體代理人等領域資訊孤立,難以系統性地評估代理人在不同環境中的表現與限制。

Method

研究團隊建立了「三等級與四法則」的分類體系。三個等級分別為:學習局部轉換的 L1 預測器、支持多步行動模擬的 L2 模擬器,以及能隨新證據更新自身的 L3 演化器。此外,研究將環境區分為物理、數位、社交與科學四大法則類別,並對 400 多篇文獻與 100 多個代表性系統進行深度綜述。

Results

本研究揭示了不同等級模型在特定法則環境下的失效模式,並提出一套以決策為中心的評估原則與「最小可重現評估套件」。同時,針對模型架構、開放性科學問題以及治理挑戰提供了具體的指引,成功整合了分屬不同社群的技術路徑。

Significance

此框架將 AI 的發展路徑從被動的「下一步預測」提升至具備模擬、推演甚至重塑環境能力的「主動世界模型」。這不僅連結了先前孤立的研究社群,更為下一代能在複雜現實世界中自主運作、設計實驗與協作的代理人奠定了理論與實務基礎。