Problem
大語言模型代理人(LLM Agents)常因「過早利用」(premature exploitation)特質而在陌生環境中失敗,即在尚未掌握足夠環境資訊前,就盲目套用預訓練知識,導致行為僵化、重複且難以達成複雜任務目標。
Method
提出「探索查核點覆蓋率」(Exploration Checkpoint Coverage)量化指標,並開發「先探索再行動」(Explore-then-Act)訓練範式。該策略交替執行「任務執行」與「自主探索」兩種回合,分別由對應的驗證獎勵進行優化,將資訊搜集與任務執行過程正式解耦。
Results
系統化評估顯示,相較於傳統僅關注任務導向的強化學習,此策略能引導代理人發現更多關鍵狀態與物件,克服狹隘且重複的行為模式。在給予互動預算的前提下,代理人能更有效地將環境知識轉化為下游任務的成功率。
Significance
本研究強調了系統化探索對於構建通用型人工智慧的重要性,並為開發能應對現實世界複雜變動、具備高度自主適應性的智慧代理人提供了具體的評估工具與訓練框架。