Problem
現有的規劃評測基準通常僅為固定的題目集合,缺乏靈活的可擴展性與自動驗證機制。這導致評測場景的覆蓋率不足,且任務難度往往取決於表面敘述而非深層結構,難以有效支援大規模模型的規劃訓練或自動化診斷。
Method
研究團隊開發了 PlanningBench 框架,將現實規劃場景抽象化為包含 30 多種任務類型、約束條件與難度因子的分類體系。透過約束驅動的合成管線,該框架能自動生成具備難度控制、品質過濾與實例級驗證清單的規劃問題,實現從固定資料集到可控生成模式的轉型。
Results
評測結果顯示,即使是目前的尖端模型,在面對耦合約束的複雜規劃時仍表現欠佳。然而,利用 PlanningBench 生成的驗證資料進行強化學習,能顯著提升模型在未知基準測試及通用指令遵循任務中的表現。分析進一步指出,明確且定義良好的最佳解能提供更穩定的獎勵訊號與訓練動態。
Significance
這項研究為提升大型語言模型的通用規劃能力提供了關鍵的可持續擴展資源。藉由將規劃任務的建構轉向可控生成與自動驗證,研究者能更精確地診斷模型缺陷,並透過高品質資料訓練出具備更強邏輯性與執行力的 AI 系統。