PlanningBench：建構可擴展且具自動驗證能力的規劃資料集，全面提升大型語言模型的邏輯協作能力

PlanningBench 透過約束驅動合成技術，提供可控、多樣且具自動驗證能力的規劃資料。它不僅能精確評估模型在複雜約束下的表現，更能透過強化學習有效強化模型的泛化規劃能力。

Problem

現有的規劃評測基準通常僅為固定的題目集合，缺乏靈活的可擴展性與自動驗證機制。這導致評測場景的覆蓋率不足，且任務難度往往取決於表面敘述而非深層結構，難以有效支援大規模模型的規劃訓練或自動化診斷。

研究團隊開發了 PlanningBench 框架，將現實規劃場景抽象化為包含 30 多種任務類型、約束條件與難度因子的分類體系。透過約束驅動的合成管線，該框架能自動生成具備難度控制、品質過濾與實例級驗證清單的規劃問題，實現從固定資料集到可控生成模式的轉型。

評測結果顯示，即使是目前的尖端模型，在面對耦合約束的複雜規劃時仍表現欠佳。然而，利用 PlanningBench 生成的驗證資料進行強化學習，能顯著提升模型在未知基準測試及通用指令遵循任務中的表現。分析進一步指出，明確且定義良好的最佳解能提供更穩定的獎勵訊號與訓練動態。

這項研究為提升大型語言模型的通用規劃能力提供了關鍵的可持續擴展資源。藉由將規劃任務的建構轉向可控生成與自動驗證，研究者能更精確地診斷模型缺陷，並透過高品質資料訓練出具備更強邏輯性與執行力的 AI 系統。