Problem
為爪型代理人(claw-like agents)構建訓練與評估環境目前仍依賴大量人工,過程繁瑣且難以擴展至大規模需求,嚴重限制了相關技術的發展速度與模型驗證的規模。
Method
提出 ClawEnvKit 自動化管線,包含三個核心模組:解析自然語言輸入並提取參數的解析器、產生任務規格與評分配置的生成器,以及確保環境可行性、多樣性與一致性的驗證器,進而打造出 Auto-ClawEval 基準測試。
Results
Auto-ClawEval 包含 24 類、1,040 個環境,其成本僅為人工開發的 13,800 分之一,且品質不亞於人工設計。測試發現透過 harness 工程可提升代理人效能達 15.7%,且目前尚無模型能在此基準達到飽和,顯示其具備高度鑑別力。
Significance
ClawEnvKit 將評測轉化為持續且動態的過程,讓使用者能按需生成驗證環境。此機制亦可作為訓練環境生成器,根據代理人的弱點自適應地調整任務分布,不再受限於既有的使用者日誌,為大規模自主智慧開發提供關鍵基礎。