ClawEnvKit：全自動爪型代理人環境生成工具，大幅提升評測效率與自適應訓練規模

本研究開發 ClawEnvKit 自動化管線，能從自然語言生成經驗證的代理人環境。藉此構建的 Auto-ClawEval 基準測試規模大且成本低，並能實現自適應訓練與即時評測。

Problem

為爪型代理人（claw-like agents）構建訓練與評估環境目前仍依賴大量人工，過程繁瑣且難以擴展至大規模需求，嚴重限制了相關技術的發展速度與模型驗證的規模。

提出 ClawEnvKit 自動化管線，包含三個核心模組：解析自然語言輸入並提取參數的解析器、產生任務規格與評分配置的生成器，以及確保環境可行性、多樣性與一致性的驗證器，進而打造出 Auto-ClawEval 基準測試。

Auto-ClawEval 包含 24 類、1,040 個環境，其成本僅為人工開發的 13,800 分之一，且品質不亞於人工設計。測試發現透過 harness 工程可提升代理人效能達 15.7%，且目前尚無模型能在此基準達到飽和，顯示其具備高度鑑別力。

ClawEnvKit 將評測轉化為持續且動態的過程，讓使用者能按需生成驗證環境。此機制亦可作為訓練環境生成器，根據代理人的弱點自適應地調整任務分布，不再受限於既有的使用者日誌，為大規模自主智慧開發提供關鍵基礎。