Problem
開發能處理本地文件、工具調用與持續工作空間狀態的 Claw 型個人代理人時,長期缺乏系統化的開發框架。主要的瓶頸在於難以大規模合成具備驗證機制的訓練資料,且缺乏將資料合成、模型訓練與診斷性評估有效整合的統一流程。
Method
研究團隊開發了 ClawGym 框架,涵蓋開發全生命週期。首先利用角色驅動意圖合成 1.35 萬筆高品質任務資料(ClawGym-SynData),並搭配擬真工作空間與混合驗證機制;接著透過監督式微調(SFT)與並行沙箱強化學習(RL)訓練模型;最後建立包含 200 個實例的評測基準(ClawGym-Bench)。
Results
該框架成功訓練出具備強大執行能力的代理人模型。ClawGym-SynData 透過過濾與驗證確保了資料的準確性,而 ClawGym-Bench 經過自動過濾與人機協作審核,提供了可靠的效能指標,證明了輕量化並行強化學習管線在提升代理人決策品質上的有效性。
Significance
這項研究為個人代理人的規模化開發奠定了基礎。透過開源完整的資料合成工具、訓練框架與評測基準,研究者能更輕易地打造可處理多步驟複雜工作流的 AI 代理人,對推動自動化辦公與個人數位助理的發展具有實質的貢獻。