ClawGym：建構高效個人代理人的可擴充開發框架，從數據合成到強化學習的完整解決方案

ClawGym 是一個為 Claw 型代理人設計的全生命週期框架，包含 1.35 萬筆的高品質合成資料、強大的訓練流程與精確評測基準，顯著降低了開發複雜工作流代理人的門檻。

Problem

開發能處理本地文件、工具調用與持續工作空間狀態的 Claw 型個人代理人時，長期缺乏系統化的開發框架。主要的瓶頸在於難以大規模合成具備驗證機制的訓練資料，且缺乏將資料合成、模型訓練與診斷性評估有效整合的統一流程。

Method

研究團隊開發了 ClawGym 框架，涵蓋開發全生命週期。首先利用角色驅動意圖合成 1.35 萬筆高品質任務資料（ClawGym-SynData），並搭配擬真工作空間與混合驗證機制；接著透過監督式微調（SFT）與並行沙箱強化學習（RL）訓練模型；最後建立包含 200 個實例的評測基準（ClawGym-Bench）。

Results

該框架成功訓練出具備強大執行能力的代理人模型。ClawGym-SynData 透過過濾與驗證確保了資料的準確性，而 ClawGym-Bench 經過自動過濾與人機協作審核，提供了可靠的效能指標，證明了輕量化並行強化學習管線在提升代理人決策品質上的有效性。

Significance

這項研究為個人代理人的規模化開發奠定了基礎。透過開源完整的資料合成工具、訓練框架與評測基準，研究者能更輕易地打造可處理多步驟複雜工作流的 AI 代理人，對推動自動化辦公與個人數位助理的發展具有實質的貢獻。