Problem
現有的電腦操作代理人(Computer-use Agents)在自動化評估上面臨嚴峻挑戰。傳統以大型語言模型作為評審(LLM-as-judge)的方法,在處理精細的軟體內部狀態時往往不夠精確,且難以量化代理人在複雜多步驟任務中的實際完成進度與錯誤原因。
Method
研究團隊開發了 OpenComputer 框架,整合四大核心組件:(1) 針對特定應用程式開發的狀態驗證器,提供結構化的檢查點;(2) 具備自我演化能力的驗證層,利用執行回饋優化可靠性;(3) 自動化任務生成管線,產出擬真且可機檢的桌面任務;(4) 評估記錄系統,追蹤完整操作軌跡並計算具備稽核特性的部分進度評分。
Results
該框架目前涵蓋瀏覽器、辦公軟體及開發環境等 33 種應用程式,共包含 1,000 項測試任務。實驗證明,OpenComputer 的硬體編碼驗證器比 LLM 評審更貼近人類判斷。測試顯示頂尖模型在端到端完成任務上依然吃力,而開源模型在嚴謹驗證環境下的表現更是大幅下滑,揭示了自動化技術的落差。
Significance
OpenComputer 為 AI 代理人的研究提供了更具公信力的標竿。透過精確的狀態追蹤與評分機制,研究者能更清晰地辨識模型在複雜工作流程中的效能瓶頸,對於推動穩定、可驗證的電腦自動化運作具有指標性意義。