OpenComputer：構建可驗證軟體世界，精準評估電腦操作代理人的任務執行效能

本研究推出 OpenComputer 框架，透過應用程式狀態驗證器與自我演化機制，為電腦操作 AI 提供包含 33 種程式、1,000 項任務的可驗證評測環境，提升自動化評估的精準度。

Problem

現有的電腦操作代理人（Computer-use Agents）在自動化評估上面臨嚴峻挑戰。傳統以大型語言模型作為評審（LLM-as-judge）的方法，在處理精細的軟體內部狀態時往往不夠精確，且難以量化代理人在複雜多步驟任務中的實際完成進度與錯誤原因。

Method

研究團隊開發了 OpenComputer 框架，整合四大核心組件：(1) 針對特定應用程式開發的狀態驗證器，提供結構化的檢查點；(2) 具備自我演化能力的驗證層，利用執行回饋優化可靠性；(3) 自動化任務生成管線，產出擬真且可機檢的桌面任務；(4) 評估記錄系統，追蹤完整操作軌跡並計算具備稽核特性的部分進度評分。

Results

該框架目前涵蓋瀏覽器、辦公軟體及開發環境等 33 種應用程式，共包含 1,000 項測試任務。實驗證明，OpenComputer 的硬體編碼驗證器比 LLM 評審更貼近人類判斷。測試顯示頂尖模型在端到端完成任務上依然吃力，而開源模型在嚴謹驗證環境下的表現更是大幅下滑，揭示了自動化技術的落差。

Significance

OpenComputer 為 AI 代理人的研究提供了更具公信力的標竿。透過精確的狀態追蹤與評分機制，研究者能更清晰地辨識模型在複雜工作流程中的效能瓶頸，對於推動穩定、可驗證的電腦自動化運作具有指標性意義。