AutoGUI-v2：跨平台多模態圖形介面功能理解基準測試，引領下一代數位代理人技術

本研究推出 AutoGUI-v2 基準測試，透過 2,753 個跨平台任務評估 AI 代理人對 GUI 功能與互動邏輯的深度理解，填補了模型在預測介面動態變化上的能力缺口。

Problem

目前的圖形使用者介面（GUI）代理人多僅能執行表層的元素匹配，缺乏對介面動態邏輯與互動後果的預測能力。現有基準測試通常侷限於黑盒任務完成度或靜態對齊，無法有效衡量模型是否真正理解 GUI 的隱性功能與轉場邏輯。

研究團隊開發了 AutoGUI-v2 基準測試，採用新型的「視覺語言模型與人工協作流程」，遞迴地將跨平台螢幕截圖解析為階層化功能區域。該測試涵蓋 6 種作業系統、共 2,753 個任務，針對區域語義、元素定位及動態狀態預測進行全面評估。

評估結果顯示出明顯的分野：開源模型（如 Qwen3-VL）在功能定位（grounding）上表現優異，而商業模型（如 Gemini-2.5-Pro-Thinking）則在功能描述能力方面領先。然而，所有模型在面對罕見動作的複雜互動邏輯時皆表現不佳，顯示深度功能理解仍是當前的主要挑戰。

AutoGUI-v2 透過系統性測量代理人的基礎能力，為數位生產力的自動化提供了全新維度。這不僅有助於模型開發更具預測性的介面心理模型，也為未來能真正自主導航複雜數位世界的下一代 AI 代理人奠定了關鍵的評鑑基礎。