Problem

目前的圖形使用者介面(GUI)代理人多僅能執行表層的元素匹配,缺乏對介面動態邏輯與互動後果的預測能力。現有基準測試通常侷限於黑盒任務完成度或靜態對齊,無法有效衡量模型是否真正理解 GUI 的隱性功能與轉場邏輯。

Method

研究團隊開發了 AutoGUI-v2 基準測試,採用新型的「視覺語言模型與人工協作流程」,遞迴地將跨平台螢幕截圖解析為階層化功能區域。該測試涵蓋 6 種作業系統、共 2,753 個任務,針對區域語義、元素定位及動態狀態預測進行全面評估。

Results

評估結果顯示出明顯的分野:開源模型(如 Qwen3-VL)在功能定位(grounding)上表現優異,而商業模型(如 Gemini-2.5-Pro-Thinking)則在功能描述能力方面領先。然而,所有模型在面對罕見動作的複雜互動邏輯時皆表現不佳,顯示深度功能理解仍是當前的主要挑戰。

Significance

AutoGUI-v2 透過系統性測量代理人的基礎能力,為數位生產力的自動化提供了全新維度。這不僅有助於模型開發更具預測性的介面心理模型,也為未來能真正自主導航複雜數位世界的下一代 AI 代理人奠定了關鍵的評鑑基礎。