Problem
現有的行動 GUI 智慧體評測工具過於以 App 為中心且任務過於單一,無法反映現實生活中行動裝置使用的多樣性與不穩定環境,導致開發者難以精確評估智慧體在面對複雜真實場景時的穩定性與可靠性。
Method
研究團隊開發了 VenusBench-Mobile 評測基準,其核心包含兩大支柱:第一是採用「使用者意圖驅動」的任務設計,真實還原操作邏輯;第二是建立「能力導向」的標記方案,針對智慧體的感知、記憶等行為進行細粒度的診斷分析。
Results
測試顯示即使是頂尖智慧體,在該基準下的表現也遠遜於傳統評測,揭示了感知與記憶能力的缺陷是失敗主因。此外,智慧體在環境變動下表現近乎歸零,顯示其在現實部署中極度脆弱,離大規模應用仍有顯著差距。
Significance
這項研究提供了一個更具挑戰性的實驗平台,能精確識別現有技術的短板。透過這套評測基準,研究社群能針對性地改進智慧體的穩健性,為推動行動 GUI 智慧體從受控環境走向複雜的現實世界應用奠定了重要基礎。