VenusBench-Mobile：挑戰真實場景，為行動 GUI 智慧體提供具備能力診斷的使用者導向評測基準

本研究推出 VenusBench-Mobile 評測基準，透過模擬真實使用者意圖與細粒度能力診斷，發現現有行動 GUI 智慧體在感知與記憶力方面的不足，為邁向可靠的實際應用提供關鍵基礎。

Problem

現有的行動 GUI 智慧體評測工具過於以 App 為中心且任務過於單一，無法反映現實生活中行動裝置使用的多樣性與不穩定環境，導致開發者難以精確評估智慧體在面對複雜真實場景時的穩定性與可靠性。

研究團隊開發了 VenusBench-Mobile 評測基準，其核心包含兩大支柱：第一是採用「使用者意圖驅動」的任務設計，真實還原操作邏輯；第二是建立「能力導向」的標記方案，針對智慧體的感知、記憶等行為進行細粒度的診斷分析。

測試顯示即使是頂尖智慧體，在該基準下的表現也遠遜於傳統評測，揭示了感知與記憶能力的缺陷是失敗主因。此外，智慧體在環境變動下表現近乎歸零，顯示其在現實部署中極度脆弱，離大規模應用仍有顯著差距。

這項研究提供了一個更具挑戰性的實驗平台，能精確識別現有技術的短板。透過這套評測基準，研究社群能針對性地改進智慧體的穩健性，為推動行動 GUI 智慧體從受控環境走向複雜的現實世界應用奠定了重要基礎。