Problem

目前的 GUI 元件定位技術主要依賴參數量超過 2.5B 的大型視覺語言模型(VLM),這類模型因記憶體與運算資源消耗過大,難以部署於手機等資源受限的行動裝置,無法滿足自動化代理所需的即時回應與低延遲需求。

Method

研究團隊捨棄單純縮減大型模型的方法,改採「編碼器-解碼器」架構,並證明其在小參數規模下的表現優於僅解碼器架構。此外,開發了「漸進式資料精煉(Progressive Data Refinement)」管線,從 10.8M 的原始資料中篩選出 3.8M 筆高品質核心樣本,透過任務篩選與比例調整提升模型性能。

Results

GoClick 僅具備 230M 參數量,但在多個基準測試中的定位準確度足以媲美規模大上數倍的模型,且擁有極快的推理速度。實驗顯示,將其整合至雲端協作框架後,能有效協助雲端規劃器進行精準定位,顯著提升任務成功率。

Significance

這項研究為 GUI 代理在行動裝置上的部署提供了可行路徑,證明透過架構優化與高品質資料策略,能在資源受限的環境下實現高效能的視覺定位,對於推動低延遲、邊緣端運算的自動化交互具有重要貢獻。