GoClick：230M 參數高效 GUI 元件定位模型，實現行動端低延遲自動化

本研究推出輕量化視覺語言模型 GoClick，透過編碼器-解碼器架構與資料精煉流程，以極小規模參數達成媲美大模型的定位精度，顯著提升行動裝置 GUI 代理的執行效率。

Problem

目前的 GUI 元件定位技術主要依賴參數量超過 2.5B 的大型視覺語言模型（VLM），這類模型因記憶體與運算資源消耗過大，難以部署於手機等資源受限的行動裝置，無法滿足自動化代理所需的即時回應與低延遲需求。

Method

研究團隊捨棄單純縮減大型模型的方法，改採「編碼器-解碼器」架構，並證明其在小參數規模下的表現優於僅解碼器架構。此外，開發了「漸進式資料精煉（Progressive Data Refinement）」管線，從 10.8M 的原始資料中篩選出 3.8M 筆高品質核心樣本，透過任務篩選與比例調整提升模型性能。

Results

GoClick 僅具備 230M 參數量，但在多個基準測試中的定位準確度足以媲美規模大上數倍的模型，且擁有極快的推理速度。實驗顯示，將其整合至雲端協作框架後，能有效協助雲端規劃器進行精準定位，顯著提升任務成功率。

Significance

這項研究為 GUI 代理在行動裝置上的部署提供了可行路徑，證明透過架構優化與高品質資料策略，能在資源受限的環境下實現高效能的視覺定位，對於推動低延遲、邊緣端運算的自動化交互具有重要貢獻。