Problem

多模態大模型(MLLM)在處理長流程圖形介面(GUI)自動化任務時,常因負擔過重而面臨記憶衰減、執行進度混淆及數學運算幻覺等挑戰,導致代理程式難以穩定完成複雜且跨度大的操作指令。

Method

研究團隊開發了 UI-Copilot 協同框架,讓執行代理專注於任務操作,並由輕量級副駕駛提供檢索與運算的即時支援。核心技術包含「記憶解耦」,用以區分長期觀察與短期執行語境;以及「工具整合策略優化(TIPO)」,透過單輪預測優化工具選擇,並以多輪滾動優化任務執行策略。

Results

實驗結果顯示,UI-Copilot-7B 在挑戰性的 MemGUI-Bench 測試中達到頂尖性能(SOTA),超越了 GUI-Owl-7B 與 UI-TARS 等模型。此外,在真實世界任務 AndroidWorld 測試中,相較於基礎 Qwen 模型實現了 17.1% 的絕對性能增長。

Significance

此研究證明了協同式架構在處理複雜介面任務時的優越性,透過分工機制與專業化工具調用,有效克服了單一大型模型的內在侷限,為開發具備高泛化能力的自動化智慧助理提供了一套強而有力的框架。