Problem
傳統視覺感知任務多半假設辨識目標所需的證據已包含在影像中或模型的預訓練知識內。然而,現實世界中的物體定位常涉及近期事件、長尾實體或多跳邏輯關係,僅靠封閉式模型難以解析需要外部事實支撐的目標物身分。
Method
研究團隊將此挑戰定義為「感知深度研究」(Perception Deep Research),並建立 WebEye 基準測試,包含 1,927 個任務樣本。同時開發 Pixel-Searcher 工作流,這是一種具備代理(agentic)能力的搜尋到像素架構,能主動透過網頁檢索解析隱藏的目標身分,並將其與邊框、遮罩或答案進行精準綁定。
Results
實驗證明 Pixel-Searcher 在搜尋基礎定位(Grounding)、分割(Segmentation)及問答(VQA)三大任務中,皆取得了開源模型中最強大的性能表現。分析顯示目前的技術瓶頸主要在於外部證據取得、複雜身分解析以及視覺實體綁定的精確度。
Significance
此研究成功將視覺感知從封閉系統推向開放世界,使 AI 具備結合動態網路資訊與細粒度像素處理的能力,為開發高知識密度的多模態代理程式奠定了重要基礎。