從網頁到像素：Pixel-Searcher 結合代理搜尋技術，突破視覺感知與外部知識的隔閡

本研究提出 WebEye 基準測試與 Pixel-Searcher 工作流，透過代理搜尋獲取外部知識，將視覺辨識從既有影像知識擴展至動態網路資訊與長尾實體。

Problem

傳統視覺感知任務多半假設辨識目標所需的證據已包含在影像中或模型的預訓練知識內。然而，現實世界中的物體定位常涉及近期事件、長尾實體或多跳邏輯關係，僅靠封閉式模型難以解析需要外部事實支撐的目標物身分。

Method

研究團隊將此挑戰定義為「感知深度研究」（Perception Deep Research），並建立 WebEye 基準測試，包含 1,927 個任務樣本。同時開發 Pixel-Searcher 工作流，這是一種具備代理（agentic）能力的搜尋到像素架構，能主動透過網頁檢索解析隱藏的目標身分，並將其與邊框、遮罩或答案進行精準綁定。

Results

實驗證明 Pixel-Searcher 在搜尋基礎定位（Grounding）、分割（Segmentation）及問答（VQA）三大任務中，皆取得了開源模型中最強大的性能表現。分析顯示目前的技術瓶頸主要在於外部證據取得、複雜身分解析以及視覺實體綁定的精確度。

Significance

此研究成功將視覺感知從封閉系統推向開放世界，使 AI 具備結合動態網路資訊與細粒度像素處理的能力，為開發高知識密度的多模態代理程式奠定了重要基礎。