Problem

現有的多模態搜尋基準測試多將視覺資訊侷限於初始輸入或最終答案,忽略了搜尋過程中「文字與視覺證據反覆交錯、互為條件」的動態需求,無法有效評估 AI 代理在複雜搜尋軌跡中的多模態整合與判斷能力。

Method

研究團隊開發了 InterLV-Search 基準,包含 2,061 個範例,涵蓋主動視覺證據尋求、受控離線交錯搜尋及開放網頁交錯搜尋三個難度層級。此外,本研究亦推出 InterLV-Agent 框架,提供標準化的工具調用介面、搜尋軌跡記錄以及效能評估工具。

Results

實驗結果顯示,目前的私有與開源多模態模型在處理交錯式搜尋時仍有極大差距,表現最佳的模型整體準確率仍低於 50%。研究特別指出,模型在視覺證據的主動尋求、搜尋控制以及多模態證據的跨分支整合方面存在顯著挑戰。

Significance

此研究填補了代理搜尋評估領域的空白,透過引入多層級與多分支的比較任務,為開發能處理複雜資訊、具備視覺理解力的新一代 AI 搜尋代理奠定了關鍵的評估基準與改進方向。