Problem

現有的 AI Agent 評估多仰賴靜態文字描述,忽略了工具在實際執行時的組合性與相依性,導致使用者難以從日益擴張的生態系中,精準媒合符合特定複雜任務需求的 Agent。

Method

建立 AgentSearchBench 基準測試,收錄近萬個真實世界的 Agent 資訊。此框架將搜尋程序定義為檢索與重排序問題,涵蓋執行任務與高階描述兩類查詢,並以實際執行後的效能訊號作為衡量標準。

Results

實驗證實,單純基於語義相似度的檢索方法與 Agent 的真實執行表現存在顯著落差。研究進一步發現,引入輕量級行為探針等執行感知的訊號,能大幅改善 Agent 排序的精準度。

Significance

此研究填補了真實環境下 Agent 搜尋評估的空白,並揭示了「執行訊號」在工具發現過程中的關鍵地位,為未來構建高效能、自動化的 AI Agent 檢索系統提供重要參考。