AgentSearchBench：首款大規模真實 AI Agent 搜尋基準，解決描述與實測效能落差

本研究提出 AgentSearchBench，收錄近萬個真實 AI Agent，透過檢索與重排序評估搜尋效能。研究發現描述與實測表現存在落差，強調執行訊號在 Agent 搜尋中的關鍵作用。

Problem

現有的 AI Agent 評估多仰賴靜態文字描述，忽略了工具在實際執行時的組合性與相依性，導致使用者難以從日益擴張的生態系中，精準媒合符合特定複雜任務需求的 Agent。

建立 AgentSearchBench 基準測試，收錄近萬個真實世界的 Agent 資訊。此框架將搜尋程序定義為檢索與重排序問題，涵蓋執行任務與高階描述兩類查詢，並以實際執行後的效能訊號作為衡量標準。

實驗證實，單純基於語義相似度的檢索方法與 Agent 的真實執行表現存在顯著落差。研究進一步發現，引入輕量級行為探針等執行感知的訊號，能大幅改善 Agent 排序的精準度。

此研究填補了真實環境下 Agent 搜尋評估的空白，並揭示了「執行訊號」在工具發現過程中的關鍵地位，為未來構建高效能、自動化的 AI Agent 檢索系統提供重要參考。