Problem
現有深層研究代理人在處理長程開放式任務時,常因問答資料合成、路徑軌跡建構及推理縮放階段缺乏明確的驗證機制,導致錯誤在各階段傳遞並累積,最終降低了處理複雜問題的準確性與整體效能。
Method
提出以驗證為核心(Verification-centric)的三層架構:首先在 QA 資料合成中引入圖形與代理人驗證以確保解答唯一性;其次於訓練軌跡中植入顯式驗證模式;最後在推理階段讓模型擔任自身驗證器,實現測試端縮放優化。
Results
實驗顯示 Marco DeepResearch 在 BrowseComp 與 BrowseComp-ZH 等基準測試中,顯著超越同級 8B 代理人。在限制 600 次工具調用的情況下,其效能甚至能比肩或超越如 Tongyi DeepResearch-30B 等更大規模的模型。
Significance
本研究證實了透過精細的驗證機制設計,能大幅提升小參數模型處理複雜多步推理任務的效率。這為開發低資源消耗、高準確度的自主 AI 研究工具開闢了新路徑,對學術與產業應用具有重要價值。