Problem
現有的影像生成模型受限於訓練時的靜態知識,無法掌握最新的現實世界資訊或專業領域內容,導致在處理需要即時參考或高度依賴外部知識的生成請求時,往往會產生與事實不符或不精確的結果。
Method
團隊提出 Gen-Searcher 代理架構,利用多跳推理進行搜尋以蒐集必要的文字知識與參考影像。研究建構了專屬的 SFT 與強化學習資料集,並引入全新的 KnowGen 評測基準。訓練階段採用強化學習(GRPO)結合文字與影像雙重獎勵回饋,以提供更穩定且具備資訊量的學習訊號。
Results
實驗結果顯示,Gen-Searcher 在 KnowGen 基準測試中較 Qwen-Image 提升了約 16 分,在 WISE 測試中也有 15 分的顯著進步。該模型能精確整合搜尋到的外部資訊,產出更符合真實世界事實且高品質的影像內容。
Significance
此研究是開發搜尋增強影像生成代理的首次嘗試,有效突破了模型內部知識凍結的瓶頸。透過全面開源資料、模型與程式碼,這項工作為未來開發具備自主資訊檢索能力的生成式人工智慧奠定了重要基礎。