Problem

現有的多模態大型語言模型(MLLM)在面對預訓練資料分佈外的類別、任務或影像模態時,泛化能力仍然受限。此外,研究發現使用上下文提示(in-context prompting)的效果往往不如單純使用類別名稱,顯示目前的 MLLM 尚未能有效利用少數視覺範例與豐富的文字描述來提升偵測準確度。

Method

提出「偵測提示優化」(DetPO),這是一種無須梯度的黑盒測試端優化技術。針對 API 存取受限或難以微調的大型模型,DetPO 透過在少數視覺訓練範例上最大化偵測準確度來精煉文字提示,並同步校準模型預測的信心值,進而最佳化模型在特定任務上的表現。

Results

在 Roboflow20-VL 與 LVIS 等基準測試中,DetPO 在多款通用型 MLLM 上皆展現穩定的效能提升。實驗數據顯示,該方法相較於過往的黑盒優化路徑,在偵測準確度上最高可提升達 9.7%,有效強化了模型對於長尾類別或特殊場景的辨識力。

Significance

在模型參數日益龐大且運算資源有限的背景下,DetPO 提供了一種低成本且高效的方案。這讓開發者無須接觸模型內部參數或具備高階硬體,即可顯著改善 MLLM 在特定領域物件偵測任務中的實用性,對於推廣少樣本學習應用具有重要參考價值。