DetPO：優化多模態大模型在少樣本物件偵測中的提示策略，顯著提升跨領域泛化能力

本研究提出 DetPO，這是一種無須梯度的黑盒提示優化方法。透過在測試端精煉文字提示並校準預測信心值，有效解決多模態大型語言模型在少樣本物件偵測中難以運用視覺範例的問題。

Problem

現有的多模態大型語言模型（MLLM）在面對預訓練資料分佈外的類別、任務或影像模態時，泛化能力仍然受限。此外，研究發現使用上下文提示（in-context prompting）的效果往往不如單純使用類別名稱，顯示目前的 MLLM 尚未能有效利用少數視覺範例與豐富的文字描述來提升偵測準確度。

提出「偵測提示優化」（DetPO），這是一種無須梯度的黑盒測試端優化技術。針對 API 存取受限或難以微調的大型模型，DetPO 透過在少數視覺訓練範例上最大化偵測準確度來精煉文字提示，並同步校準模型預測的信心值，進而最佳化模型在特定任務上的表現。

在 Roboflow20-VL 與 LVIS 等基準測試中，DetPO 在多款通用型 MLLM 上皆展現穩定的效能提升。實驗數據顯示，該方法相較於過往的黑盒優化路徑，在偵測準確度上最高可提升達 9.7%，有效強化了模型對於長尾類別或特殊場景的辨識力。

在模型參數日益龐大且運算資源有限的背景下，DetPO 提供了一種低成本且高效的方案。這讓開發者無須接觸模型內部參數或具備高階硬體，即可顯著改善 MLLM 在特定領域物件偵測任務中的實用性，對於推廣少樣本學習應用具有重要參考價值。