Problem
視覺語言模型(VLM)在處理 3D 問答任務時,通常需要整合來自多個視角的影像標記(visual tokens),這導致資料量過於龐大且包含嚴重冗餘。現有的視覺修剪技術大多僅針對 2D 輸入設計,或是缺乏明確的幾何引導,難以在減少標記數量的同時,兼顧關鍵物件的語義完整性與 3D 空間的場景覆蓋率。
Method
提出的 SeGPruner 框架結合了語義感知與幾何引導兩大策略。首先透過「語義顯著標記選擇器」利用注意力機制保留具備關鍵物體資訊的標記;接著運用「幾何感知標記多樣化器」,綜合考慮語義相關性與 3D 空間幾何距離,補充具備空間差異性的標記,確保模型在極度精簡的標記預算下仍具備全局視野。
Results
實驗結果顯示,SeGPruner 在 ScanQA 與 OpenEQA 等基準測試上表現卓越。與原始模型相比,它成功縮減了 91% 的視覺標記需求,並將推論延遲降低了 86%。更重要的是,在大幅提升運算效率的同時,模型在 3D 推論任務中的表現依舊保持高度競爭力,未因標記削減而犧牲準確度。
Significance
此項研究突破了多視角 3D QA 的效能瓶頸,證明了結合顯著性保留與幾何引導的修剪策略,能有效平衡物件層級的細節與場景層級的空間覆蓋。這對於在硬體資源受限的環境下部署高效能 3D 視覺感知系統具有高度的實務應用價值。