SeGPruner：融合語義與幾何引導的視覺標記修剪技術，大幅提升 3D 問答推論效率

SeGPruner 針對多視角 3D 問答開發，透過語義顯著性與幾何多樣性兩大模組，在精簡 91% 視覺標記的同時保留關鍵物件資訊，顯著降低運算延遲並維持高效能。

Problem

視覺語言模型（VLM）在處理 3D 問答任務時，通常需要整合來自多個視角的影像標記（visual tokens），這導致資料量過於龐大且包含嚴重冗餘。現有的視覺修剪技術大多僅針對 2D 輸入設計，或是缺乏明確的幾何引導，難以在減少標記數量的同時，兼顧關鍵物件的語義完整性與 3D 空間的場景覆蓋率。

提出的 SeGPruner 框架結合了語義感知與幾何引導兩大策略。首先透過「語義顯著標記選擇器」利用注意力機制保留具備關鍵物體資訊的標記；接著運用「幾何感知標記多樣化器」，綜合考慮語義相關性與 3D 空間幾何距離，補充具備空間差異性的標記，確保模型在極度精簡的標記預算下仍具備全局視野。

實驗結果顯示，SeGPruner 在 ScanQA 與 OpenEQA 等基準測試上表現卓越。與原始模型相比，它成功縮減了 91% 的視覺標記需求，並將推論延遲降低了 86%。更重要的是，在大幅提升運算效率的同時，模型在 3D 推論任務中的表現依舊保持高度競爭力，未因標記削減而犧牲準確度。

此項研究突破了多視角 3D QA 的效能瓶頸，證明了結合顯著性保留與幾何引導的修剪策略，能有效平衡物件層級的細節與場景層級的空間覆蓋。這對於在硬體資源受限的環境下部署高效能 3D 視覺感知系統具有高度的實務應用價值。