Problem
傳統的 3D 視覺定位模型過度依賴預先處理的點雲資料,將定位任務簡化為靜態的候選框匹配,這限制了模型處理複雜空間語義的能力,且無法直接應用於原始的影像串流中。
Method
提出名為「Think, Act, Build」(TAB) 的代理框架。此架構將 3D 視覺定位轉化為 2D 到 3D 的生成式重建過程。利用視覺語言模型(VLM)代理動態調用工具追蹤目標,並結合「語義錨定幾何擴展」機制,透過多視角幾何技術將 2D 視覺特徵精準對應至 3D 空間座標。
Results
在 ScanRefer 和 Nr3D 基準測試中,TAB 框架即使完全依賴開源模型,其表現仍顯著超越現有的零樣本方法,甚至優於許多經過完整監督訓練的基準模型。此外,研究團隊也修正了既有測試集中存在的參考歧義與類別錯誤,確保評估的嚴謹性。
Significance
本研究成功解耦了複雜的語義理解與幾何結構建立,證明了自動化代理在 3D 環境理解中的優越性。透過提供更精確的評估基準與高效的框架,為未來無監督 3D 視覺導航與機器人互動奠定了重要基礎。