Think, Act, Build：基於代理框架與視覺語言模型的動態零樣本 3D 視覺定位技術

本研究提出 TAB 框架，將 3D 定位轉化為動態 2D 到 3D 重建任務。透過 VLM 代理調用視覺工具與幾何擴展機制，在零樣本設定下展現出優於全監督模型的性能。

Problem

傳統的 3D 視覺定位模型過度依賴預先處理的點雲資料，將定位任務簡化為靜態的候選框匹配，這限制了模型處理複雜空間語義的能力，且無法直接應用於原始的影像串流中。

提出名為「Think, Act, Build」(TAB) 的代理框架。此架構將 3D 視覺定位轉化為 2D 到 3D 的生成式重建過程。利用視覺語言模型（VLM）代理動態調用工具追蹤目標，並結合「語義錨定幾何擴展」機制，透過多視角幾何技術將 2D 視覺特徵精準對應至 3D 空間座標。

在 ScanRefer 和 Nr3D 基準測試中，TAB 框架即使完全依賴開源模型，其表現仍顯著超越現有的零樣本方法，甚至優於許多經過完整監督訓練的基準模型。此外，研究團隊也修正了既有測試集中存在的參考歧義與類別錯誤，確保評估的嚴謹性。

本研究成功解耦了複雜的語義理解與幾何結構建立，證明了自動化代理在 3D 環境理解中的優越性。透過提供更精確的評估基準與高效的框架，為未來無監督 3D 視覺導航與機器人互動奠定了重要基礎。