Problem
現有 3D 功能性分割方法多依賴碎片化流程,且在任務解析初期常面臨「視覺盲點」。受限於單一尺度、被動且啟發式的影格選擇,導致模型難以將模糊的自然語言指令精準對應到具體的細粒度互動元件遮罩上。
Method
開發出 UniFunc3D 框架,將多模態大語言模型定位為主動觀察者。該架構在單次推論中整合語義、時間與空間推理,並引入「由粗到精」的主動時空定位策略,使模型能自適應地選擇正確影格,在維持全局情境的同時,聚焦於高細節的互動部件以消除歧義。
Results
在 SceneFun3D 基準測試中,UniFunc3D 在無需任何特定任務訓練的情況下,性能顯著超越現有的訓練與非訓練型方法。其平均交併比(mIoU)獲得了 59.9% 的大幅度相對提升,成功刷新當前的技術領先紀錄(SOTA)。
Significance
這項研究證明了透過整合多維度推理的主動觀察機制,即使不經過特定場景的大規模訓練,也能有效解決複雜 3D 環境中的精準定位難題,為未來機器人感知與自動化空間理解開拓了新的技術路徑。