Problem
現有的室內場景合成技術多將生成內容表示為靜態網格,且物件關節(如門窗開關)通常受限於既有的資產庫。這導致場景缺乏物件級的可操控性,難以根據需求生成具備物理互動能力的全新物件,嚴重限制了具身人工智慧(Embodied AI)與機器人模擬任務的應用潛力。
Method
研發團隊開發了 SceneCode 框架,將室內場景視為「可執行程式碼」而非黑盒網格。系統先由房室級代理人將指令轉為房屋配置,並透過「規劃—設計—評論」循環發送物件需求。每個需求由五種程式碼生成策略之一處理,生成 Blender Python 程式,並經過執行引導的修復與優化循環。最後,這些程式編譯為可模擬資產(如 SDF 格式),並透過場景狀態登錄表維持物件與程式之間的連結與可編輯性。
Results
實驗證明,SceneCode 能產出更符合語言描述的室內場景,且生成的物件具備更乾淨的網格結構與可載入模擬器的關節元數據。與傳統方法相比,這種基於程式碼的生成方式提供了更優異的物件級可操控性與局部編輯能力,在人類評分與下游機器人互動任務中均表現卓越。
Significance
此研究為自動化場景建模提供了新範式,使生成的 3D 環境從單純的視覺模型進化為可互動的物理世界。這對於機器人策略評估與具身 AI 的模擬訓練至關重要,能大幅降低建置高品質、具備物理真實度且可互動之模擬環境的門檻與成本。