Problem
現有的自動駕駛世界模型多聚焦於未來場景生成,卻忽略了全面的 3D 場景理解。雖然大語言模型(LLM)具備強大推理能力,但缺乏預測未來幾何演變的物理模擬能力,導致語義解釋與實體世界模擬之間存在顯著斷層。
Method
研究團隊開發了 HERMES++ 統一框架,首先利用鳥瞰圖(BEV)表徵將多視角空間資訊轉換為 LLM 相容格式。接著引入 LLM 增強型世界查詢(World Queries)進行知識轉移,並設計「當前至未來連結」機制,將語義脈絡注入幾何演化過程。最後,透過聯合幾何優化策略,整合顯式幾何約束與隱含潛在正則化,確保內部表徵與幾何感知先驗保持一致。
Results
在多項基準測試中,HERMES++ 展現了卓越的性能。它在未來點雲預測以及 3D 場景理解任務上的表現,均超越了專門針對單一任務設計的現有模型,證明了將理解與生成功能整合於單一架構中的協同效應。
Significance
此研究打破了語義推理與物理模擬之間的隔閡,為自動駕駛領域提供了首個高度整合的通用世界模型。HERMES++ 不僅提升了自動駕駛系統對動態環境的預判能力,也為未來具備常識推理與空間感知的體感人工智慧(Embodied AI)發展奠定了重要基礎。