HERMES++：結合 3D 場景理解與未來幾何預測的統一自動駕駛世界模型

本研究提出 HERMES++ 框架，透過整合大語言模型與 BEV 表徵，成功橋接語義理解與物理動態模擬，顯著提升自動駕駛系統對複雜環境的感知與預測能力。

Problem

現有的自動駕駛世界模型多聚焦於未來場景生成，卻忽略了全面的 3D 場景理解。雖然大語言模型（LLM）具備強大推理能力，但缺乏預測未來幾何演變的物理模擬能力，導致語義解釋與實體世界模擬之間存在顯著斷層。

Method

研究團隊開發了 HERMES++ 統一框架，首先利用鳥瞰圖（BEV）表徵將多視角空間資訊轉換為 LLM 相容格式。接著引入 LLM 增強型世界查詢（World Queries）進行知識轉移，並設計「當前至未來連結」機制，將語義脈絡注入幾何演化過程。最後，透過聯合幾何優化策略，整合顯式幾何約束與隱含潛在正則化，確保內部表徵與幾何感知先驗保持一致。

Results

在多項基準測試中，HERMES++ 展現了卓越的性能。它在未來點雲預測以及 3D 場景理解任務上的表現，均超越了專門針對單一任務設計的現有模型，證明了將理解與生成功能整合於單一架構中的協同效應。

Significance

此研究打破了語義推理與物理模擬之間的隔閡，為自動駕駛領域提供了首個高度整合的通用世界模型。HERMES++ 不僅提升了自動駕駛系統對動態環境的預判能力，也為未來具備常識推理與空間感知的體感人工智慧（Embodied AI）發展奠定了重要基礎。