Problem

雖然視覺語言模型(VLM)在多模態任務上表現優異,但其內部的神經元群體如何組織並協作完成計算任務,在目前的研究中仍缺乏深入的理解,使得模型如同黑盒子般難以解釋。

Method

研究團隊提出「結構化圖論探測」法,將模型各層定義為由神經元共同活化(co-activations)所構成的層內相關性圖表。透過神經拓撲的視角,分析群體結構是否具備行為意義、隨模態與深度演變的規律,並透過干預手段識別具備因果影響力的內部元件。

Results

實驗證實相關性拓撲結構包含可恢復的行為訊號。隨著模型深度增加,跨模態結構會逐漸整合於一組精簡的「遞迴樞紐神經元」;若針對這些核心樞紐進行定向擾動,將會顯著改變模型的最終輸出,證明了其關鍵的因果地位。

Significance

神經拓撲為視覺語言模型的解釋性研究提供了一個理想的中間尺度:它比單純的局部歸因更具資訊量,又比重建完整電路更易於實作,且在實證上與多模態行為緊密相連,為理解大型複雜模型提供了新工具。