透過神經拓撲圖論探究視覺語言模型：揭示跨模態計算中的核心樞紐與行為關聯

本研究利用神經元相關性圖論分析視覺語言模型的內部機制，發現深度增加會使跨模態資訊整合於特定樞紐神經元，為模型解釋性提供了一種介於局部歸因與完整迴路之間的新視角。

Problem

雖然視覺語言模型（VLM）在多模態任務上表現優異，但其內部的神經元群體如何組織並協作完成計算任務，在目前的研究中仍缺乏深入的理解，使得模型如同黑盒子般難以解釋。

研究團隊提出「結構化圖論探測」法，將模型各層定義為由神經元共同活化（co-activations）所構成的層內相關性圖表。透過神經拓撲的視角，分析群體結構是否具備行為意義、隨模態與深度演變的規律，並透過干預手段識別具備因果影響力的內部元件。

實驗證實相關性拓撲結構包含可恢復的行為訊號。隨著模型深度增加，跨模態結構會逐漸整合於一組精簡的「遞迴樞紐神經元」；若針對這些核心樞紐進行定向擾動，將會顯著改變模型的最終輸出，證明了其關鍵的因果地位。

神經拓撲為視覺語言模型的解釋性研究提供了一個理想的中間尺度：它比單純的局部歸因更具資訊量，又比重建完整電路更易於實作，且在實證上與多模態行為緊密相連，為理解大型複雜模型提供了新工具。