多模態大語言模型乘法運算瓶頸：探究文字、影像與語音輸入下的運算極限與推理機制

本研究開發多模態乘法基準測試，發現大語言模型在數字辨識表現優異，但運算效能隨複雜度增加而劇降。研究指出模型弱點在於運算邏輯而非感知，並深入分析其推理機制。

Problem

儘管多模態大語言模型能精準辨識文字、影像或音訊形式的數字，但在進行多位數乘法運算時卻面臨嚴峻挑戰。現有的基準測試缺乏跨模態的對應資料，導致難以釐清模型在不同輸入形式下的真實算術能力極限與失效原因。

Method

研究團隊開發了一套受控的多模態乘法基準測試，涵蓋數字長度、稀疏度及模態變因。此外，提出「算術負載（C）」作為運算複雜度的預測指標，並透過感知檢查與「強制補完損失探針」技術，將效能問題分解為感知與運算兩個層面，藉此觀察模型對特定推理程序（如分配律或直式乘法）的偏好。

Results

模型準確度隨算術負載增加而驟減，當 C 值大於 100 時表現趨近於零。分析發現，效能低落主要源於運算邏輯而非感知錯誤，模型在數字辨識上維持 99% 以上的準確度。推理分析顯示模型在各模態中皆偏好分配律分解，而針對特定啟發式的微調（LoRA）反而會降低準確度，顯示原始模型已具備調校良好的內部運算路由機制。

Significance

本研究指出多模態模型在處理算術任務時的核心弱點並非「看不懂」或「聽不清」，而是缺乏穩健的運算推理能力。此發現對於開發具備複雜邏輯推理能力的多模態模型具有重要指導價值，並提供了一個跨模態評估運算極限的系統化框架。