Problem

儘管模型剪枝旨在提升效率,但其在不同語言任務間的表現並不一致。剪枝後的模型在檢索或多選題等非生成任務中表現優異,但在需要連續生成的任務中卻經常遭遇效能斷崖,現有研究尚無法有效解釋此現象背後的機制。

Method

本研究從表示層級的角度切入,將語言模型的內部運算分解為三個連續空間:嵌入(Embedding)、對數機率(Logit)以及機率分佈(Probability),藉此系統性地分析剪枝如何影響模型內部的資訊流與特徵表達。

Results

實驗顯示嵌入與對數機率空間對剪枝引起的擾動具備韌性,然而從對數機率到機率空間的非線性轉換會顯著放大這些偏差。在生成過程中,這些偏差會隨時間步長不斷累積,最終導致模型效能嚴重降級;相對地,類別標記機率空間的穩定性與嵌入層的韌性,則支持了非生成任務的效能表現。

Significance

這項分析釐清了剪枝技術在不同應用場景下的有效性邊界,為語言模型的壓縮與優化提供了關鍵的理論基礎與實務指導,指出開發者在針對生成式模型進行剪枝時,必須特別關注非線性轉換所帶來的累積誤差。