揭開網路剪枝在生成與非生成任務表現差異之謎：基於表示層級結構的深度分析

本研究透過分析語言模型內部的表示層級，揭示了網路剪枝在生成任務中失效的原因。研究指出非線性轉換會放大擾動並隨時間累積，導致生成效能衰退，但在非生成任務中則相對穩定。

Problem

儘管模型剪枝旨在提升效率，但其在不同語言任務間的表現並不一致。剪枝後的模型在檢索或多選題等非生成任務中表現優異，但在需要連續生成的任務中卻經常遭遇效能斷崖，現有研究尚無法有效解釋此現象背後的機制。

本研究從表示層級的角度切入，將語言模型的內部運算分解為三個連續空間：嵌入（Embedding）、對數機率（Logit）以及機率分佈（Probability），藉此系統性地分析剪枝如何影響模型內部的資訊流與特徵表達。

實驗顯示嵌入與對數機率空間對剪枝引起的擾動具備韌性，然而從對數機率到機率空間的非線性轉換會顯著放大這些偏差。在生成過程中，這些偏差會隨時間步長不斷累積，最終導致模型效能嚴重降級；相對地，類別標記機率空間的穩定性與嵌入層的韌性，則支持了非生成任務的效能表現。

這項分析釐清了剪枝技術在不同應用場景下的有效性邊界，為語言模型的壓縮與優化提供了關鍵的理論基礎與實務指導，指出開發者在針對生成式模型進行剪枝時，必須特別關注非線性轉換所帶來的累積誤差。