及時止損！STOP：透過學習早期路徑剪枝技術大幅提升大語言模型並行推理效率

本研究提出 STOP 框架，透過首創的路徑剪枝分類學與可學習內部訊號技術，有效剪除低價值推理路徑。實驗證明能在節省資源的同時，顯著提升大型推理模型的準確率。

Problem

並行推理雖然能強化大語言模型（LRMs）的表現，但若推理過程早期出錯，後續生成的大量無效路徑會造成極高的運算資源浪費。目前學界對於如何在字首層級（prefix level）進行有效的路徑剪枝，仍缺乏統一且系統化的標準框架。

研究團隊建立了首個系統性的路徑剪枝分類學，將現有方法依訊號來源與可學習性分類。基於此分類，本研究針對「可學習內部訊號」開發出名為 STOP（Super TOken for Pruning）的新技術，讓模型具備自動辨識並早期剪除低價值路徑的能力。

在 1.5B 到 20B 參數規模的模型測試中，STOP 的效能與效率均顯著優於現有基準。在固定運算資源下，成功將 GPT-OSS-20B 在 AIME25 競賽題目的準確率從 84% 提升至近 90%，充分驗證了該方法在不同預算下的擴展性。

此研究不僅填補了路徑剪枝領域的理論空白，更提供了具體的實證準則與開源資源。這對於降低高效能推理模型在現實世界中的布署成本，以及優化大規模運算資源的配置具有重要貢獻。