Problem

並行推理雖然能強化大語言模型(LRMs)的表現,但若推理過程早期出錯,後續生成的大量無效路徑會造成極高的運算資源浪費。目前學界對於如何在字首層級(prefix level)進行有效的路徑剪枝,仍缺乏統一且系統化的標準框架。

Method

研究團隊建立了首個系統性的路徑剪枝分類學,將現有方法依訊號來源與可學習性分類。基於此分類,本研究針對「可學習內部訊號」開發出名為 STOP(Super TOken for Pruning)的新技術,讓模型具備自動辨識並早期剪除低價值路徑的能力。

Results

在 1.5B 到 20B 參數規模的模型測試中,STOP 的效能與效率均顯著優於現有基準。在固定運算資源下,成功將 GPT-OSS-20B 在 AIME25 競賽題目的準確率從 84% 提升至近 90%,充分驗證了該方法在不同預算下的擴展性。

Significance

此研究不僅填補了路徑剪枝領域的理論空白,更提供了具體的實證準則與開源資源。這對於降低高效能推理模型在現實世界中的布署成本,以及優化大規模運算資源的配置具有重要貢獻。