Problem
推測解碼(Speculative Decoding)面臨草擬樹過大導致的記憶體頻寬與計算資源負擔。雖然動態剪枝技術能降低延遲,但往往會剔除潛在的有效候選字詞,導致接受率無法達到密集草擬樹的上限,形成效能與準確度之間的權衡難題。
Method
提出名為 Graft 的補償框架,採用「先剪枝後嫁接」(prune-then-graft)機制。利用剪枝後釋出的計算資源進行檢索,將具有高度預測性的檢索字詞嵌入被刪除的拓撲空隙中。此方法完全無須額外訓練且不失真,能以極低開銷完成混合草擬樹的構建。
Results
實驗證明 Graft 在各類部署情境中均建立了新的帕累托前緣。在短文本生成基準測試中實現高達 5.41 倍的加速,於大規模模型 Qwen3-235B 上比 EAGLE-3 提升了 21.8% 的推理速度,並在長文本生成中展現出卓越的適應性。
Significance
此研究成功打破了剪枝與接受率之間的負相關限制,為大型語言模型推理提供了一套高效的資源分配方案。其實現了檢索與剪枝的互補優勢,並展現出擴展至塊狀草擬(Block Drafting)等非自迴歸範式的潛力,對優化大規模 AI 部署具有實質貢獻。