精簡草擬，強化檢索：Graft 框架突破推測解碼效能瓶頸，實現超大模型推理加速

本研究提出 Graft 框架，結合剪枝與檢索技術，在降低草擬樹計算開銷的同時，透過填補高品質候選字詞提升接受率，顯著加速大型語言模型的推理效率。

Problem

推測解碼（Speculative Decoding）面臨草擬樹過大導致的記憶體頻寬與計算資源負擔。雖然動態剪枝技術能降低延遲，但往往會剔除潛在的有效候選字詞，導致接受率無法達到密集草擬樹的上限，形成效能與準確度之間的權衡難題。

提出名為 Graft 的補償框架，採用「先剪枝後嫁接」（prune-then-graft）機制。利用剪枝後釋出的計算資源進行檢索，將具有高度預測性的檢索字詞嵌入被刪除的拓撲空隙中。此方法完全無須額外訓練且不失真，能以極低開銷完成混合草擬樹的構建。

實驗證明 Graft 在各類部署情境中均建立了新的帕累托前緣。在短文本生成基準測試中實現高達 5.41 倍的加速，於大規模模型 Qwen3-235B 上比 EAGLE-3 提升了 21.8% 的推理速度，並在長文本生成中展現出卓越的適應性。

此研究成功打破了剪枝與接受率之間的負相關限制，為大型語言模型推理提供了一套高效的資源分配方案。其實現了檢索與剪枝的互補優勢，並展現出擴展至塊狀草擬（Block Drafting）等非自迴歸範式的潛力，對優化大規模 AI 部署具有實質貢獻。