Problem
目前多模型協作流程普遍假設第二個模型能藉由修正首份草稿來提升品質,但學界尚不清楚效能提升究竟是源於「真正的錯誤修正」,還是僅因為更強的模型在第二次嘗試時重新解題。
Method
研究團隊設計了一套受控分解實驗,將第二階段的增長拆解為「重新解題」、「結構支架」與「實質內容」三個加乘組件,並在涵蓋知識密集型選擇題與競爭性程式生成的基準測試上進行評估。
Results
在選擇題中,多數提升源於強模型重新解題,直接調用強模型通常比修正弱模型草稿更有效;但在程式碼生成任務中,即使是語義無效的草稿也能提供關鍵的結構支架,顯著輔助後續模型產出正確答案。
Significance
研究證實了多模型修正的效用存在動態瓶頸,其價值取決於任務特性與草稿品質。這提醒開發者不應盲目採用通用的修正策略,而需針對不同場景設計更精確的協作流程。