修正還是重新解題？拆解多模型協作效能提升的真相：結構支架與內容品質的動態影響

本研究透過受控分解實驗，揭示多大型語言模型協作中效能提升的關鍵因素，指出提升並非純粹來自修正，而是深受任務結構、草稿支架及模型能力的動態影響。

Problem

目前多模型協作流程普遍假設第二個模型能藉由修正首份草稿來提升品質，但學界尚不清楚效能提升究竟是源於「真正的錯誤修正」，還是僅因為更強的模型在第二次嘗試時重新解題。

研究團隊設計了一套受控分解實驗，將第二階段的增長拆解為「重新解題」、「結構支架」與「實質內容」三個加乘組件，並在涵蓋知識密集型選擇題與競爭性程式生成的基準測試上進行評估。

在選擇題中，多數提升源於強模型重新解題，直接調用強模型通常比修正弱模型草稿更有效；但在程式碼生成任務中，即使是語義無效的草稿也能提供關鍵的結構支架，顯著輔助後續模型產出正確答案。

研究證實了多模型修正的效用存在動態瓶頸，其價值取決於任務特性與草稿品質。這提醒開發者不應盲目採用通用的修正策略，而需針對不同場景設計更精確的協作流程。