Problem
目前大語言模型在應對高難度競技程式設計時,仍面臨嚴密的邏輯推理挑戰。現有的多代理框架通常具備「無狀態」特性,僅依賴靜態檢索,無法保留並利用過去解題或除錯過程中所累積的寶貴經驗,導致模型在面對新問題時難以自我優化。
Method
研究團隊開發了名為 Solvita 的代理演化框架,將解題流程拆解為 Planner、Solver、Oracle 與 Hacker 四個專業代理。每個代理皆配備可訓練的圖狀結構知識網路,透過強化學習將測試結果(如通過與否、弱點偵測等)轉化為網路權重更新。這使系統能根據過往成敗紀錄動態調整策略,實現封閉迴路式的持續學習。
Results
在 CodeContests、APPS 與 Codeforces 真人競賽等多項評測中,Solvita 確立了程式碼生成代理的全新技術指標。其性能不僅超越了現有的多代理管線,準確率更達到單次生成基準(Single-pass baseline)的近兩倍,展現出極強的解題穩定性。
Significance
這項研究的價值在於證明了不需要調整底層大模型權重,即可透過外部演化機制賦予代理「可遷移的推理經驗」。這為開發具備自我進化能力、能處理高難度工程問題的智慧代理系統,提供了一個具備高度擴展性的參考範式。