Solvita：透過代理演化框架賦能大語言模型，解鎖競技程式設計的持續學習與推理能力

本研究提出 Solvita 框架，透過四類代理協作與可訓練的圖狀知識網路，讓模型在不更新權重的狀況下累積解題經驗，顯著提升複雜程式任務的推論品質與成功率。

Problem

目前大語言模型在應對高難度競技程式設計時，仍面臨嚴密的邏輯推理挑戰。現有的多代理框架通常具備「無狀態」特性，僅依賴靜態檢索，無法保留並利用過去解題或除錯過程中所累積的寶貴經驗，導致模型在面對新問題時難以自我優化。

Method

研究團隊開發了名為 Solvita 的代理演化框架，將解題流程拆解為 Planner、Solver、Oracle 與 Hacker 四個專業代理。每個代理皆配備可訓練的圖狀結構知識網路，透過強化學習將測試結果（如通過與否、弱點偵測等）轉化為網路權重更新。這使系統能根據過往成敗紀錄動態調整策略，實現封閉迴路式的持續學習。

Results

在 CodeContests、APPS 與 Codeforces 真人競賽等多項評測中，Solvita 確立了程式碼生成代理的全新技術指標。其性能不僅超越了現有的多代理管線，準確率更達到單次生成基準（Single-pass baseline）的近兩倍，展現出極強的解題穩定性。

Significance

這項研究的價值在於證明了不需要調整底層大模型權重，即可透過外部演化機制賦予代理「可遷移的推理經驗」。這為開發具備自我進化能力、能處理高難度工程問題的智慧代理系統，提供了一個具備高度擴展性的參考範式。