Problem

多代理系統(MAS)正從單一工具調用演進為複雜的團隊協作模式,但現有的強化學習(RL)方法難以有效優化子代理的生成、任務委託、通訊、資訊彙整及停止決策等關鍵協作行為。

Method

引入「編排軌跡」(Orchestration Traces)概念,將互動視為包含生成、委託、通訊與停止等事件的時間交互圖。研究從三大技術軸線展開:包含八類獎勵設計(如並行加速、彙整品質)、八種信用歸因單位(從標記到團隊),以及五項關鍵編排子決策的分析。

Results

透過對 84 篇論文與工業案例(如 OpenAI Codex、Claude Code)的分析,發現當前缺乏針對「停止決策」的明確 RL 訓練方法。此外,研究揭示了學術評估環境與工業部署規模間的顯著差距,並釋出了包含編排軌跡 JSON 格式在內的開源工具包。

Significance

本研究為複雜 LLM 團隊的協作自動化建立了理論框架,精確指出訊息層級信用分配等研究空白。這對於開發具備高度自主協作能力、能處理大規模複雜任務的 AI 代理系統具有關鍵的指導價值。