透過編排軌跡優化 LLM 多代理系統：強化學習在任務生成、委託與協作決策中的應用研究

本研究提出「編排軌跡」框架，將 LLM 多代理系統的強化學習視為時間交互圖，分析獎勵設計、信用分配與編排決策三大維度，並揭示目前學術與工業界在規模上的發展差距。

Problem

多代理系統（MAS）正從單一工具調用演進為複雜的團隊協作模式，但現有的強化學習（RL）方法難以有效優化子代理的生成、任務委託、通訊、資訊彙整及停止決策等關鍵協作行為。

引入「編排軌跡」（Orchestration Traces）概念，將互動視為包含生成、委託、通訊與停止等事件的時間交互圖。研究從三大技術軸線展開：包含八類獎勵設計（如並行加速、彙整品質）、八種信用歸因單位（從標記到團隊），以及五項關鍵編排子決策的分析。

透過對 84 篇論文與工業案例（如 OpenAI Codex、Claude Code）的分析，發現當前缺乏針對「停止決策」的明確 RL 訓練方法。此外，研究揭示了學術評估環境與工業部署規模間的顯著差距，並釋出了包含編排軌跡 JSON 格式在內的開源工具包。

本研究為複雜 LLM 團隊的協作自動化建立了理論框架，精確指出訊息層級信用分配等研究空白。這對於開發具備高度自主協作能力、能處理大規模複雜任務的 AI 代理系統具有關鍵的指導價值。