自然語言代理測試框架：將控制邏輯轉化為可攜式自然語言成品的新範式

本研究提出自然語言代理測試框架（NLAH）與智慧執行環境（IHR），將隱藏在程式碼中的控制邏輯轉化為可編輯且具可攜性的自然語言文件，提升代理效能的可移植性與研究價值。

Problem

代理系統（Agent）的效能高度依賴測試框架（harness）的設計，但目前框架邏輯往往嵌入在控制器程式碼或特定的執行環境規範中。這種黑盒化的設計使得控制邏輯難以遷移、比較，且無法作為科學研究對象進行系統性探討。

研究團隊引入「自然語言代理測試框架（NLAHs）」與「智慧框架執行環境（IHR）」。NLAHs 以可編輯的自然語言表達測試框架行為，將邏輯外部化為可執行的成品；而 IHR 則是一個共享的執行環境，透過明確的合約、持久性產出與輕量化適配器來執行這些自然語言描述的邏輯。

透過在程式碼編寫與電腦操作基準測試中的對照評估，研究證實了 NLAHs 在操作可行性、模組消融實驗以及從傳統程式碼遷移至自然語言框架的過程中，均展現出優異的效能與高度的彈性。

這項研究將代理框架從底層執行細節中解耦，使其成為可攜且透明的科學研究對象。這不僅簡化了不同代理系統間的橫向比較，也為開發者提供了一種更直觀、可持續迭代的代理控制邏輯管理方式。