挑戰 AI 代理人的極限：AcademiClaw 以大學生真實學術需求打造的雙語複雜任務評測基準

本研究推出 AcademiClaw 基準測試，涵蓋 80 個源自大學生真實課業與研究的長流程複雜任務。實驗顯示頂尖模型僅能達成 55% 的成功率，揭示了 AI 在學術應用中的侷限與行為特徵。

Problem

現有的 OpenClaw 評測基準多集中於助手級簡單任務，缺乏對 AI 代理人在處理高難度、跨領域且長流程學術任務能力的深入探討，導致評測結果難以反映真實世界的學術研究與專業實作需求。

研究團隊開發了 AcademiClaw 雙語基準，從學生提交的 230 個案例中精選 80 個涵蓋 25 個專業領域的真實任務，包括奧賽級數學、GPU 強化學習與全端系統除錯。所有任務均在隔離的 Docker 沙盒中執行，並採用結合六種技術的多元評分量表與五類獨立的安全行為審核指標。

對六款前沿模型的實驗結果顯示，表現最佳的模型僅取得 55% 的通過率。進一步分析揭示了模型在不同領域間存在明顯的能力邊界，且不同模型間的行為策略迥異。此外，研究發現 Token 消耗量與輸出品質之間並無直接關聯，反映出模型在複雜任務中的效率與診斷特徵。

AcademiClaw 透過開源資料與程式碼，為 OpenClaw 社群提供了具備高度診斷價值的資源。這項研究有助於推動 AI 代理人朝向更全面、更具通用性的方向發展，使其能真正協助處理廣泛且複雜的現實學術挑戰，縮補學術需求與現行技術能力間的鴻溝。