Problem

現有的 OpenClaw 評測基準多集中於助手級簡單任務,缺乏對 AI 代理人在處理高難度、跨領域且長流程學術任務能力的深入探討,導致評測結果難以反映真實世界的學術研究與專業實作需求。

Method

研究團隊開發了 AcademiClaw 雙語基準,從學生提交的 230 個案例中精選 80 個涵蓋 25 個專業領域的真實任務,包括奧賽級數學、GPU 強化學習與全端系統除錯。所有任務均在隔離的 Docker 沙盒中執行,並採用結合六種技術的多元評分量表與五類獨立的安全行為審核指標。

Results

對六款前沿模型的實驗結果顯示,表現最佳的模型僅取得 55% 的通過率。進一步分析揭示了模型在不同領域間存在明顯的能力邊界,且不同模型間的行為策略迥異。此外,研究發現 Token 消耗量與輸出品質之間並無直接關聯,反映出模型在複雜任務中的效率與診斷特徵。

Significance

AcademiClaw 透過開源資料與程式碼,為 OpenClaw 社群提供了具備高度診斷價值的資源。這項研究有助於推動 AI 代理人朝向更全面、更具通用性的方向發展,使其能真正協助處理廣泛且複雜的現實學術挑戰,縮補學術需求與現行技術能力間的鴻溝。