Problem

傳統科學論文為了符合線性敘事,往往捨棄了失敗的實驗與決策過程,形成「敘事稅」;同時,文字描述與實際執行細節間的落差導致「工程稅」,使得 AI 代理人難以精確理解、重現或擴展現有的研究成果。

Method

提出 Agent-Native 研究物件 (ARA) 協定,將研究重構為包含科學邏輯、具備完整規格的可執行程式碼、保留失敗路徑的探索圖譜,以及基於原始輸出的證據層。配套機制包含實時捕捉開發決策的管理器、將舊有 PDF 轉換為 ARA 的編譯器,以及自動化的 ARA 原生審稿系統。

Results

在 PaperBench 與 RE-Bench 測試中,ARA 將問答準確度從 72.4% 提升至 93.7%,實驗重現成功率由 57.4% 增至 64.4%。研究發現,保留失敗軌跡能顯著加速研究進度,但在某些開放性任務中,也可能在無形中限制了高能力 AI 代理人的跳躍式思考。

Significance

此研究重新定義了科學產出的結構,從「給人類閱讀的敘事」轉向「機器可執行且人類可驗證」的知識封裝。這不僅解決了科學界長久以來的重現性危機,更為未來 AI 代理人自主進行科學發現與規模化協作奠定了關鍵技術基礎。