Problem

現有的科學基準測試多侷限於領域知識理解與簡單推理,未能觸及真實研究中核心的探索性質與長程複雜程序,導致難以衡量人工智慧在實際科學發現與複雜實驗設計過程中的真實表現。

Method

研究團隊建構了 PRL-Bench,從 2025 年 8 月後之《物理評論快報》(PRL) 精選 100 篇論文,橫跨天文物理、凝態物理、高能物理、量子資訊及統計物理五大領域。任務設計強調模擬真實研究的端到端工作流,並具備客觀可驗證性。

Results

在多款尖端模型的測試中,表現最佳者的總分仍低於 50 分。結果顯示,目前的模型在處理高難度理論與計算物理研究時,仍無法滿足自動化科學探索所需的嚴謹邏輯、長程規劃與深層推理需求,性能差距顯著。

Significance

PRL-Bench 為通往下一代 AI 科學家的發展路徑奠定了基礎,提供了一個具備領域深度的可靠評估平台。這有助於推動人工智慧系統從單純的輔助工具,轉型為具備自主科學發現能力的先進研究夥伴。