Problem
目前的 AI 代理技能在醫療研究領域缺乏專門的審核機制。通用型評估模型難以涵蓋科學誠信、方法論效度、可重複性及邊界安全性等嚴苛要求,導致在佈署這些專業技能時,難以確保其符合醫療研究的高度嚴謹性與安全性標準。
Method
研究團隊開發了 MedSkillAudit (v1.0) 分層審計框架,用於在佈署前評估技能的就緒程度。測試涵蓋五大醫療研究類別共 75 項技能,由兩名專家獨立進行品質評分與發佈建議(如正式生產、限量發佈、僅限 Beta 或拒絕),並透過 ICC(2,1) 與加權 Cohen’s kappa 統計量來衡量系統與專家間的一致性。
Results
實驗結果顯示,MedSkillAudit 的評估一致性 (ICC=0.449) 顯著優於人類專家之間的一致性 (ICC=0.300),且系統評分偏離度小於專家間的歧見。高達 57.3% 的技能因未達標準被歸類為非生產就緒;其中「研究計畫設計」的一致性最高,而「學術寫作」則因審核準則與專家主觀判斷存在落差而呈現負相關。
Significance
這項研究證明了針對特定領域進行佈署前審計的必要性,為醫療研究 AI 代理的治理提供了實務基礎。MedSkillAudit 彌補了通用型品質檢測的不足,能透過結構化的審計流程,確保科學用途的 AI 工具在實際應用中具備更高的可靠性與安全性。